创建测试集(数据挖掘向导)

可以使用 “创建测试集” 页指定用于定型的数据量,以及为用作测试集而保留的数据量。 在创建挖掘结构时将数据分成定型集和测试集,可以更方便地评估以后创建的挖掘模型的准确性。

您可以将测试数据量指定为百分比,也可以指定一个数字来限定用于测试的事例的数量。 如果同时指定百分比和用于测试的事例的最大数量,则将同时使用这两个设置,测试数据集将包含较少的事例数。 默认情况下,30 % 的数据用于测试,70 % 的数据用于定型,没有最大测试事例数。

默认情况下,Analysis Services 会生成用于开始分区的数字种子。 此种子基于挖掘结构的名称。 如果希望即使在挖掘结构名称更改的情况下分区仍保持不变,则可以设置挖掘结构的 HoldoutSeed 属性,为种子指定一个值。 如果更改维持种子,则必须重新处理该结构。

如果以后想要更改测试或训练数据量,可以使用“属性”窗口修改HoldoutMaxCases数据挖掘结构的HoldoutMaxPercent属性。 不过,进行更改后,必须重新处理挖掘结构及所有关联挖掘模型。 还存在下列限制:

  • 仅当数据挖掘结构存储在 SQL Server 2008 中时,才支持数据挖掘结构的分区。 早期版本的 SQL Server Analysis Services 不支持缓存挖掘结构的分区信息。

  • 如果挖掘结构包含 Key Time 列(这是时序挖掘模型所必需的),则无法对挖掘结构进行分区。

  • 如果尝试预测的值存储在嵌套表中,则无法对数据进行分区。

有关详细信息:测试和验证(数据挖掘),请创建关系挖掘结构,基本数据挖掘教程

选项

用于测试的数据百分比
单击向上箭头和向下箭头可以增大或减小用作测试数据的数据百分比,也可以在文本框中键入介于 0 到 100 之间的值。

测试数据集中的最大事例数
键入一个数字,以限制可用于测试的事例数。

如果指定的数字大于数据中的实际事例数,则将使用所有事例。

默认值为 NULL。 这表示没有限制。

另请参阅

数据挖掘向导 F1 帮助 (Analysis Services - 数据挖掘)
提供相关列建议(数据挖掘向导)
指定表类型(数据挖掘向导)
指定列的内容和数据类型(数据挖掘向导)