创建交叉验证报表

项目
06/13/2017

本主题演练如何在数据挖掘设计器中使用“准确性图表”选项卡创建交叉验证报表。有关交叉验证报表的外观及其包含的统计度量值的一般信息，请参阅交叉验证 (Analysis Services - 数据挖掘) 。

交叉验证报表在本质上不同于提升图或分类矩阵之类的准确性图表。

交叉验证评估在模型或结构中使用的数据的总体分布情况；因此，您不指定测试数据集。交叉验证始终仅使用用于对模型或挖掘结构进行定型的原始数据。
只能针对单个可预测结果执行交叉验证。如果结构支持具有不同可预测属性的模型，则您必须为每个可预测输出都创建单独的报表。
只有与当前所选结构相关的模型才可用于交叉验证。
如果当前选择的结构支持聚类分析模型和非聚类分析模型的组合，则在你单击“获取结果”时，交叉验证存储过程将自动加载具有相同预测列的模型，并且忽略不共享相同可预测属性的聚类分析模型。
只有在挖掘模型不支持任何其他可预测属性的情况下，您才可以对不具有可预测属性的聚类分析模型创建交叉验证报表。

选择挖掘结构

在 SQL Server Data Tools (SSDT) 中打开数据挖掘Designer。
在解决方案资源管理器中，打开包含要为其创建报表的结构或模型的数据库。
在数据挖掘设计器中，双击挖掘结构以打开结构及其相关模型。
单击 “挖掘准确性图表” 选项卡。
单击 “交叉验证” 选项卡。

设置交叉验证选项

在 “交叉验证” 选项卡中，对于 “折叠计数”，单击向下箭头，选择一个 1 到 10 之间的数字。默认值为 10。

“折叠计数” 表示将在原始数据集中创建的分区数。如果将“折叠计数”设置为 1，则将在不分区的情况下使用定型集。
对于 “目标属性”，单击向下箭头，从列表中选择一个列。如果模型是聚类分析模型，则选择 #Cluster ，以指示该模型不具有可预测属性。请注意，只有在挖掘结构不支持其他类型的可预测属性的情况下，值 #Cluster才可用。

只能为每个报表选择一个可预测属性。默认情况下，所有具有同一可预测属性的相关模型都包括在一个报表中。
对于 “最大事例数”，键入一个足够大的数字，以便在将数据拆分到指定的折叠数中时提供数据的典型事例。如果数字大于模型定型集中的事例计数，将使用所有的事例。

如果定型数据集很大，则对 “最大事例数” 的值进行设置将会限制已处理事例的总数，从而加快报表完成的速度。但是，不应将“最大事例数”设置得过低，否则将没有足够的数据可用于交叉验证。
或者，对于 “目标状态”，键入希望建模的可预测属性的值。例如，如果 [Bike Buyer] 列有两个可能的值：1 (Yes) 和 2 (No)，则可以输入值 1 来仅为预期结果评估模型的准确性。

注意

如果未输入值， “目标阈值” 选项将不可用，并且将会针对可预测属性的所有可能的值对该模型进行评估。
或者，对于 “目标阈值”，键入一个 0 到 1 之间的十进制数字，来指定预测一定会计为准确的最小概率。

有关如何设置概率阈值的更多技巧，请参阅交叉验证报表中的度量值。
单击 “获取结果”。

打印交叉验证报表

在“交叉验证”选项卡中，右键单击已完成的报表。
在快捷菜单中，选择 “打印” 或 “打印预览” 来预先查看该报表。

在 Microsoft Excel 中创建报表的副本

在“交叉验证”选项卡中，右键单击已完成的报表。
在快捷菜单中，选择 “全选”。
右键单击所选文本，然后选择“复制”。
将所选内容粘贴到一个打开的 Excel 工作簿中。如果使用的是 “粘贴” 选项，该报表将作为 HTML 粘贴到 Excel 中，其中保留了行和列的格式。如果使用的是用于文本或 Unicode 文本的“选择性粘贴”选项粘贴报表，将以行分隔的格式粘贴报表。

另请参阅

交叉验证报表中的度量值

通过

创建交叉验证报表

选择挖掘结构

设置交叉验证选项

打印交叉验证报表

在 Microsoft Excel 中创建报表的副本

另请参阅

其他资源