如何创建交叉验证报表

若要在 SQL ServerAnalysis Services 中创建交叉验证报表,必须完成一些步骤,这些步骤与其他类型的准确性图表的步骤略有不同。这是因为交叉验证报表不使用外部数据,而只使用用于定型模型的原始数据。因此,您不需要选择数据源或将数据源中的列映射到挖掘模型中的列。

下面的过程介绍用于配置和生成交叉验证报表的步骤。有关交叉验证的常规信息,请参阅交叉验证(Analysis Services – 数据挖掘)

有关如何创建其他类型的准确性图表的信息,请参阅如何为挖掘模型创建准确性图表

注意注意

只有与当前所选结构相关的模型才可用于交叉验证。如果该结构支持具有不同可预测属性的模型,或支持聚类分析模型和非聚类分析模型的组合,则您必须分别为每个可预测输出创建不同的报表,或为聚类分析模型和非聚类分析模型创建不同的报表。

为交叉验证选择挖掘结构

  1. 在 Business Intelligence Development Studio 中打开数据挖掘设计器。

  2. 在解决方案资源管理器中,打开包含要为其创建报表的结构或模型的数据库。

  3. 在数据挖掘设计器中,双击挖掘结构以打开结构及其相关模型。

  4. 单击**“挖掘准确性图表”**选项卡。

  5. 单击**“交叉验证”**选项卡。

设置交叉验证选项

  1. 在**“交叉验证”选项卡中,对于“折叠计数”**,单击向下箭头,选择一个 1 到 10 之间的数字。默认值为 10。

    **“折叠计数”**表示将在原始数据集中创建的分区数。如果将“折叠计数”设置为 1,则将在不分区的情况下使用定型集。

  2. 对于**“目标属性”**,单击向下箭头,从列表中选择一个列。如果模型是聚类分析模型,则选择 #Cluster,以指示该模型不具有可预测属性。

    只能为每个报表选择一个可预测属性。默认情况下,所有具有同一可预测属性的相关模型都包括在一个报表中。

  3. 对于**“最大事例数”**,键入一个足够大的数字,以便在将数据拆分到指定的折叠数中时提供数据的典型事例。如果数字大于模型定型集中的事例计数,将使用所有的事例。

    如果定型数据集很大,则对**“最大事例数”的值进行设置将会限制已处理事例的总数,从而加快报表完成的速度。但是,您不应将“最大事例数”**设置得过低,否则将没有足够的数据可用于交叉验证。

  4. 或者,对于**“目标状态”**,键入希望建模的可预测属性的值。例如,如果 Bike Buyer 列有两个可能的值:1 (Yes) 和 2 (No),则可以输入值 1 来评估自行车购买者的模型的准确性。

    注意注意

    如果未输入值,“目标阈值”选项将不可用,并且将会针对可预测属性的所有可能的值对该模型进行评估。

  5. 或者,对于**“目标阈值”**,键入一个 0 到 1 之间的十进制数字,来指定预测一定会计为准确的最小概率。

    有关设置概率阈值的详细信息,请参阅交叉验证报表(Analysis Services - 数据挖掘)

  6. 单击**“获取结果”**。

打印报表

  1. 在**“交叉验证”**选项卡中,右键单击已完成的报表。

  2. 在快捷菜单中,选择**“打印”“打印预览”**来预先查看该报表。

在 Microsoft Excel 中创建报表的副本

  1. 在**“交叉验证”**选项卡中,右键单击已完成的报表。

  2. 在快捷菜单中,选择**“全选”**。

  3. 右键单击所选文本,然后选择**“复制”**。

  4. 将所选内容粘贴到一个打开的 Excel 工作簿中。如果使用的是**“粘贴”选项,该报表将作为 HTML 粘贴到 Excel 中,其中保留了行和列的格式。如果使用的是用于文本或 Unicode 文本的“选择性粘贴”**选项粘贴报表,将以行分隔的格式粘贴报表。