交叉验证报表中的度量值
在交叉验证期间,Analysis Services 将挖掘结构中的数据划分为多个横段,然后迭代测试该结构和任何关联的挖掘模型。 基于此分析,它将为该结构和每个模型输出一组标准的准确性度量值。
该报表包含有关数据中折叠数以及每个折叠中的数据量的一些基本信息,还包含描述数据分布的一组一般性的指标。 通过比较各交叉部分的一般性的指标,您可以评估该结构或模型的可靠性。
Analysis Services 还显示一组用于挖掘模型的详细度量值。 这些度量值依赖于模型类型以及要分析的属性的类型:例如,是离散的还是连续的。
本节提供“交叉验证”报表中包含的度量值列表以及各度量值的含义。 有关如何计算每个度量值的详细信息,请参阅 交叉验证公式。
交叉验证报表中度量值的列表
下表列出了交叉验证报表中出现的度量值。 这些度量值按测试类型进行分组,测试类型在下表的左侧列中提供。 右侧列列出了度量值在报表中出现时的名称,并且简要解释了其含义。
测试类型 | 度量值和说明 |
---|---|
群集 | 适用于聚类分析模型的度量值: 事例可能性:此度量值通常指示事例属于特定群集的可能性。 对于交叉验证,将对分数求和,然后除以事例数,因此在这里,分数是平均事例可能性。 |
分类 | 适用于分类模型的度量值: 真正/ True Negative/ 误报/ 误报:分区中预测状态与目标状态匹配且预测概率大于指定阈值的行或值的计数。 排除目标属性缺少值的事例,这意味着所有值的计数可能不会加起来 |
通过/失败:预测状态与目标状态匹配且预测概率值大于 0 的分区中的行或值的计数。 | |
可能性 | 可能性度量值适用于多个模型类型: 提升:实际预测概率与测试用例中边际概率的比率。 排除对目标属性具有缺失值的行。 此度量值通常显示使用模型时目标结果的概率提高的程度。 均方根误差:所有分区事例的平均误差的平方根,除以分区中的事例数,不包括缺少目标属性值的行。 RMSE 是预测模型的一种流行的估计器。 该分数对每个事例的余数求平均值,以便生成模型误差的单个指示器。 对数分数:每个事例的实际概率的对数,求和后除以输入数据集中的行数,不包括目标属性缺少值的行数。 由于概率用小数表示,因此,对数分数始终是负数。 接近 0 的数字是较好的分数。 原始分数可以具有非常不规则或扭曲的分布,而对数评分与百分比相似。 |
估计 | 仅适用于预测连续数值属性的估计模型的度量值: 均方根误差:将预测值与实际值进行比较时的平均误差。 RMSE 是预测模型的一种流行的估计器。 该分数对每个事例的余数求平均值,以便生成模型误差的单个指示器。 平均绝对误差:将预测值与实际值进行比较时的平均误差,以绝对误差和的平均值计算。 平均绝对误差用于理解预测与实际值在整体上的接近程度。 较小的分数意味着预测更准确。 对数分数:每个事例的实际概率的对数,求和后除以输入数据集中的行数,不包括目标属性缺少值的行数。 由于概率用小数表示,因此,对数分数始终是负数。 接近 0 的数字是较好的分数。 原始分数可以具有非常不规则或扭曲的分布,而对数评分与百分比相似。 |
聚合 | 聚合度量值指示每个分区的结果中的方差: 平均值:特定度量值的分区值的平均值。 标准偏差:模型中所有分区中与特定度量值的平均值的偏差平均值的平均值。 对于交叉验证,此分数值越高,则意味着折叠之间的差异越大。 |