提升图(Analysis Services - 数据挖掘)
提升图以图形方式表示挖掘模型在与随机猜测进行比较时提供的改进,并衡量提升分数方面的变化。 通过比较数据集各个部分和不同模型的提升分数,可以确定哪个模型是最佳模型,以及数据集中的事例的百分比将受益于应用模型的预测。
对于提升图,您可为具有相同可预测属性的多个模型比较预测的准确性。 您还可为单个结果(可预测属性的单个值)或所有结果(指定属性的所有值)评估预测的准确性。
利润图是与提升图包含相同信息的相关图表类型,但利润图还显示与使用每个模型相关联的利润预计增长。
了解提升图
很难抽象地理解提升图。 因此,为了阐释提升图工具的用法以及图表中包含的信息,本节提供了一个应用场景,在这个应用场景中,使用提升图来评估对目标邮递活动的响应。
在这个应用场景中,市场营销部门知道 10% 的答复率是邮递活动的一般的大致比率。 在数据库的一个表中,存储了一个包含 10,000 名潜在客户的列表。 按照这个典型的答复率计算,预计通常只有大约 1,000 名潜在客户答复。 但是,该项目的预算金额不足以向数据库中所有 10,000 名客户发送邮件,因此他们想要改进其答复率。 对于此应用场景,假定其预算只允许他们向 5,000 名客户发送邮件广告。 市场部有下列两种选项:
随机选择 5,000 名目标客户。
使用挖掘模型确定最有可能答复的 5,000 名目标客户。
通过使用提升图,您可以比较这两个选项的预期结果。 例如,如果该公司随机选择了 5,000 名客户,按照正常答复率计算,估计只能收到 500 个答复。 此方案是提升图中 随机 线所代表的。 但如果市场部使用了挖掘模型来确定发送邮件的目标,则预计可以获得更高的答复率,因为该模型可标识出最有可能答复的那些客户。 如果该模型精确无误,则该模型将形成完全准确的预测,该公司仅向该模型推荐的 1,000 名潜在客户发送邮件后,预计可以收到 1,000 个答复。 这正是提升图中的“理想” 线所表示的情况。
事实是挖掘模型最可能处于这两种极限情况之间,即介于随机推测模型和精确无误的预测模型之间。 与随机推测相比,任何提高均被视为提升。
在您创建提升图时,可以特定值作为目标并且仅为该结果测量提升;或者,您可以创建为所有可能的结果测量提升的模型的一般评估。 如以下部分所述,这些选择将会影响最终图表。
带有目标值的提升图
下图显示了在 Basic Data Mining Tutorial 中创建的目标邮递 模型的提升图。 在此图中,目标属性为 [Bike Buyer],并且目标值为 1,表示预测客户将会购买自行车。 因此,此提升图显示了在标识这些可能的客户时模型提供的改进。
此图包含基于相同数据的多个模型。 这些模型之一已被自定义为目标特定客户。 您可以通过对用于定型的数据添加筛选器,自定义模型。 该筛选器将在定型和评估中使用的事例限制为年龄低于 30 的客户。 请注意,筛选的影响之一是基本模型和筛选后的模型将使用不同的数据集,因此用于在提升图中进行评估的事例数目也将不同。 解释预测结果和其他统计信息时应牢记这一点,这非常重要。
该图表的 X 轴表示用于比较预测的测试数据集的百分比。 该图表的 Y 轴表示预测值的百分比。
每个图表均显示了一条对角直线(在此图表中为蓝色)。 该对角直线表示随机推测的结果,是评估提升所参照的基线。 对于添加到提升图的每个模型,将另外显示两条线:一条显示在可以创建预测始终精确无误的模型时定型数据集的理想结果,另一条显示模型结果中的实际提升或提高。
在此示例中,筛选后的模型的理想线显示为深蓝色,实际提升的线则显示为黄色。 从此图表中可以看出,理想线的峰值位于 40% 左右,表示在具有精确无误的模型的情况下,您只需向总体的 40% 发送邮件即可获得 100% 的目标客户答复。 在确定 40% 的目标总体时,筛选后的模型的实际提升在 60% 和 70% 之间,表示向客户总体的 40% 发送邮件可获得 60-70% 的目标客户答复。
“挖掘图例” 包含曲线上任意点的实际值。 单击并移动垂直灰条可以更改度量的位置。 在此图表中,灰线已移至 30%,这是因为筛选和未筛选的模型在此点处显示为最有效,在此点之后,提升幅度下降。
“挖掘图例” 还包含有助于您解释此图表的分数和统计信息。 这些结果表示模型在灰线位置的准确性,在此应用场景中,将灰线定位到包含 30% 的整体测试事例的位置。
系列和模型 | 分数 | 目标总体 | 预测概率 |
---|---|---|---|
向所有客户发送目标邮件 | 0.71 | 47.40% | 61.38% |
向 30 岁以下的客户发送目标邮件 | 0.85 | 51.81% | 46.62% |
随机推测模型 | 31.00% | ||
向所有客户发送目标邮件的理想模型 | 62.48% | ||
向 30 岁以下的客户发送目标邮件的理想模型 | 65.28% |
解释结果
从这些结果您可以看出,按照所有事例的 30% 来计算,常规模型 [向所有客户发送目标邮件] 可预测 47.40% 的目标总体的自行车购买行为。 换句话说,如果仅向数据库中 30% 的目标客户发送邮件,则可以收到略少于一半的目标用户答复。 如果使用筛选后的模型,所得的结果会稍好,则可以收到约 51% 的目标客户答复。
“预测概率” 的值表示包含“可能购买”事例中的客户所需的阈值。 对于每个事例,模型估计每个预测的准确性并存储该值,您可以使用该值筛选或锁定目标客户。 例如,若要通过基本模型标识可能购买自行车的客户,应使用查询检索“预测概率”至少为 61% 的事例。 若要获取筛选后的模型锁定的客户,则应创建用于检索符合下列所有条件的事例的查询:年龄和值至少为 46% 的 PredictProbability
。
比较模型非常有趣。 筛选后的模型似乎捕获了更多的潜在客户,但是当锁定预测概率分数为 46% 的客户时,您仍然有 53% 的可能性向不打算购买自行车的人员发送邮件。 因此,在确定哪个模型更好时,最好根据选择的基本模型权衡筛选后的模型的较大精度和较小目标范围。
“分数” 值可帮助您通过跨规范总体计算模型的有效性来比较模型。 分数越高,模型则越好,因此在本示例中,您可以确定虽然锁定 30 岁以下的客户具有较低的预测概率,但是该策略最有效。
没有目标值的模型提升图
如果未指定可预测列的状态,则将创建下图所示的图表类型。 该图表显示如何针对可预测属性的所有状态执行模型。 例如,从此图表中,您可以看出模型对可能购买和不可能购买自行车的客户的预测性能。
x 轴与指定了可预测列的图表中的 x 轴相同,但 y 轴现在表示准确预测的百分比。 因此,理想线是一条对角线,用于显示在 50% 的数据中,模型准确预测 50% 的事例(即预计的最大值)。
在图表内部单击可以移动垂直灰条, “挖掘图例” 显示所有事例的百分比以及准确预测的事例的百分比。 例如,如果将灰色滑动条移至 50% 标记处, “挖掘图例” 显示下列准确性分数。 这些数字基于在数据挖掘基础教程中创建的 TM_Decision Tree 模型。
序列、模型 | 分数 | 目标总体 | 预测概率 |
---|---|---|---|
TM_Decision Tree | 0.77 | 40.50% | 72.91% |
理想模型 | 50.00% |
此表还显示在 50% 的总体中,您创建的模型准确预测了 40% 的事例。 您可能认为此模型相当准确。 但是,请记住,此特定模型预测所有可预测属性的值。 因此,此模型可以准确预测 90% 的客户将不会购买自行车。
针对提升图的限制
提升图要求可预测属性是离散值。 换言之,您无法使用提升图测量预测连续数值的模型的精确性。
可预测属性的所有离散值的预测准确性都显示在一条线中。 如果希望查看可预测属性任一值的预测准确性线,必须为每个目标值都创建一个单独的提升图。
只要所有模型具有相同的可预测属性,则可以向一个提升图添加多个模型。 不共享该属性的模型将无法用于在 “输入” 选项卡中进行选择。
不能在提升图或利润图中显示时序模型。 测量时序预测准确性的常见做法是保留一定比率的历史数据,并将这些数据与预测数据进行比较。 有关详细信息,请参阅 Microsoft Time Series Algorithm。