预测计算器(Excel 表分析工具)
预测计算器工具可帮助你创建可用于分析新数据和评估选项或风险的记分卡。 例如,如果你有有关客户的历史和人口统计数据, 则预测计算器 工具可帮助你完成两个关键任务:
生成统计信息、采购行为和各种其他因素的基础分析。
创建有助于评估成员并为新产品或服务提出建议的工作记分卡。
该向导还会创建存储所有基础计算的工作表,以便您可以与模型交互,并查看不同输入值对最终分数的影响。
该向导还可以根据您的选择创建工作表的打印版本,您可以使用打印版本的工作表在脱机状态下进行评分。 虽然使用打印版工作表时不能像使用联机 Excel 工作簿时那样与模型交互,但是它可提供您输入值和计算最终分数时所需的所有计算。
使用预测计算器工具
打开包含要分析的数据的 Excel 表。
单击“分析”选项卡上的“预测计算器”。
在“ 预测计算器 ”对话框中,对于“目标”,选择要预测的列,例如购买行为。
指定目标值。 如果值为数值,请使用选项 In range,然后键入所需范围的最小值和最大值。 如果该值是离散的,请选择“ 精确 ”选项,然后从下拉列表中选择该值。
单击“ 选择要用于分析的列”。
在“ 高级列选择 ”对话框中,选择具有有用信息的列。 删除与分析无关的所有列。 单击“确定”。
为了避免使结果产生偏差,还应删除包含重复信息的列。 例如,如果具有包含数值数据的 Income 列以及包含 High、Medium 和 Low 标签的 Income Group 列,则不应在同一模型中包含这两列, 而是应为每个列创建单独的模型。
在 “输出选项” 部分中,选择“ 操作计算器 ”以在 Excel 工作簿中创建分析和记分卡。 选择“ 打印机就绪计算器 ”以创建分析,并生成可打印并用于手动评分的报告。
单击 “运行” 。
该工具将创建一个包含报表和记分卡的新工作表。
要求
预测计算器工具使用 Microsoft 逻辑回归算法,该算法可以处理离散值以及离散化和连续数值数据。
了解记分报表
如果选择这两个输出选项,则预测计算器会在当前工作簿中创建以下三个新工作表:
包含分析结果的 预测报表,其中包含有助于试验交互和利润的交互式表和图形。
一个交互式 预测计算器 ,可帮助你创建分数。
一个可打印的计算器,其中包含用于评分的说明和系数。
本节介绍每个报表中的信息以及如何使用各种报表选项。
带有图形的预测报表
第一个预测报表的标题是目标属性>的目标状态>的<<预测计算器报表。 它包含从分析得出的因素表,以及有助于评估特定分析的财务影响的工具。
用于指定成本和利润的表
此报表左上角中的第一个工具是一个表,可在该表中指定与正确预测值和错误预算值相关联的成本和利润。 计算该计算器的最佳分数阈值时需要这些成本和利润。
项 | 说明和示例 |
---|---|
假正成本 | 假设模型正确预测出正结果而实际上预测是错误时的成本。 例如,模型预测客户将购买某些产品,然后您根据这个预测针对该客户开展促销活动。 可在此输入针对客户展开促销活动所需的成本。 |
假负成本 | 假设模型正确预测出负结果而实际上预测是错误时的成本。 例如,模型可能预测年龄较大的客户不太可能购买自行车,但是您发现模型出现偏差,结果失去了面向年龄较大的客户的机会。 可在此指定该已失去机会的成本。 |
真正利润 | 正确预测出正结果的利润。 例如,如果在销售中您确定了正确的目标客户并且获得盈利,则可在此输入每个客户的利润。 |
真负利润 | 正确预测出负结果的利润。 例如,如果可以正确标识不应确定为目标客户的客户,则可在此输入每个客户的广告费用数。 |
用于查看最大利润的图表
在该表中输入值时,相关图形会自动更新,以显示为当前模型提供的最大化利润的最佳点。 此表右侧的折线图显示各种分数阈值的利润。 该利润是使用在表中键入的利润和成本数据根据模型的预测和概率估计而来的。
例如,如果在左上角表中, 用于最大化利润的建议阈值 的单元格显示值 500,则右侧的图表将显示 500 作为折线图上的最高点。 值 500 意味着若要最大化利润,应使用来自挖掘模型的前 500 条建议(按概率排序)。
列出每个属性和值的分数的表
报表左下角的表将显示检测到的值的详细明细,以及每个值是如何影响结果的。 不能更改此表中的值;显示这些值有助于您了解该预测。
例如,下表显示了当目标结果是某位客户购买了自行车时的结果示例。 该表列出了模型中使用的每个输入列,而不考虑输入是否对模型有影响。 如果输入列包含连续的数值数据,则该表还将列出离散值和离散化值。
“ 相对影响” 列中的值是概率,以百分比表示。 该单元格带有阴影,以便直观地表示此值对结果的影响。
Attribute | 值 | 相对影响 |
---|---|---|
婚姻状况 | 已婚 | 0 |
婚姻状况 | Single | 71 |
性别 | Female | 13 |
性别 | 男 | 0 |
可以将这些因素解释为:
已婚状态不影响客户购买自行车的可能性。
但是,单身状态充分说明了客户购买自行车的可能性 (70%)。
如果是女客户,则客户的性别对预测的自行车购买行为只有极小影响 (13%);如果是男客户,则对预测的自行车购买行为没有影响。
累计错误分类成本图表
报表右下角的面积图显示了各种分数阈值的累计错误分类成本。 此图表还使用您为假正、真正、假负和真负输入的成本和利润数据。
与报表右上角注重最大化利润的图表不同,此图表包含错误预测的成本。 此图表在以下情况中尤其有用:防止做出错误决定的成本显著超出正确预测的成本。
例如,虽然第一个图表建议将模型预测的前 500 位客户作为目标客户是获得最大利润的方法,但您在查看第二个图表后可能会认为错误定位目标客户的成本太高,而决定将市场营销活动减少为面向前 400 位客户。
交互式预测计算器
预测计算器工具创建的第二个工作表的标题为目标属性>的目标状态>的<<预测计算器。 这是可用于计算各个分数的交互式工作表。 由于此工作表使用存储在模型中的模式和统计信息,因此可以试用各值并查看它们如何影响预测分数。 此报表也有两部分:一部分是交互式的,另一部分是作为参考提供的。
第一个表
可以在表的“ 值 ”列中选择或键入新值,以查看更改该值对分数的影响。
例如,如果报表包含以下值,则可将“汽车”的值减少到 1,再减少到 0,以查看对客户购买行为的影响。 将 Cars 的值更改为 0 时,底部的预测将更改为 TRUE。
Attribute | 值 | 相对影响 |
---|---|---|
婚姻状况 | 已婚 | 0 |
性别 | 男 | 0 |
收入 | 39050 - 71062 | 117 |
子女 | 0 | 157 |
教育 | 学士 | 22 |
职业 | 技术工人 | 33 |
业主 | 是 | 8 |
汽车 | 2 | 50 |
上下班路程 | 0-1 英里 | 99 |
区域 | 北美 | 0 |
Age | 37 - 46 | 5 |
总计 | 491 | |
对“是”的预计 | FALSE |
键入新值时,单元格中显示的分数“预测是”将更改为 TRUE,并且各种属性的 相对影响 分数也会更新。
注意
即使您只更改了一个值,如汽车数,其他属性的值和影响也可能因此发生变化。 这是因为数据挖掘模型经常会发现数据间的复杂关系,更改任一变量都可能产生无法预料的影响。 因此,建议您使用交互式预测计算器试用各个值,或者浏览挖掘模型以便更好地了解交互。 有关详细信息,请参阅 浏览模型。
分数细分
此表显示了输入列每个可能状态的各分数,以及这些分数对结果的相对影响。 此表为静态表,仅适用于参考。
可打印的预测计算器
预测计算器工具创建的第三个工作表的标题是<目标属性>的目标状态>的 <PrintablePrediction Calculator。 此记分卡可用于打印,以便能够在没有计算机的情况下手动计算分数。
打印和使用预测计算器生成的记分报表
单击标题为“属性>的可打印预测计算器”的<选项卡。
在“Excel 文件”菜单上,选择“ 打印预览”。
更改页面方向、页边距以及其他打印选项,直到记分卡按您的要求显示在页面中。
此记分卡不是动态的,没有以任何方式连接到模型,因此可以移动列或行来改善格式设置,而不影响基础数据。
打印记分卡。
只为每个属性选择一个值。 对于所选值,在框中放置一个复选标记,并在“ 分数 ”列中写入相应的数字。
填写尽可能多的属性以确保准确性。
计算每个属性的分数总和,并在 “总计 ”行中输入该数字。
使用工作表上紧接“ 汇总 ”行后打印的条件,将分数转换为预测结果。
相关工具
Analysis Services 提供用于此类分析的 Microsoft 逻辑回归算法。 如果已经熟悉逻辑回归,则可以使用 Excel 数据挖掘客户端的 “高级 ”选项轻松创建逻辑回归模型。 有关详细信息,请参阅 Excel) 高级建模 (数据挖掘外接程序 。 有关逻辑回归模型的选项和参数的详细信息,请参阅 SQL Server 联机丛书中的主题“Microsoft 逻辑回归算法”。