浏览决策树模型(数据挖掘基础教程)

Microsoft 决策树算法根据训练集中的剩余列预测哪些列会影响购买自行车的决定。

“决策树”选项卡

在“ 决策树 ”选项卡上,可以查看数据集中每个可预测属性的决策树。

在这种情况下,模型仅预测一列“自行车购买者”,因此只有一个树可查看。 如果有更多的树,可以使用 框选择另一棵树。

在决策树查看器中查看 TM_Decision_Tree 模型时,可以在图表左侧看到最重要的属性。 “最重要的”意味着这些属性对结果的影响最大。 沿着该树越向下走的属性(图表右侧)的影响越小。

在此示例中,在预测自行车购买行为时,年龄是最重要的因素。 模型按年龄对客户进行分组,然后显示每个年龄组的下一个较重要的属性。 例如,在年龄为 34 到 40 的客户组中,拥有的汽车数是仅次于年龄的预测因子。

在“决策树”选项卡中浏览模型

  1. 数据挖掘Designer中选择“挖掘模型查看器”选项卡。

    默认情况下,设计器将打开添加到结构中的第一个模型,在本例中为 TM_Decision_Tree

  2. 使用放大镜按钮调整树的显示大小。

    默认情况下,Microsoft 树查看器仅显示树的前三个级别。 如果树级别不到三个,则查看器仅显示现有级别。 可以使用“ 显示 级别”滑块或 “默认扩展 ”列表查看更多级别。

  3. “放映级别 ”滑动到第四个栏。

  4. Background 值更改为 1

    通过更改 后台 设置,可以快速查看每个节点中目标值为 [Bike Buyer] 的 1 事例数。 请注意,在这种特定的情况下,每个事例均表示一个客户。 该值 1 指示客户以前购买了自行车;值 0 表示客户尚未购买自行车。 节点的底纹颜色越深,节点中具有目标值的事例所占的百分比越大。

  5. 将光标置于标记为 “全部”的节点上。 将出现显示以下信息的工具提示:

    • 事例总数

    • 非自行车购买者事例的数量

    • 自行车购买者事例的数量

    • 缺少 [Bike Buyer] 值的事例的数量

    或者,将光标放在树中的任何节点上,查看从上级节点到达该节点所需的条件。 还可以在 挖掘图例中查看此信息。

  6. 单击 “年龄 >=34 和 < 41”节点。 直方图将显示为一个穿过该节点的窄水平条,并表示此年龄范围中以前买过自行车的客户(粉色)和没有买过自行车的客户(蓝色)的分布情况。 查看器显示:没有汽车或者有一辆汽车、年龄在 34 到 40 的客户有可能购买自行车。 再进一步考察发现,实际年龄在 38 到 40 的客户购买自行车的可能性会增加。

由于您在创建结构和模型时启用了钻取,因此,可以从模型事例和挖掘结构中检索详细的信息,其中包括挖掘模型中所不包含的列(例如,emailAddress 和 FirstName)。

有关详细信息,请参阅 钻取查询 (数据挖掘)

钻取到事例数据

  1. 右键单击节点,然后选择“ 钻取 ”,然后选择“ 仅对列建模”。

    每个定型事例的详细信息将以电子表格方式显示。 这些详细信息来自您在生成挖掘结构时选作事例表的 vTargetMail 视图。

  2. 右键单击节点,然后选择“ 钻取 ”,然后选择“ 模型和结构列”。

    将显示同一个电子表格,并在末尾处附加结构列。

“依赖关系网络”选项卡

依赖关系网络 ”选项卡显示有助于挖掘模型的预测能力的属性之间的关系。 依赖关系网络查看器进一步证实了我们的发现:年龄和地区是预测自行车购买行为的重要因素。

在“依赖关系网络”选项卡中浏览模型
  1. 单击节点 Bike Buyer 以标识其依赖项。

    依赖项网络 Bike Buyer的中心节点 表示挖掘模型中的可预测属性。 该图形突出显示了影响可预测的属性的任何已连接节点。

  2. 调整“ 所有链接” 滑块以识别最具影响力的属性。

    向下拖动滑块时,仅对 [Bike Buyer] 列影响较弱的属性将从图形中删除。 通过调整滑块,可以发现“年龄”和“地区”是预测个人自行车购买行为的最主要因素。

请参阅以下主题,了解如何使用其他模型类型来探索数据。

课程中的下一个任务

浏览聚类分析模型(数据挖掘基础教程)

另请参阅

挖掘模型查看器任务和操作指南
“决策树”选项卡(挖掘模型查看器)
“依赖关系网络”选项卡(挖掘模型查看器)
使用 Microsoft 树查看器浏览模型