浏览聚类分析模型
使用浏览打开聚类分析模型时,该模型将显示在交互式查看器中,类似于 Analysis Services 中的聚类分析查看器。 该查看器可帮助您浏览已创建的分类并了解分类特征。 您还可以将各个段与其他段或填充进行比较和对比。
浏览模型
“浏览”窗口包含以下工具,可帮助你了解聚类分析模型并浏览基础数据组的属性:
若要试验聚类分析模型,可以使用示例数据工作簿的“训练”选项卡上的示例数据,并使用群集向导 (Excel) 的数据挖掘加载项和所有默认值生成聚类分析模型。
分类关系图
“ 分类图 ”选项卡显示挖掘模型中的所有聚类。 在这里,可以查看数据集中有多少个不同分组,以及这些分组之间的远近。
探索分类关系图
单击关系图中的“分类 1”。
注意连接所有分类的灰色线条如何变化以便以浅蓝色突出显示指向所选分类的线条。
将一个群集连接到另一个分类的线条的强度表示群集相似性的强度。 如果明暗度较浅或无明暗度,则表示分类的相似程度较低。 连线颜色越深,表示两个分类之间的相似性越大。
单击并拖动分类关系图左侧的滑块可调整查看器显示的线条数目。
向下拖动滑块时,仅显示分类间的最强链接。 这有助于您重点关注相关的组。
请注意“分类图”窗口右上角的“着色变量”控件。
默认情况下,它设置为 “填充”。 这表示颜色较暗的分类具有更高程度的支持。
将鼠标指针停留在任一分类上。
将显示工具提示,其中包含该分类的总体。
现在,单击“ 底纹变量 ”下拉列表,然后选择“ 年龄 ”变量。 执行此操作时,“ 状态 ”文本框中会显示值列表。
用作此模型的输入的“Age”列包含连续数值,但为了聚类分析,该算法始终将数字离散化。 在这里,可以看到算法创建的箱或组,例如“非常低 (<=27) ”和“非常高 (>=63) ”。
在 “状态 ”下拉列表中,选择“ 非常高 ”,并查看关系图的更改方式。
通过更改明暗度变量,可以一目了然地看到哪些分类包含此目标年龄组内的更多客户,哪些分类包含此年龄组内的很少客户。
明暗度越深,所聚类的目标属性和值分配比例就越高。
将“ 底纹变量 ”设置为“年龄 >65”时,找到阴影最深的群集。
将鼠标指针悬停在该分类上。
工具提示中的值此时显示年龄超过 65 的此分类中的客户人数。
右键单击群集,然后选择“ 重命名群集”。 键入描述性的新名称,例如 65 以上。 新名称随模型保存到服务器,可用于标识其他聚类分析视图中的分类。
分类剖面图
使用“ 群集配置文件 ”选项卡,可以一目了然地比较所有群集的构成。 要熟悉模型,这里是很好的起点。 如果您在探索特定分类并且需要查找相关分类,稍后此视图也非常有用。
群集配置文件 还很好地概述了群集彼此之间如何不同。 因此,您可能会发现使用此视图为每个分类提供说明性名称十分方便。
探索分类剖面图
单击“ 状态 ”列中的“职业”单元格,以查看“职业”的所有值的列表。
现在,将鼠标指针移到分类剖面图中的“Occupation”上。
工具提示显示该分类中的职业分布。
请注意,在某些群集 ((如图形) 中的群集)中,职业列表不完整,某些职业将替换为标签 “其他”。
这是设计使然,因为可能很难判断直方图中许多小条之间的差别。 默认情况下,仅保留重要性最高的条形图,其余条形图被组合成灰色 的“其他 ”存储桶。
若要更改在任何直方图中可见的条数,请使用“ 直方图条形图”选项。
请注意, “年龄 ”列看起来与其他列不同。 单击图表中用于表示 Age 的菱形。
Age 列最初仅包含连续值。 聚类分析算法需要离散值,因此,它基于值的分布将 Age 列中的数值分组为有限数目的年龄组。
单击分类剖面图中的一个菱形图表。
只有在源数据使用连续数值时,才会显示这些菱形图表。 菱形图表提供了一些有用的说明性统计信息,包括每个分类中该值的平均偏差和标准偏差:
菱形图表中的线条表示该属性的值范围。 这些值也显示在“配置文件”图表左侧的“状态”列中。
菱形的中心位于该节点的平均值处。
菱形的宽度表示该节点处属性的方差。 因此,较细的菱形表示该节点可以生成更精确的预测。
若要在图形中留出更多空间,请右键单击不需要立即查看的群集,然后选择“ 隐藏列”。 这不会从模型中删除它,只是暂时折叠列。
若要查看已隐藏的群集,可以单击并拖动列边缘,或从“更多群集”列表中选择 群集名称。
向下滚动属性列表,直至找到“Bike Buyer”,然后查找具有最高“Yes”值百分比的分类。
右键单击要重命名的群集的列标题,选择“ 重命名群集”,然后键入 “自行车购买者”。
新的分类名称保留在所有视图中以及服务器上,直到您重新处理该模型。
提示
单击列标题,可以将列中的属性按照其对分类的重要性来进行排序。
在查看器中拖动各列以对它们重新排序。
单击配置文件图表中的任何单元格,查看 挖掘图例中的详细统计信息。
右键单击任意单元格,然后选择“ 钻取模型列 ”,将基础数据输出到 Excel 中的新工作表。
右键单击群集的列标题,然后选择“ 钻取”以构造数据 ,以获取有关模型中未包含的群集成员的详细信息。
例如,如果要分析客户,则可以将联系人信息保留在基础数据中, (挖掘结构) 但不将其包含在模型中,因为它对分析没有用。 但是,在将客户分配给分类后,您可通过使用钻取来查看详细数据。
分类特征
通过“分类特征”视图,您实际上可以探索单个分类,以了解哪些属性最能概括此组数据的特征。
探索分类特征
从“群集”列表中选择 “超过 65个群集 ”。
选择分类后,您可以详细查看构成特定分类的特征。
分类包含的属性列在 “变量” 列中,所列属性的状态列在 “值” 列中。
属性状态按重要性顺序列出,并附带它们在此分类中的概率,在 “概率 ”列中表示为彩色条。
单击“ 变量” 列可按属性排序。
通过更改排序变量,您可以更方便地查看变量值(如收入或汽车拥有情况)是如何在该组中分布的。
单击“ 复制到 Excel”。
一个新工作表将添加到包含所选分类的特征的工作簿中。
现在,从列表中选择其他群集 “自行车购买者”。
单击“ 复制到 Excel”。
请注意,新的分类特征图表将会添加到其自己的工作表中。 你可以将其移动到与其他配置文件相同的工作表上,以便更轻松地比较它们,你将在下一步中执行此操作。
提示
请注意,超过 65 个群集的客户的主要特征是他们不购买你的产品! 如果需要了解原因,可以浏览各分类并比较各组,也可以使用适合探索原因与结果的算法来创建一个相关模型,如决策树模型或 Naïve Bayes 模型。
如果需要获得此分类(或所有分类)的属性与概率的完整列表,可以创建一个查询。 有关聚类分析模型的查询示例,请参阅聚类分析模型查询示例。
分类对比
使用“ 分类歧视 ”选项卡可以比较两个分类之间的属性,或者一个群集与数据集中的所有其他事例之间的属性。
为了突出显示此查看器的功能,我们将它与 Excel 中基于 “群集特征” 视图创建的并排表进行比较。
探索分类对比
使用 “分类 1” 和 “分类 2” 列表选择要比较的分类。
对于“分类 1”请选择“Over 65”。
对于“分类 2”,请选择“Bike Buyers”。
比较结果如下图所示。
请注意,在幕后, 群集歧视 查看器会向数据挖掘服务器发送复杂的查询,以提取区分两组最重要的属性,从而更轻松地比较两组客户。
单击“ 优惠...” 列之一。
属性和值表右侧的条显示了哪些功能或值最适合作为所选分类的特征。
现在,在 Excel 中对各列表进行比较。
因为用于在查看器中生成图像的基础统计信息以表的形式保存到 Excel,所以,您可以筛选、排序和查看实际概率值。
除使用 Excel 外,建议您尝试将分类查看器用于 Visio,这样不仅可以查看数据点,还可以广泛修改和增强图形。 有关详细信息,请参阅 群集关系图演练 (数据挖掘加载项) 。
提示
深入了解客户组后,请尝试使用 What-If Scenario (Table Analysis Tools for Excel) 或 目标查找方案 (表分析工具 for Excel) 工具,以浏览模型中可能更改以影响结果的因素。