浏览聚类分析模型(数据挖掘基础教程)

 

适用于: SQL Server 2016 Preview

Microsoft 聚类分析算法事例分组为包含类似特征的分类。 在浏览数据、标识数据中的异常及创建预测时,这些分组十分有用。

Microsoft 分类查看器提供了以下选项卡,用于浏览聚类分析挖掘模型:

分类关系图

分类剖面图

分类特征

分类对比

“分类关系图”选项卡

“分类关系图”选项卡显示挖掘模型中的所有分类。 分类之间的线条表示“接近程度”,其明暗度取决于分类之间的相似程度。 每个分类的实际颜色表示分类中变量和状态的出现频率。

在“分类关系图”选项卡中浏览模型

  1. 使用 挖掘模型 列表顶部的 挖掘模型查看器 选项卡切换到 TM_Clustering 模型。

  2. 查看器 列表中,选择 Microsoft 分类查看器

  3. 明暗度变量 框中,选择 Bike Buyer

    默认变量是 填充, ,但您可以更改这对在模型中,来发现哪些群集包含具有所需的属性的成员的任何属性。

  4. 选择 1状态 框中,可以浏览那些购买自行车的事例。

    密度 图例描述了在明暗度变量和状态中选择的属性状态对的密度。 在此示例中它告诉我们 clusterwith 明暗度最深者的自行车购买者百分比最高。

  5. 将鼠标悬停在明暗度最深的分类上。

    工具提示将显示具有该属性的事例百分比 Bike Buyer = 1

  6. 选择具有最高网格密度,右键单击该分类中,选择该群集 重命名分类 和类型 Bike Buyers High 用作日后标识。 单击“确定”。

  7. 查找明暗度最浅(也就是密度最低)的分类。 右键单击该分类中,选择 重命名分类 和类型 Bike Buyers Low。 单击“确定”。

  8. 单击 Bike Buyers High 群集并将其拖到窗格中,您就可以清楚地查看其连接到其他群集的区域。

    选择某个分类时,将此分类连接到其他分类的线条将突出显示,以便您方便地查看此分类的所有关系。 如果该分类处于未选定状态,则可以通过线条的暗度来确定关系图中所有分类之间关系的紧密程度。 如果明暗度较浅或无明暗度,则表示分类的相似程度较低。

  9. 使用网络左侧的滑块,可筛选掉强度较低的链接,找出关系最接近的分类。 Adventure Works Cycles 市场部可能希望将相似的分类组合在一起,以便确定提供目标邮件的最佳方法。

返回页首

“分类剖面图”选项卡

分类剖面图 选项卡提供了全面了解 TM_Clustering 模型。 分类剖面图 选项卡包含模型中的每个分类的列。 第一列列出至少与一个分类关联的属性。 查看器的其余部分包含每个分类的某个属性的状态分布。 离散变量的分布显示彩色条条中显示的最大数目为 直方图条数 列表。 连续属性以菱形图显示,表示每个分类中的平均偏差和标准偏差。

在“分类剖面图”选项卡中浏览模型

  1. 设置 直方图 条到 5

    在我们的模型中,任意一个变量的最大状态数均为 5。

  2. 如果 挖掘图例 阻止显示 属性配置文件, ,将其移开。

  3. 选择 Bike Buyers High 列并将其拖到右侧 填充 列。

  4. 选择 Bike Buyers Low 列并将其拖到右侧 Bike Buyers High 列。

  5. 单击 Bike Buyers High 列。

    变量 列进行排序为该群集的重要性的顺序。 滚动浏览该列,查看 Bike Buyer High 分类的特征。 例如,他们上下班路程较短的可能性较大。

  6. 双击 年龄 中的单元格 Bike Buyers High 列。

    挖掘图例 显示更详细视图,您可以看到这些客户平均年龄的年龄范围。

  7. 用鼠标右键单击 Bike Buyers Low 列,然后选择 隐藏列

返回页首

“分类特征”选项卡

分类特征 选项卡上,您可以更加详细地检查组成群集的特征。 您可以一次浏览一个分类,而不是比较所有分类的特征(就像在“分类剖面图”选项卡中那样)。 例如,如果您选择 Bike Buyers High群集 列表中,您可以看到此分类中的客户的特征。 尽管显示方式与分类剖面图查看器不同,但查找结果却是相同的。

备注


除非设置的初始值,否则 holdoutseed, ,结果将会处理该模型每次变化。 有关详细信息,请参阅 HoldoutSeed 元素

返回页首

“分类对比”选项卡

分类对比 选项卡上,您可以浏览区分分类的特征。 选择两个群集,一个来自后 分类 1 列表中,并从 分类 2 列表中,查看器计算分类之间的差异,并显示最区分分类的属性的列表。

在“分类对比”选项卡中浏览模型

  1. 分类 1 框中,选择 Bike Buyers High

  2. 分类 2 框中,选择 Bike Buyers Low

  3. 单击 变量 按字母顺序排序。

    中的客户之间的更多的实质区别 Bike Buyers LowBike Buyers High 群集包括年龄、 汽车拥有子女数和区域。

相关任务

请参阅以下主题以了解其他挖掘模型。

课程中的下一个任务

浏览 Naive Bayes 模型 (数据挖掘基础教程 )

课程中的前一个任务

浏览决策树模型 (数据挖掘基础教程 )

另请参阅

使用 Microsoft 分类查看器浏览模型
“分类对比”选项卡(挖掘模型查看器)
“分类剖面图”选项卡(挖掘模型查看器)
“分类特征”选项卡(挖掘模型查看器)
“分类关系图”选项卡(挖掘模型查看器)