浏览顺序分析和聚类分析模型(数据挖掘中级教程)
使用区域模型生成序列聚类分析后,可以使用数据挖掘Designer的“挖掘模型查看器”选项卡中的 Microsoft 顺序聚类分析查看器对其进行浏览。 Microsoft 序列群集查看器包含五个选项卡: 分类图、 群集配置文件、 群集特征、 群集区分和 状态转换。 有关如何使用此查看器的详细信息,请参阅 使用 Microsoft 序列群集查看器浏览模型。
“分类关系图”选项卡
“ 分类图 ”选项卡以图形方式显示算法在数据库中发现的分类。 关系图中的布局表示分类之间的关系,其中相似的分类分组在一起。 默认情况下,每个节点的明暗度表示分类中所有事例的密度,即节点越暗,它所包含的事例越多。 可以更改节点明暗度代表的含义,使其表示对每个分类内的属性或状态的支持。
也可以重命名分类,使其更加易于识别并与目标分类结合使用。 在本教程中,您将重命名太平洋地区客户百分比最高的分类,以及事例总数量最多的分类。
注意
在重新处理模型时,分配给特定分类的事例可能会发生更改,具体取决于数据和模型参数。 此外,如果对分类进行了重命名,则在重新处理挖掘模型时,这些名称将会丢失。
更改用于突出显示分类的属性
在“ 底纹变量 ”列表中,选择“ 模型”。
在“州”列表中选择“自行车帽”。
该图会进行更新,以显示所选产品在每个分类中的集中度。 最暗的分类包含自行车帽的密度最大。 可以更改底纹变量,以使用任何输入列的任何状态。
在“ 底纹变量 ”列表中,选择“ 总体”。
将明暗度变量更改为客户群体时,该图将进行更新,按大小比较分类。 最暗的分类所包含的事例多于其他分类。
重命名模型中的节点
将 “底纹变量” 更改为
Region
,并将 “State” 设置为“ Pacific”。突出显示图形中最暗的节点。
右键单击此群集,然后选择“ 重命名群集”。
键入名称Pacific Cluster。
将 “着色变量” 的值更改为“ 总体”。
在已更新的图形中,找到最暗的分类(应该是最大的分类)。 如果无法通过明暗度来判断哪个分类是最大的,请将鼠标悬停在每个分类上并查看工具提示,然后选择包含事例最多的分类。
右键单击此群集,然后选择“ 重命名群集”。 键入新名称
Largest Cluster
。
可从表示该分类的节点进行钻取,以查看每个分类中事例的详细信息。 如果要对分析结果进行操作(例如发送电子邮件给客户),则此功能非常有用。 还可以浏览包括在结构中但未在模型中使用的其他一些事例属性,例如 Region 和 IncomeGroup。 有关从挖掘模型钻取到基础事例的详细信息,请参阅 钻取查询 (数据挖掘) 。
从分类关系图钻取到详细信息
右键单击
Pacific Cluster
,选择“ 钻取”,然后选择“ 模型”和“结构”列。此时会打开“ 钻取 ”对话框。 未在模型中使用但可用于查询的列带有 “结构”前缀。
可以看到此分类包括的大多数客户都来自太平洋地区,只有少量客户来自其他地区。
单击嵌套列 v Assoc Seq Line Items 中的加号,可以查看特定客户订单中项的顺序。
关闭“ 钻取 ”对话框。
注意
使用“ 播放 ”按钮可以重新查询数据;但是,重新查询不会更改显示的数据,除非模型已在后台由其他进程动态更新。
“分类剖面图”选项卡
“ 群集配置文件 ”选项卡显示每个分类中的序列。 群集列在 “状态 ”列右侧的各个列中列出。
在查看器中, “模型” 行描述分类中项的总体分布, Model.samples 行包含项的序列。 Model.samples 行的每个单元格中的每行颜色序列表示群集中随机选择的用户的行为。
单个序列直方图中的每一种颜色都代表一个产品型号。 挖掘图例使用颜色编码和产品型号名称来显示产品序列。 如果您已经将其他列添加到聚类分析模型中,例如 Region 或 Income Group,则查看器将包含每个列的附加行,显示这些值在每个分类中的分布。
查看分类中最常见的顺序
右键单击分类
Largest Cluster
列中的“模型”行,然后选择“显示图例”。“颜色”列包含一个底纹条,用于指示在序列中找到的项的频率。 每个项以一种不同颜色表示。 “ 含义 ”列列出了每种颜色的产品型号名称。 “ 分布 ”列告知序列中包含此项的事例的百分比。
关闭 “挖掘图例”。
右键单击标题为“人口”的列中的 Model.samples 行 , 然后选择“ 显示图例”。
扫描整个模型中的序列列表
.
挖掘图例会首先列出最常见的序列,因此您可以看到 Mountain Tire Tube 是很多序列中的第一项。 这意味着客户很有可能首先将 Mountain Tire Tube 放入购物篮中。
从分类查看器钻取到事例
在“属性”窗格中向下滚动,直到找到属性的
Region
行。该行包含模型中每个分类的直方图,以及一个用于 “人口”的附加直方图,表示模型中使用的整个事例集。 直方图是一个带有不同颜色的条,每种颜色代表一个属性,该属性的彩色部分的大小代表了具有该属性的事例的百分比。
比较重命名
Pacific Cluster
的群集的直方图 和Largest Cluster
。 每个分类显示在不同的列中。这些颜色看起来都像是纯色,但却是不同的。
在 行中
Region
,将鼠标悬停在 的Largest Cluster
彩色直方图上。工具提示将显示一些值,这些值显示了来自每个区域的事例所占的实际百分比。
右键单击行
Pacific Cluster
中的Region
彩色直方图,选择“钻取”,然后选择“仅模型列”。移动滚动条可以查看此分类中的所有客户。
通过再次钻取到详细信息,可以看到此分类包括的大多数订单都来自太平洋地区,但也有一些订单来自北美和欧洲地区。
关闭“ 钻取 ”对话框。
“分类特征”选项卡
“ 分类特征 ”选项卡通过显示直观地表示所选分类属性值重要性的条来汇总分类中状态之间的转换。 “变量”列告知模型发现对所选分类或总体很重要的内容:特定值或值之间的关系,称为转换。 “ 值” 列提供有关值或转换的更多详细信息,“ 概率 ”列直观地表示此属性或转换的权重。
查看分类的重要属性
在“群集”下拉列表中,选择 。
Pacific Cluster
列表将更新以显示重命名
Pacific Cluster
的群集的特征。 在此群集中,最重要的特征是Region
。将鼠标悬停在 行中的阴影条上
Region
。该值为“Pacific”的概率非常高。 有关如何解释这些值的详细信息,请参阅 Microsoft 顺序聚类分析算法技术参考。
仔细查看分类的特征列表,直至找到第一个转换行。
转换行包含 文本“变量 ”列中的“转换”,以及 “值 ”列中顺序属性值的某种组合。 该序列也可以包含起点和缺少值。
例如,假设转换的值为 [Start] -> Road Tire Tube。 这意味着此分类中的客户通常首先将 Road Tire Tube 放入购物篮中。 这可能表示该产品是客户首先挑选出的受欢迎商品,或者只表示该产品在购物场所容易找到。
滚动浏览列表,直到找到其中没有 [Start] 或 缺少 的第一个转换。
例如,假设你找到了过渡、 Touring Tire、Touring Tire Tube。 这意味着此分类中的客户通常将这些项一起放入购物篮中,而且是严格按照这个顺序放入。
将鼠标悬停在此转换的阴影条上。
此转换的概率以百分比显示。
在“ 群集 ”下拉列表中,选择“ 填充 (所有) 。
该属性列表会更新为显示用于创建模型的所有订单的特征。 在此挖掘模型中,区分分类的最重要特征是
Region
,值为 北美。
在查看这些任务后,您认识到两点。 第一点是您需要大量数据来获取有意义数量的组合。 例如,概率最高的序列可能包含 [Start] 或 Missing 状态。
第二种情况是,对 的属性Region
具有强烈的聚类分析影响,这使得查看序列组变得更加困难。 因此,您决定创建另一个模型,该模型只使用序列,而且不包括区域或收入的列。
“分类对比”选项卡
“ 分类歧视 ”选项卡可帮助你比较两个分类,以确定哪些属性将特定分类与另一个分类区分开来。 该选项卡包含四列: 变量、 值、 分类 1 和 分类 2。 可以选择用作 群集 1 和群集2 的任何群集。
Variables 列告知属性的名称,该属性可以是列名,也可以是列名和单词 transition 的组合。 “ 值” 列显示属性或转换的确切值。 分类 1 和分类 2 列中的阴影条表示要比较的分类中 属性的强度。 阴影条越长,分类包括具有该属性的事例的可能性越大。
使用“分类对比”选项卡比较两个分类
在“ 分类歧视 ”选项卡中,为 “分类 1”选择
Pacific Cluster
。默认情况下, 分类 2 的选择将更改为 “太平洋群集的补充”。
与所有其他事例区分
Pacific Cluster
的顶级属性是 区域。 Region 是聚类分析的一个强属性,以至于它掩盖了其他属性。 为了避免这种效果,请尝试相互比较几个较小的分类。 在进行比较时,属性列表会发生变化,可能包括模型之间的更多转换。找到转换行,将鼠标悬停在阴影条上。
“值”列中的项可以包括状态和转换。 各项的明暗度指示对比分数。 若要详细了解不同分数的含义,请参阅 序列聚类分析模型的挖掘模型内容 (Analysis Services - 数据挖掘) 。
“状态转换”选项卡
在“ 状态转换 ”选项卡上,可以选择群集并浏览其状态转换。 如果从群集下拉列表中选择“ 填充 (所有) ”,则关系图显示整个挖掘模型的状态分布。
图中的每个节点都表示一个状态,或您试图分析的序列的可能值。 节点的背景色表示该状态的频率。 一些状态之间用线条连接,指示这些状态之间的转换。 可以上下移动滑块,以更改转换的概率阈值。 数字与某些节点相关联,指示该状态的概率。
在“状态转换”选项卡中浏览关系
在挖掘模型查看器的“ 状态转换 ”选项卡中,从群集列表中进行选择
Pacific Cluster
。 确保选中“ 显示边缘标签” 选项。该图会更新为显示此分类中最常见的转换。
单击通过线条连接到另一个节点的任何节点。
该图进行了更新,并且突出显示相关的节点。 线条旁的数值指示转换的概率。
将滑块提高到 “所有链接”,以增加图形中包含的切换次数。
选择“填充 (群集中的所有) ”。
请注意,在加载另一个分类时,该图会重置为默认显示设置,因此滑块控件也会重置到中间位置。
单击图中最深的节点,该节点应为 “Sport-100”。
请注意,产品之间没有线条相互连接。
将滑块向上提升一级,以增加图中包括的转换的数量。 请勿一直转到 所有链接 。
该图会添加更多的转换,从而进行更新,但这些转换都没有包括 Sport-100 型号。
将滑块控件一直移动到 “所有链接”。 如果尚未选择 Sport-100 节点,请单击该节点。
该图会更新为显示包括 Sport-100 产品的很多转换。 连接线条的箭头的方向指示 Sport-100 项是作为配对中的第一项还是第二项选择的。
单击 Touring Tire 的节点,将滑块控件向下移回至中间位置。
起初,有许多过渡线将 Touring Tire 连接到其他产品,但当你提高概率阈值时,从图形中消除不太可能的过渡,只留下过渡,Touring Tire > Touring Tire Tube。 此转换的含义是如果客户将 Touring Tire 放入购物篮,则该客户接下来将 Touring Tire Tube 也放入购物篮的概率非常高。
一般内容树查看器
此查看器可用于所有模型,无论算法和模型类型为何均为如此。 可从“查看器”下拉列表获取 MicrosoftGeneric 内容树查看器。
内容树是任何挖掘模型的表示形式,由一系列节点组成,其中每个节点都表示关于定型数据的已了解的知识。 节点可以包含一种模式、一组规则、一个分类或共享某些属性的日期范围的定义。 根据算法和可预测属性的不同,节点的具体内容会有所不同,但内容的通用表示形式是相同的。
您可以展开每个节点以查看详细信息的递增级别,并可以将任何节点的内容复制到剪贴板。 有关详细信息,请参阅 使用 Microsoft 一般内容树查看器浏览模型。
使用一般内容树查看器查看顺序分析和聚类分析模型的详细信息
在“ 挖掘模型查看器 ”选项卡中,单击“ 查看器 ”列表,然后选择“ Microsoft 通用内容树查看器”。
在 “节点标题 ”窗格中,单击
Pacific Cluster (1)
。此节点的名称同时包含为分类指定的友好名称和基础节点 ID。 可以使用节点 ID 来深化到模型中的其他详细信息。
展开群集 1 名为“序列级别”的第一个子节点。
分类的序列级别节点包含了关于该分类中的状态和转换的详细信息。 可以使用 NODE_DISTRIBUTION 列中的这些详细信息,浏览每个节点或模型的序列和状态。
继续展开节点并在 HTML 查看器窗格中查看详细信息。
有关挖掘模型内容以及如何使用查看器中的详细信息,请参阅 序列聚类分析模型的挖掘模型内容 (Analysis Services - 数据挖掘) 。