浏览关联规则模型
使用 浏览打开关联模型时,该模型将显示在交互式查看器中,类似于 Analysis Services 中的关联规则查看器。 此查看器让您能对彼此关联的项一目了然,并显示可用于预测或提出建议的规则。
浏览模型
打开使用 Microsoft 关联规则算法创建的挖掘模型时, “浏览 ”窗口包括以下视图,每个视图旨在让你浏览模型的不同方面:
记下每个选项卡上的选项 ,显示长名称 。 通过选择此选项,您可以显示或隐藏项集的来源表,并且可以缩短或延长规则或项集的名称。 在事例数据和属性数据来自不同的数据源时,此选项特别有用。
若要试验关联模型,可使用示例数据工作簿的“关联”选项卡上的示例数据,然后使用所有默认值建立关联模型。 还可以生成购物篮分析模型,并使用浏览打开该 模型。
项集
“ 项集 ”选项卡是开始探索关联模型的良好位置。 此选项卡列出模型经常发现一起出现的项。
列表
最常见的项集示例出现在购物篮模型中,在此模型中,项集表示大量顾客在一次购物中同时购买的产品对或产品集。 但是,根据对项目进行分组和排序的方式,项集可能包含客户在一段时间内订购的电影序列,或者往往在特定位置发生的事件。
项集可以包含一到两个、三个或多个项,但许多项集被设置为模型的最大项集大小。 对于每个项集,查看器会显示项集 支持、 概率和 大小。 支持和概率是用于对关联模型生成的项集和规则进行排名的主要统计信息。 这些值还用于计算和描述项集的重要性。
支持。 支持表示包含此项的事例数或输入数据行数。 例如,如果项集包含两个在购物车中找到的项,则 “支持 ”列中的数字指示项目组合在源数据中发生的次数。
大小。 通过更改项集大小,您可以控制项集列表的长度。 如果不想在列表中看到单个产品,请将选项 “最小项集大小”更改为 2 或更多。 通过增加项集最小大小来限制列表,您可以查找更为具体的模式。 在处理大型数据集时,这种方法可能很有用。
可以通过更改“ 最小支持” 和“ 最大行 数”值来筛选选项卡中显示的项集数。 如果增加 “最低支持” 值,列表将显示较少的项集,但项集将是输入数据中更常见的项集。 常见是否与重要相同是另一个问题,可以使用“ 规则 ”选项卡进行探讨。
请注意,更改“ 项集 ”选项卡上的支持值或其他控件只会更改显示的项,不会影响基础模型。 如果要生成更少或更多的项集或限制其大小,则应使用“算法参数”对话框中提供的参数 MINIMUM_SUPPORT
和 MAXIMUM_SUPPORT
。
探索项集列表
单击“ 支持 ”列,按最高到最低支持进行排序。 这样一来,您可以了解顾客最常购买的商品。
若要关注感兴趣的特定项集(在可能的组合数千种组合中),请在“ 筛选项集 ”框中键入一些文本。
此处我们键入了
Gloves
。 应用此筛选器时,列表将会刷新,仅显示包含手套的项集。 这样一来,您可以重点关注顾客购买手套及其他一些商品的交易。“筛选项集” 选项还会显示您以前使用过的筛选器列表。
更改 最小项集大小 的值,以筛选出仅购买手套而未购买其他物品的客户。
单击选项“ 显示”的下拉列表,控制属性的显示方式:
显示属性名称和值
仅显示属性值
仅显示属性名称
请注意名称发生了怎样的变化。 就购物篮模型而言,它是基于多位顾客已购买产品的嵌套表构建的,属性名称通常是产品名称,产品在列表中的存在状态被标记为
Existing
,表示顾客已购买了此物品。与
Existing
相反的是Missing
,后者对于在数据挖掘中开展调查会非常有用。 例如,假设项集 A +B 非常受欢迎,你希望查找购买了项 A 但不是项 B 的客户。为此,可以使用预测查询并检索其中一个(而不是另一个)的事务,并对这些事务执行一些进一步分析。 有关如何对关联模型创建预测查询的信息,请参阅 SQL Server 联机丛书中的关联模型查询示例若要使用新的筛选条件强制重新显示项集列表,可以选中或清除“显示长名称检查框。
规则
“ 规则 ”选项卡合并有关项集及其相对值的信息。
Probability 表示数据集中包含目标项组合的事例的分数。 概率类似于 置信度统计概念,可指示规则结果发生的可能性。 可以更改此窗格中的 “最小概率 ”值,以筛选显示的规则。
最初看到的 最小概率 值是算法在生成模型时使用的阈值。 模型完成后,无法减小此值,但可以增大该值,以仅显示较高的概率项。
重要性 旨在衡量规则的有用性。 非常常见的规则可能非常普遍,具有很少的信息价值。 重要性越高,则该规则用于预测结果的价值就越高。 在 购物车分析 (表 AnalysisTools for Excel) 工具中,重要性可以与商品价格相结合,以确定在销售方面可能最有价值的捆绑包。
探索规则列表
尝试单击列标题“ 概率”、“ 重要性”和 “规则 ”以查看数据的变化情况。
使用 “筛选规则” 选项键入值并重点关注目标规则。
例如,如果想要查看预测客户可能购买哪些内容以及手套的所有规则,请在文本框中键入“gloves”并刷新窗格。
“筛选项集” 选项还会显示您以前使用过的筛选器列表。
若要强制使用筛选条件重新显示规则列表,可以选中或清除“检查显示长名称”框。
使用“ 显示 ”选项控制规则名称的显示方式。
将“ 最大行数 ”选项的值设置为 100,然后单击“ 复制到 Excel”。
请注意,更改此值不会对模型中的数据量产生任何影响;它只是控制显示列表中的行数。 在使用特大型模型时,此选项会很有用。
依赖关系网络
“ 依赖关系网络 ”选项卡是项之间相关性的可视化映射。 图中每个椭圆 (称为 节点) 表示属性值对,例如“Vest = Existing”或“Age = 1-30”。 将椭圆 (称为 边缘) 的每条线都表示一种相关性。
探索依赖关系网络
单击“ 查找 ”按钮,并使用“ 查找节点 ”对话框键入感兴趣的项。
例如,键入“gloves”,然后在窗口中最大化图形,以便可以轻松查看结果。
包含此项的节点突出显示,指向节点的箭头表示连接项的规则。
箭头的方向指示规则的方向。 例如,如果购买手套的人也可能购买背心,则箭头将从“手套”节点开始,并在“背心”节点上终止。
若要获取有关此规则的其他统计信息,可以单击“ 规则 ”选项卡并查找说明为“Glove - Existing”-> “Vest - Existing”的规则。)
单击并拖动查看器左侧的滑块。
滑块可作为规则概率的筛选器使用。 降低滑块将只显示最强规则。
单击“复制到 Excel”,将当前窗口的快照复制到 Excel。
你将无法使用复制到 Excel 中的图形;如果需要交互式网络图,请使用在 Visio 中查看数据挖掘模型 (数据挖掘加载项) 。
有关关联模型的详细信息
可以使用 “浏览” 功能打开和浏览使用 Microsoft 关联规则算法创建的任何模型。 这包括使用 购物车分析 (表 AnalysisTools for Excel) 工具、 表分析工具 功能区或 Analysis Services 中生成的模型。
如果使用购物篮分析工具创建关联规则模型,则会自动为您配置许多高级选项。
如果要设置高级参数或更改最小概率和支持,请使用 关联向导 (数据挖掘客户端 for Excel) 向导,或使用 将模型添加到结构 (数据挖掘外接程序 for Excel) 建模选项生成自己的模型。
项集: 创建模型时,还可以通过将值分配给 MINIMUM_PROBABILITY 参数来控制生成的项集数。 此参数可从“算法参数”对话框中获得。
规则: Microsoft 关联规则算法使用概率值来限制生成的规则数。 可以通过设置
MINIMUM_PROBABILITY
或MINIMUM _IMPORTANCE
参数来控制规则数。
有关配置高级参数的详细信息,请参阅数据挖掘算法 (SQL Server数据挖掘加载项) 。