创建顺序分析和聚类分析挖掘模型结构(数据挖掘中级教程)
创建序列聚类分析挖掘模型的第一步是使用数据挖掘向导创建新的挖掘结构和基于 Microsoft 序列聚类分析算法的挖掘模型。
您将使用与市场篮分析相同的数据源视图,但需要添加一个包含 sequence
标识符的列。 在这种情况下,顺序表示客户将项添加到购物篮中的顺序。
还要添加一些列,在其中某一模型中使用,用于按照人口统计信息对客户进行分组。
创建顺序分析和聚类分析结构和模型
在 解决方案资源管理器 SQL Server Data Tools (SSDT) 中,右键单击“挖掘结构”,然后选择“新建挖掘结构”。
在 “欢迎使用数据挖掘向导” 页上,单击 “下一步”。
在 “选择定义方法 ”页上,验证是否已选择 “从现有关系数据库或数据仓库” ,然后单击“ 下一步”。
在 “创建数据挖掘结构 ”页上,验证是否已选择选项 “创建具有挖掘模型的挖掘结构 ”。 接下来,单击“ 想要使用哪种数据挖掘技术?”选项的下拉列表,然后选择“ Microsoft 序列聚类分析”。 单击“下一步”。
此时将显示 “选择数据源视图 ”页。 在“可用数据源视图”下,选择 。
Orders
“订单”也是用于市场篮方案的同一数据源视图。 如果尚未创建此数据源视图,请参阅 添加包含嵌套表的数据源视图 (中间数据挖掘教程) 。
单击“下一步”。
在“指定表类型”页上,选择 vAssocSeqOrders 表旁边的“Case 检查”框,然后选择 vAssocSeqLineItems 表旁边的“嵌套检查”框。 单击“下一步”。
注意
如果选择“事例”或“嵌套检查”框时出错,则可能是数据源视图中的联接不正确。 嵌套表 vAssocSeqLineItems 必须通过多对一联接连接到事例表 vAssocSeqOrders 。 可以通过右键单击联接行并反转联接的方向来编辑关系。 有关详细信息,请参阅 (Analysis Services - 多维数据) 创建或编辑关系对话框 。
在“指定训练数据”页上,通过选择检查框选择要在模型中使用的列,如下所示:
IncomeGroup选择“输入检查框。
此列包含关于客户的重要相关信息,这些信息可以用于聚类分析。 您将在第一个模型中使用这些信息,然后在第二个模型中将其忽略。
OrderNumber选择
Key
“检查”框。此字段将用作事例表的标识符,也就是
Key
。 一般来说,在任何时候都不应使用事例表的键字段作为输入,因为该键包含的唯一值对聚类分析无用。地区选择“输入检查框。
此列包含关于客户的重要相关信息,这些信息可以用于聚类分析。 您将在第一个模型中使用这些信息,然后在第二个模型中将其忽略。
LineNumber选择
Key
和 输入检查框。LineNumber 字段将用作嵌套表或
Sequence Key
的标识符。 必须始终将嵌套表的键用于输入。模型选择“输入”和“可预测检查”框。
验证选择是否正确,然后单击“ 下一步”。
在 “指定列的内容和数据类型 ”页上,验证网格是否包含下表中显示的列、内容类型和数据类型,然后单击“ 下一步”。
表/列 内容类型 数据类型 IncomeGroup 离散 文本 OrderNumber 密钥 文本 区域 离散 文本 vAssocSeqLineItems Line Number 键序列 Long 型号 离散 文本 在 “创建测试集 ”页上,将 “用于测试的数据百分比 ”更改为 20,然后单击“ 下一步”。
在 “完成向导” 页上,对于 挖掘结构名称,请键入
Sequence Clustering with Region
。对于 挖掘模型名称,请键入
Sequence Clustering with Region
。选中 “允许钻取 ”框,然后单击“ 完成”。