创建顺序分析和聚类分析挖掘模型结构(数据挖掘中级教程)
适用于: SQL Server 2016 Preview
要创建顺序分析和聚类分析挖掘模型,第一步是使用数据挖掘向导创建基于 Microsoft 顺序分析和聚类分析算法的新挖掘结构和挖掘模型。
将使用相同的数据源视图,用于市场篮分析,但您将添加一列以包含 序列 标识符。 在这种情况下,顺序表示客户将项添加到购物篮中的顺序。
还要添加一些列,在其中某一模型中使用,用于按照人口统计信息对客户进行分组。
创建顺序分析和聚类分析结构和模型
在解决方案资源管理器中 SQL Server Data Tools (SSDT), ,用鼠标右键单击 挖掘结构 ,然后选择 新建挖掘结构。
在 “欢迎使用数据挖掘向导” 页上,单击 “下一步”。
在 选择定义方法 页上,确认 从现有关系数据库或数据仓库 已选择,然后单击 下一步。
在 创建数据挖掘结构 页上,确认选项 创建具有挖掘模型的挖掘结构 处于选中状态。 接下来,单击选项,该下拉列表 您想要使用何种数据挖掘技术?, ,然后选择 Microsoft Sequence Clustering。 单击“下一步” 。
选择数据源视图 页将出现。 在下 可用数据源视图, ,选择 订单。
“订单”也是用于市场篮方案的同一数据源视图。 如果尚未创建此数据源视图,请参阅 添加带有嵌套表 ( 数据挖掘中级教程 ) 的数据源视图。
单击“下一步” 。
在 指定表类型 页上,选择 用例 旁边的复选框 vAssocSeqOrders 表,然后选择 嵌套 旁边的复选框 vAssocSeqLineItems 表。 单击“下一步” 。
备注
如果您选择出错 用例 或 嵌套 复选框,它可能是数据源视图中的联接不正确。 嵌套的表, vAssocSeqLineItems, ,必须连接到事例表中, vAssocSeqOrders 由多对一联接。 可以通过右键单击联接行并反转联接的方向来编辑关系。 有关详细信息,请参阅 创建或编辑关系对话框 (Analysis Services-多维数据 )。在 指定定型数据 页上,在模型中选择使用的列,通过选中一个复选框,如下所示︰
IncomeGroup选择 输入 复选框。
此列包含关于客户的重要相关信息,这些信息可以用于聚类分析。 您将在第一个模型中使用这些信息,然后在第二个模型中将其忽略。
OrderNumber选择 密钥 复选框。
此字段将用于作为标识符事例表中,或 密钥。 一般来说,在任何时候都不应使用事例表的键字段作为输入,因为该键包含的唯一值对聚类分析无用。
区域选择 输入 复选框。
此列包含关于客户的重要相关信息,这些信息可以用于聚类分析。 您将在第一个模型中使用这些信息,然后在第二个模型中将其忽略。
行号选择 密钥 和 输入 复选框。
LineNumber 字段将用作嵌套表的标识符或 序列键。 必须始终将嵌套表的键用于输入。
模型选择 输入 和 可预测 复选框。
验证所选内容正确无误,然后单击 下一步。
在 指定列内容和数据类型 页上,验证该网格包含列、 内容类型和下表中所示的数据类型,然后单击 下一步。
表/列 内容类型 数据类型 IncomeGroup 离散 Text OrderNumber Key Text 地区 离散 Text vAssocSeqLineItems Line Number 键序列 Long Model 离散 Text 在 创建测试集 页上,更改 的测试数据百分比 为 20,然后单击 下一步。
在 完成向导 页上,为 挖掘结构名称, ,类型 Sequence Clustering with Region。
有关 挖掘模型名称, ,类型 Sequence Clustering with Region。
检查 允许钻取 框,然后再单击 完成。