创建顺序分析和聚类分析挖掘模型结构(数据挖掘中级教程)
创建顺序分析和聚类分析挖掘模型的第一步是使用数据挖掘向导,创建基于 Microsoft 顺序分析和聚类分析算法的新挖掘结构和挖掘模型。
您将使用与市场篮分析相同的数据源视图,但需要添加一个包含 sequence 标识符的列。在这种情况下,顺序表示客户将项添加到购物篮中的顺序。
还要添加一些列,在其中某一模型中使用,用于按照人口统计信息对客户进行分组。
创建顺序分析和聚类分析结构和模型
在 Business Intelligence Development Studio 的解决方案资源管理器中,右键单击**“挖掘结构”,再选择“新建挖掘结构”**。
在**“欢迎使用数据挖掘向导”页上,单击“下一步”**。
在**“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”**。
在**“创建数据挖掘结构”页上,确保已选中选项“创建具有挖掘模型的挖掘结构”。接下来,单击选项“您要使用何种数据挖掘技术?”的下拉列表,然后选择“Microsoft 顺序分析和聚类分析”。单击“下一步”**。
“选择数据源视图”页随即显示。在“可用数据源视图”下,选择“订单”。
“订单”也是用于市场篮方案的同一数据源视图。如果尚未创建此数据源视图,请参阅添加带有嵌套表的数据源视图(数据挖掘中级教程)。
单击**“下一步”**。
在**“指定表类型”页上,选中 vAssocSeqOrders 表旁边的“事例”复选框,然后选中 vAssocSeqLineItems 表旁边的“嵌套”复选框。单击“下一步”**。
注意 如果选中“事例”或“嵌套”复选框时出错,则可能是因为数据源视图中的联接不正确。嵌套表 vAssocSeqLineItems 必须通过多对一联接连接到事例表 vAssocSeqOrders。可以通过右键单击联接行并反转联接的方向来编辑关系。有关详细信息,请参阅“创建/编辑关系”对话框(Analysis Services - 多维数据)。
在**“指定定型数据”**页上,通过以下方式选中复选框,来选择要在模型中使用的列:
IncomeGroup 选中**“输入”**复选框。
此列包含关于客户的重要相关信息,这些信息可以用于聚类分析。您将在第一个模型中使用这些信息,然后在第二个模型中将其忽略。
OrderNumber 选中**“键”**复选框。
此字段将用作事例表的标识符,也就是 Key。一般来说,在任何时候都不应使用事例表的键字段作为输入,因为该键包含的唯一值对聚类分析无用。
Region 选中**“输入”**复选框。
此列包含关于客户的重要相关信息,这些信息可以用于聚类分析。您将在第一个模型中使用这些信息,然后在第二个模型中将其忽略。
LineNumber 选中**“键”和“输入”**复选框。
LineNumber 字段将用作嵌套表的标识符,也就是 Sequence Key。必须始终将嵌套表的键用于输入。
Model 选中**“输入”和“可预测”**复选框。
验证选择是否正确,然后单击**“下一步”**。
在**“指定列的内容和数据类型”页上,验证网格包含下表中所示的列、内容类型和数据类型,然后单击“下一步”**。
表/列
内容类型
数据类型
IncomeGroup
Discrete
Text
OrderNumber
Key
Text
Region
Discrete
Text
vAssocSeqLineItems
Line Number
Key Sequence
Long
Model
Discrete
Text
在**“创建测试集”页上,将“测试数据百分比”更改为 20,然后单击“下一步”**。
在**“完成向导”页的“挖掘结构名称”**中,键入 Sequence Clustering with Region。
在**“挖掘模型名称”**中,键入 Sequence Clustering with Region。
选中**“允许钻取”框,然后单击“完成”**。