创建市场篮结构和模型(数据挖掘中级教程)
您已创建了一个数据源视图,现在将使用数据挖掘向导创建一个新的挖掘结构。 在此任务中,你将创建基于 Microsoft 关联算法的挖掘结构和挖掘模型。
注意
如果遇到说明 vAssocSeqLineItems 不能用作嵌套表的错误,请返回本课中的前一个任务,并确保通过从 vAssocSeqLineItems 表(多端)拖到 vAssocSeqOrders 表(一端)来创建多对一联接。 还可以通过右键单击联接线来编辑这两个表之间的关系。
创建关联挖掘结构
在 SQL Server Data Tools (SSDT) 解决方案资源管理器中,右键单击“挖掘结构”,然后选择“新建挖掘结构”以打开“数据挖掘向导”。
在 “欢迎使用数据挖掘向导” 页上,单击 “下一步”。
在 “选择定义方法 ”页上,验证是否选择了“ 从现有关系数据库或数据仓库” ,然后单击“ 下一步”。
在 “创建数据挖掘结构 ”页上,在“ 要使用哪种数据挖掘技术?”下,从列表中选择“ Microsoft 关联规则 ”,然后单击“ 下一步”。 此时将显示 “选择数据源视图 ”页。
选择“可用数据源视图”下的“订单”,然后单击“下一步”。
在“指定表类型”页上,在 vAssocSeqLineItems 表的行中,选择“嵌套检查”框,然后在嵌套表 vAssocSeqOrders 的行中,选择“case 检查”框。 单击“下一步”。
在 “指定训练数据 ”页上,清除可能选中的任何框。 通过选择“OrderNumber”旁边的“键检查”框,设置事例表 vAssocSeqOrders 的键。
由于市场篮分析的目的是确定哪些产品包含在单个交易中,因此您不必使用 CustomerKey 字段。
通过选择“模型”旁边的“键检查框,设置嵌套表 vAssocSeqLineItems 的键。 执行此操作时,“输入检查”框也会自动选中。 同时选择“可预测检查框
Model
。在市场篮模型中,你不关心购物篮中产品的顺序,因此不应将 LineNumber 作为嵌套表的键。 只能在序列很重要的模型中使用 LineNumber 作为键。 你将创建一个使用第 4 课中的 Microsoft 序列聚类分析算法的模型。
选中 IncomeGroup 和 Region 左侧的复选框,但是不进行任何其他选择。 选中最左侧的列会将这些列添加到结构中以供日后参考,但不会用在模型中。 您选择的内容应如下所示:
单击“下一步”。
在 “指定列的内容和数据类型”页上,查看应如下表所示的选项,然后单击“ 下一步”。
列 内容类型 数据类型 IncomeGroup 离散 文本 订单编号 密钥 文本 区域 离散 文本 vAssocSeqLineItems 型号 密钥 文本 在 “创建测试集 ”页上,“ 用于测试的数据百分比 ”选项的默认值为 30%。 将此更改为 0。 单击“下一步”。
注意
Analysis Services 提供用于测量模型准确性的不同图表。 但是,某些精确度图表类型(如提升图和交叉验证报告)旨在进行分类和估计。 关联预测不支持这些方法。
在 “完成向导” 页上的 “挖掘结构名称”中,键入
Association
。在 “挖掘模型名称”中,键入
Association
。选择“ 允许钻取”选项,然后单击“ 完成”。
此时会打开数据挖掘Designer以显示
Association
刚刚创建的挖掘结构。