创建目标邮件挖掘模型结构(数据挖掘基础教程)
创建目标邮件方案的第一步是使用 SQL Server Data Tools (SSDT) 中的数据挖掘向导创建新的挖掘结构和决策树挖掘模型。
在此任务中,你将设置一个新的挖掘结构,并添加基于 Microsoft 决策树算法的初始挖掘模型。 若要创建此结构,需要首先选择表和视图,然后标识将用于定型的列和将用于测试的列。
创建用于目标邮件方案的挖掘结构
在解决方案资源管理器中,右键单击“挖掘结构”,然后选择“新建挖掘结构”以启动数据挖掘向导。
在 “欢迎使用数据挖掘向导” 页上,单击 “下一步”。
在 “选择定义方法 ”页上,验证是否选择了“ 从现有关系数据库或数据仓库” ,然后单击“ 下一步”。
在 “创建数据挖掘结构 ”页上,在“ 要使用哪种数据挖掘技术?”下,选择“ Microsoft 决策树”。
注意
如果收到警告,告知无法找到数据挖掘算法,则项目属性可能配置不正确。 当项目尝试从 Analysis Services 服务器检索数据挖掘算法列表,但找不到该服务器时,会出现此警告。 默认情况下,SQL Server Data Tools将使用 localhost 作为服务器。 如果要使用其他实例或命名实例,则必须更改项目属性。 有关详细信息,请参阅 创建 Analysis Services 项目 (基本数据挖掘教程) 。
单击“下一步”。
在 “选择数据源视图” 页上的“ 可用数据源视图 ”窗格中,选择“ 目标邮件”。 可以单击“ 浏览 ”查看数据源视图中的表,然后单击“ 关闭 ”返回到向导。
单击“下一步”。
在“指定表类型”页上,选择 vTargetMail 的“案例”列中的“检查”框将其用作事例表,然后单击“下一步”。 稍后您将使用 ProspectiveBuyer 表进行测试,不过现在可以忽略它。
在 “指定训练数据 ”页上,将为模型标识至少一个可预测列、一个键列和一个输入列。 选择“BikeBuyer”行中“可预测”列中的“检查”框。
注意
请注意窗口底部的警告。 在至少选择一个 “输入” 和“ 可预测 ”列之前,无法导航到下一页。
单击“ 建议 ”打开“ 建议相关列 ”对话框。
只要至少选择了一个可预测属性,将启用 “建议 ”按钮。 “ 建议相关列 ”对话框列出了与可预测列关系最密切的列,并按属性与可预测属性的关联对属性进行排序。 显著相关的列(置信度高于 95%)将被自动选中以添加到模型中。
查看建议,然后单击“ 取消 ”以取消建议。
注意
如果单击“ 确定”,所有列出的建议都将在向导中标记为输入列。 如果仅同意其中的某些建议,则必须手动更改值。
验证“密钥”列中的“检查”框是否在“CustomerKey”行中处于选中状态。
注意
如果数据源视图中的源表表示一个键,则数据挖掘向导将自动选择该列作为模型的键。
选择以下行的“输入”列中的检查框。 可通过下面的方法来同时选中多个列:突出显示一系列单元格,然后在按住 Ctrl 的同时选中一个复选框。
年龄
CommuteDistance
EnglishEducation
EnglishOccupation
性别
GeographyKey
HouseOwnerFlag
MaritalStatus
NumberCarsOwned
NumberChildrenAtHome
区域
TotalChildren
YearlyIncome
在该页的最左侧的列中,选中以下行中的复选框。
AddressLine1
AddressLine2
DateFirstPurchase
EmailAddress
名字
姓氏
确保这些行仅选择了左侧列中的复选标记。 这些列将添加到结构中,但不会包含在模型中。 但是,模型生成后,它们将可用于钻取和测试。 有关钻取的详细信息,请参阅 钻取查询 (数据挖掘)
单击“下一步”。