第 1 课:创建自行车购买者挖掘结构
适用于: SQL Server 2016 Preview
在本课中,将创建一个挖掘结构,可以使用该结构预测 Adventure Works Cycles 的潜在客户是否会购买自行车。 如果您不熟悉挖掘结构和数据挖掘中的其角色,请参阅 挖掘结构和 #40;Analysis Services-数据挖掘 )。
将在本课程中创建的自行车购买者挖掘结构支持添加挖掘模型基于 Microsoft 聚类分析算法Microsoft 决策树算法。 在后面的课程中,您将使用聚类分析挖掘模型来浏览各种客户分组方式,并使用决策树挖掘模型来预测潜在的客户是否将购买自行车。
CREATE MINING STRUCTURE 语句
若要创建挖掘结构,请使用 CREATE MINING STRUCTURE #40; DMX ) 语句。 可以将语句中的代码分为下列几部分:
命名结构。
定义键列。
定义挖掘列。
定义可选的测试数据集。
下面是 CREATE MINING STRUCTURE 语句的一般示例:
CREATE MINING STRUCTURE [<mining structure name>]
(
<key column>,
<mining structure columns>
)
WITH HOLDOUT (<holdout specifier>)
代码的第一行定义了结构的名称:
CREATE MINING STRUCTURE [<mining structure name>]
有关命名的对象中的数据挖掘扩展插件 (DMX) 的信息,请参阅 标识符 #40; DMX )。
代码的下一行定义了挖掘结构的键列,它唯一标识源数据中的实体:
<key column>,
在将要创建的挖掘结构中,客户标识符 CustomerKey
定义了源数据中的实体。
代码的下一行用于定义与挖掘结构关联的挖掘模型所使用的挖掘列:
<mining structure columns>
您可以使用 DISCRETIZE 函数内的 来离散化连续列使用以下语法︰
DISCRETIZE(<method>,<number of buckets>)
有关离散化列的详细信息,请参阅 离散化方法 ( 数据挖掘 )。 有关挖掘结构列,您可以定义类型的详细信息,请参阅 挖掘结构列。
最后一行代码定义挖掘结构中的可选分区:
WITH HOLDOUT (<holdout specifier>)
您要指定某些数据用于测试与该结构相关的挖掘模型,剩余数据用于定型该模型。 默认情况下,Analysis Services 创建的测试数据集包含所有事例数据的 30%。 您将添加这样一个说明:测试数据集应包含 30% 的事例,并且最多可以包含 1000 个事例。 如果 30% 的事例不足 1000 个,则测试数据集将包含较小数量的事例。
课程任务
在本课程中,将执行以下任务︰
创建新的空白查询。
更改查询以创建挖掘结构。
执行查询。
创建查询
第一步是连接到 Analysis Services 实例,并在 SQL Server Management Studio 中创建一个新的 DMX 查询。
在 SQL Server Management Studio 中创建一个新的 DMX 查询
打开 SQL Server Management Studio。
在 连接到服务器 对话框中,为 服务器类型, ,选择 Analysis Services。 在 服务器名称, ,类型 LocalHost, ,或键入的实例的名称 Analysis Services 想要连接到本课程中。 单击 “连接”。
在 对象资源管理器, ,右键单击该实例的 Analysis Services, ,指向 新查询, ,然后单击 DMX 若要打开 查询编辑器 和新的空白查询。
更改查询
第二步是修改上述 CREATE MINING STRUCTURE 语句以创建自行车购买者挖掘结构。
自定义 CREATE MINING STRUCTURE 语句
在查询编辑器中,将 CREATE MINING STRUCTURE 语句的一般示例复制到空白查询中。
将
[<mining structure>]
使用︰
[Bike Buyer]
将
<key column>
使用︰
CustomerKey LONG KEY
将
<mining structure columns>
使用︰
[Age] LONG DISCRETIZED(Automatic,10), [Bike Buyer] LONG DISCRETE, [Commute Distance] TEXT DISCRETE, [Education] TEXT DISCRETE, [Gender] TEXT DISCRETE, [House Owner Flag] TEXT DISCRETE, [Marital Status] TEXT DISCRETE, [Number Cars Owned] LONG DISCRETE, [Number Children At Home] LONG DISCRETE, [Occupation] TEXT DISCRETE, [Region] TEXT DISCRETE, [Total Children]LONG DISCRETE, [Yearly Income] DOUBLE CONTINUOUS
将
WITH HOLDOUT (holdout specifier>)
使用︰
WITH HOLDOUT (30 PERCENT or 1000 CASES)
现在,完整的挖掘结构语句应该如下所示:
CREATE MINING STRUCTURE [Bike Buyer] ( [Customer Key] LONG KEY, [Age]LONG DISCRETIZED(Automatic,10), [Bike Buyer] LONG DISCRETE, [Commute Distance] TEXT DISCRETE, [Education] TEXT DISCRETE, [Gender] TEXT DISCRETE, [House Owner Flag] TEXT DISCRETE, [Marital Status] TEXT DISCRETE, [Number Cars Owned]LONG DISCRETE, [Number Children At Home]LONG DISCRETE, [Occupation] TEXT DISCRETE, [Region] TEXT DISCRETE, [Total Children]LONG DISCRETE, [Yearly Income] DOUBLE CONTINUOUS ) WITH HOLDOUT (30 PERCENT or 1000 CASES)
在 文件 菜单上,单击 dmxquery1.dmx 另存为。
在 另存为 对话框中,浏览到相应的文件夹,并将文件 Bike Buyer Structure.dmx。
执行查询
最后一步是执行查询。 创建并保存查询后,需要执行查询。 也就是说,需要运行查询语句以便在服务器上创建挖掘结构。 有关在查询编辑器中执行查询的详细信息,请参阅 数据库引擎查询编辑器 (SQL Server Management Studio )。
若要执行查询
在查询编辑器中,在工具栏上,单击 Execute。
查询的状态将显示在 消息 在底部的查询编辑器执行完语句后的选项卡。 所显示的消息应为:
Executing the query Execution complete
名为的新结构 Bike Buyer 现在存在于服务器上。
在下一课中,您将向刚才创建的结构中添加挖掘模型。