分类向导(Excel 数据挖掘外接程序)
分类向导可帮助你基于 Excel 表、Excel 区域或外部数据源中的现有数据生成分类模型。
分类模型提取数据中表示相似性的模式,并帮助您基于值的分组进行预测。 例如,分类模型可用于根据收入或消费模式来预测风险。
使用分类向导
在 “数据挖掘 ”功能区中,单击“ 分类”,然后单击“ 下一步”。
在 “选择源数据 ”页中,选择要分析的数据。
此向导支持多种数据:Excel 表、Excel 区域和外部数据源。 对于外部数据,可以将其添加到 Excel 中,也可以在 Analysis Services 数据源中选择一组表或视图。 还可以添加表并更改列以创建临时数据源。
在“ 分类 ”页上,选择要分类的列。
查看列表中的列、 输入列,并取消选择具有唯一值的任何列,因此对创建模式(如 ID 号、客户名称等)没有用。 您还应删除与可分类列基本重复的列。
举例来说,如果您要分类产品类别的预测,则在有已知业务规则时应排除子类别字段,否则此规则的强度可能会阻止您发现其他关联。
(可选)单击“参数”以更改算法参数并自定义聚类分析模型的行为。
在 “将数据拆分为训练集和测试集 ”页中,指定要保留多少数据进行测试。 剩余的数据始终用于定型模型。
默认设置为 30% 的测试数据和 70% 的定型数据。
在“ 完成 ”页上,为数据集和模型提供描述性名称,并设置以下选项,用于控制如何使用完成的模型:
有关分类模型的详细信息
在“ 算法参数 ”对话框中,还可以从 Analysis Services 中提供的以下算法中选择分类方法:
Microsoft 决策树
Microsoft 逻辑回归
Microsoft Naïve Bayes
Microsoft 神经网络
虽然多种算法可能会产生类似的结果,但是它们分析数据的方式不同,因此,我们建议尝试几种算法并比较结果。 默认方法是 Microsoft 决策树。
在 “参数” 列表中,可以更改高级选项,具体取决于所选算法的类型。 每种算法的参数在 SQL Server 联机丛书中有更详细的说明。
要求
若要使用 分类 向导,必须连接到 Analysis Services 数据库。 有关如何创建连接的信息,请参阅 连接到源数据 (Excel 数据挖掘客户端) 。