数据挖掘算法(Analysis Services – 数据挖掘)

数据挖掘算法是一组基于数据创建数据挖掘模型的启发和计算。 为了创建模型,算法将首先分析您提供的数据,并查找特定类型的模式和趋势。 算法使用此分析的结果来定义用于创建挖掘模型的最佳参数。 然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。

算法根据您的数据创建的挖掘模型可以采用多种形式,这包括:

  • 说明数据集中的事例如何相关的一组分类。

  • 预测结果并描述不同条件是如何影响该结果的决策树。

  • 预测销量的数学模型。

  • 说明在事务中如何将产品分组到一起的一组规则,以及一起购买产品的概率。

Microsoft SQL Server Analysis Services 提供多种算法用于数据挖掘解决方案。 这些算法是在数据挖掘中使用的一些最流行方法的实现方式。 通过使用提供的 API 或者使用 SQL Server Integration Services 中的数据挖掘组件,所有 Microsoft 数据挖掘算法都是可以自定义且完全可编程的。

您还可以使用符合 OLE DB for Data Mining 规范的第三方算法,或者开发可注册为服务、然后在 SQL Server 数据挖掘框架中使用的自定义算法。

选择正确的算法

为特定的分析任务选择最佳算法很有挑战性。 您可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果,而某些算法还会生成多种类型的结果。 例如,您不仅可以将 Microsoft 决策树算法用于预测,而且还可以将它用作一种减少数据集的列数的方法,因为决策树能够识别出不影响最终挖掘模型的列。

按类型选择算法

Analysis Services 包括以下算法类型:

  • “分类算法”基于数据集中的其他属性预测一个或多个离散变量。

  • 回归算法 基于数据集中的其他属性预测一个或多个连续变量,例如损益。

  • “分段算法”将数据划分为组或分类,这些组或分类的项具有相似的属性。

  • “关联算法”查找数据集中不同属性之间的相关性。 这类算法最常见的应用是创建可用于市场篮分析的关联规则。

  • 序列分析算法 汇总了数据中的频繁序列或情节,例如 Web 路径流。

但是,限制为您的解决方案中的一种算法是没有必要的。 有经验的分析人员有时候将使用一种算法来确定最高效的输入(即变量),然后应用其他算法以便基于这些数据预测特定结果。 SQL Server 数据挖掘使您可以在单个挖掘结构的基础上生成多个模型,这样,在单个数据挖掘解决方案内,您可以使用聚类分析算法、决策树模型和 naïve Bayes 模型来针对您的数据获取不同视图。 您还可以在单个解决方案内使用多种算法来执行单独的任务:例如,您可以使用回归来获取财务预测,并且使用神经网络算法执行销售影响因素分析。

按任务选择算法

为帮助您选择用于特定任务的算法,下表给出了每种算法在传统上用于的任务类型的建议。

任务示例 可使用的 Microsoft 算法
预测离散属性

将预期购买者列表中的客户标记为好或差的潜在客户。

计算服务器在未来 6 个月内将出现故障的概率。

将患者结果分类并探讨相关因素。
Microsoft 决策树算法

Microsoft Naive Bayes Algorithm

Microsoft Clustering Algorithm

Microsoft Neural Network Algorithm
预测连续属性

预测下一年的销售额。

根据过去的历史信息和季节趋势,预测网站访问者。

根据人口统计信息生成风险评分。
Microsoft 决策树算法

Microsoft 时序算法

Microsoft 线性回归算法
预测序列

执行公司网站的点击流分析。

分析导致服务器故障的因素。

捕获和分析门诊访问期间活动的顺序,以便围绕一般的活动形成最佳做法。
Microsoft 顺序分析和聚类分析算法
在事务中查找常见项组

使用市场篮分析来确定产品摆放。

建议客户购买其他产品。

分析来自事件访问者的调查数据,确定哪些活动或展台是相关的,以便计划将来的活动。
Microsoft 关联算法

Microsoft 决策树算法
查找类似项的组

基于人口统计信息和行为之类的属性,创建患者风险配置文件组。

按照浏览和购买模式分析用户。

标识具有相似使用特性的服务器。
Microsoft Clustering Algorithm

Microsoft 顺序分析和聚类分析算法

下表提供了指向 Analysis Services 中提供的每种数据挖掘算法的学习资源的链接:

基本算法说明 说明了算法用途和工作原理,概述了算法可能有用的可能的业务方案。
Microsoft 关联算法

Microsoft Clustering Algorithm

Microsoft 决策树算法

Microsoft 线性回归算法

Microsoft 逻辑回归算法

Microsoft Naive Bayes Algorithm

Microsoft Neural Network Algorithm

Microsoft 顺序分析和聚类分析算法

Microsoft 时序算法
技术参考 提供与算法实施有关的技术细节,并且根据需要提供学术方面的参考。 列出了可在模型中设置以便控制算法行为并自定义结果的参数。 描述数据要求并根据需要提供性能提示。
Microsoft 关联算法技术参考

Microsoft 聚类分析算法技术参考

Microsoft 决策树算法技术参考

Microsoft 线性回归算法技术参考

Microsoft 逻辑回归算法技术参考

Microsoft Naive Bayes 算法技术参考

Microsoft 神经网络算法技术参考

Microsoft 顺序分析和聚类分析算法技术参考

Microsoft Time Series Algorithm Technical Reference
模型内容 说明在每种类型的数据挖掘模型内信息是如何组织的,并且说明如何解释在各节点中存储的信息。
关联模型的挖掘模型内容(Analysis Services – 数据挖掘)

聚类分析模型的挖掘模型内容(Analysis Services – 数据挖掘)

决策树模型的挖掘模型内容(Analysis Services - 数据挖掘)

线性回归模型的挖掘模型内容(Analysis Services - 数据挖掘)

逻辑回归模型的挖掘模型内容(Analysis Services - 数据挖掘)

Naive Bayes 模型的挖掘模型内容(Analysis Services - 数据挖掘)

神经网络模型的挖掘模型内容(Analysis Services - 数据挖掘)

顺序分析和聚类分析模型的挖掘模型内容(Analysis Services - 数据挖掘)

时序模型的挖掘模型内容(Analysis Services - 数据挖掘)
数据挖掘查询 提供可用于各模型类型的多个查询。 示例包括可让您了解与模型中的模式有关的详细信息的内容查询以及可帮助您基于这些模式生成预测的预测查询。
关联模型查询示例

聚类分析模型查询示例

决策树模型查询示例

线性回归模型查询示例

逻辑回归模型查询示例

Naive Bayes 模型查询示例

神经网络模型查询示例

顺序分析和聚类分析模型查询示例

时序模型查询示例
主题 说明
确定数据挖掘模型使用的算法 查询用于创建挖掘模型的参数
创建自定义插件算法 插件算法
使用特定于算法的查看器浏览模型 数据挖掘模型查看器
使用一般的表格式查看模型的内容 使用 Microsoft 一般内容树查看器浏览模型
了解如何设置您的数据,并使用算法来创建模型 挖掘结构(Analysis Services – 数据挖掘)

挖掘模型(Analysis Services - 数据挖掘)

另请参阅

数据挖掘工具