Microsoft 线性回归算法
Microsoft 线性回归算法是 Microsoft 决策树算法的变体,可帮助计算从属变量和独立变量之间的线性关系,然后使用该关系进行预测。
该关系采用的表示形式是最能代表数据序列的线的公式。 例如,以下关系图中的线是数据最可能的线性表示形式。
关系图中的每个数据点都有一个与该数据点与回归线之间距离关联的错误。 回归方程式中的系数 a 和 b 可以调整回归线的角度和位置。 可以对 a 和 b 进行调整,直到与所有点都关联的错误总数达到最低值,以此获得回归公式。
还有其他类型的使用多个变量的线性回归以及非线性回归方法。 但是,线性回归是一种众所周知的有用方法,可对一些潜在因素中更改的响应进行建模。
示例
可以使用线性回归确定两个连续列之间的关系。 例如,您可以使用线性回归根据生产或销售数据计算趋势线。 还可以使用线性回归作为基础,来开发更复杂的数据挖掘模型,以评估数据列之间的关系。
尽管有许多方法可以计算不需要数据挖掘工具的线性回归,但为此任务使用 Microsoft 线性回归算法的优点是,变量之间的所有可能关系都会自动计算和测试。 您不必选择计算方法,如计算最小平方法。 但对于结果受多个因素影响的应用场景,线性回归可能会过分简化其中的关系。
算法的原理
Microsoft 线性回归算法是 Microsoft 决策树算法的变体。 选择 Microsoft 线性回归算法时,将调用 Microsoft 决策树算法的特殊情况,其中包含约束算法行为并需要某些输入数据类型的参数。 另外,在线性回归模型中,整个数据集都用于计算初始传递中的关系,而标准决策树模型则不断将数据拆分为更小的子集或树。
线性回归模型所需的数据
在准备用于线性回归模型的数据时,应该了解特定算法的要求。 这包括所需数据量以及数据使用方式。 此模型类型的要求如下:
单键列 每个模型都必须包含一个用于唯一标识每条记录的数值列或文本列。 不允许复合键。
可预测列 至少需要一个可预测列。 可以在一个模型中包含多个可预测属性,但是这些可预测属性必须是连续数值数据类型。 不能将 datetime 数据类型用作可预测属性,即使数据的本机存储是数值类型。
输入列 :输入列必须包含连续数值数据,并且向其分配相应的数据类型。
有关详细信息,请参阅 Microsoft 线性回归算法技术参考。
查看线性回归模型
若要浏览模型,可以使用 “Microsoft 树查看器”。 线性回归模型的树结构非常简单,回归方程式的所有相关信息都包含在一个节点中。 有关详细信息,请参阅 使用 Microsoft 树查看器浏览模型。
如果想了解有关该方程式的更多详细信息,还可以使用 “Microsoft 一般内容树查看器”查看系数和其他详细信息。
对于线性回归模型,模型内容包括元数据、回归公式和有关输入值分布的统计信息。 有关详细信息,请参阅 线性回归模型的挖掘模型内容 (Analysis Services - 数据挖掘) 。
创建预测
模型处理完毕后,结果将以一组统计信息和线性回归公式的形式存储,您可以利用这些结果来计算未来趋势。 有关用于线性回归模型的查询的示例,请参阅 线性回归模型查询示例。
有关如何创建针对挖掘模型的查询的常规信息,请参阅 数据挖掘查询。
除了通过选择 Microsoft 线性回归算法创建线性回归模型外,如果可预测属性是连续数值数据类型,则可以创建包含回归的决策树模型。 在这种情况下,如果找到适当的分离点,该算法会对数据进行拆分;但对于某些数据区域,则会创建回归公式。 有关决策树模型中的回归树的详细信息,请参阅 决策树模型的挖掘模型内容 (Analysis Services - 数据挖掘) 。
备注
不支持使用预测模型标记语言 (PMML) 创建挖掘模型。
不支持创建数据挖掘维度。
支持钻取。
支持使用 OLAP 挖掘模型。
另请参阅
(Analysis Services 的数据挖掘算法 - 数据挖掘) Microsoft 线性回归算法技术参考线性回归模型查询示例线性回归模型挖掘模型内容 (Analysis Services - 数据挖掘)