Microsoft 線性迴歸演算法

Microsoft 線性迴歸演算法是 Microsoft 決策樹演算法的一種變化,其中 MINIMUM_LEAF_CASES 參數是設定為大於或等於演算法用來培訓採礦模型之資料集內的案例總數。以此方式設定參數,演算法將不會建立分割,因此會執行線性迴歸。

您可以使用線性迴歸來決定兩個連續資料行之間的關聯性。關聯性會以最能夠代表一系列資料的線性方程式表示。例如,下列圖表中的線條是最佳的資料線性表示法。

模式化一組資料的線條

代表圖表中線條的方程式採用一般形式 y = ax + b,即所謂的迴歸方程式。變數 Y 代表輸出變數,X 代表輸入變數,而 ab 為可調整係數。圖表中的每一個資料點都有錯誤,與它到迴歸線的距離相關聯。迴歸方程式中的係數 ab 會調整迴歸線的角度和位置。您可以調整 ab,直到與點相關聯的錯誤總和達到最低數為止,來取得迴歸方程式。

使用演算法

使用 Microsoft 樹狀檢視器來瀏覽線性迴歸採礦模型。

線性迴歸模型必須包含索引鍵資料行、輸入資料行和至少一個可預測資料行。

Microsoft 線性迴歸演算法支援特定輸入資料行內容類型、可預測資料行內容類型和模型旗標,這些都會在下表中列出。

輸入資料行內容類型

Continuous、Cyclical、Key、Table 和 Ordered

可預測資料行內容類型

Continuous、Cyclical 和 Ordered

模型旗標

NOT NULL 和 REGRESSOR

所有 Microsoft 演算法都支援一個常用函數集。不過,Microsoft 線性迴歸演算法支援下表所列出的其他函數。

IsDescendant

PredictStdev

IsInNode

PredictSupport

PredictHistogram

PredictVariance

PredictNodeId

   

如需所有 Microsoft 演算法常用的函數清單,請參閱<資料採礦演算法>。如需有關如何使用這些函數的詳細資訊,請參閱<資料採礦延伸模組 (DMX) 函數參考>。

Microsoft 線性迴歸演算法支援數個會影響所產生之採礦模型的效能和精確度的參數。下表描述每一個參數。

參數 描述

MAXIMUM_INPUT_ATTRIBUTES

定義在叫用功能選項之前,演算法可以處理輸入屬性的數目。將此值設定為 0 來關閉功能選項。

預設值為 255。

MAXIMUM_OUTPUT_ATTRIBUTES

定義在叫用功能選項之前,演算法可以處理輸出屬性的數目。將此值設定為 0 來關閉功能選項。

預設值為 255。

FORCED_REGRESSOR

強制演算法使用指定的資料行作為迴歸輸入變數,不考慮演算法計算出來之資料行的重要性。

請參閱

概念

資料採礦演算法
資料採礦精靈
資料採礦的功能選擇
以 Microsoft 樹狀檢視器檢視採礦模型

其他資源

CREATE MINING MODEL (DMX)

說明及資訊

取得 SQL Server 2005 協助