資料採礦的功能選擇

發行項
12/15/2008

當您在 Microsoft SQL Server 2005 Analysis Services (SSAS) 建立資料採礦模型時，資料集包含的資訊通常比建立模型所需的資訊更多，必須等到實際建立模型之後，才有辦法知道哪些是必要的資訊。例如，資料集可能包含 500 個資料行來描述客戶的特性，但其中可能只有 50 個資料行會用來建立特定的模型。雖然額外的資料行不會影響模型的輸出，但確實會增加處理模型所需的時間和儲存模型所需的空間。為了解決這個問題，有些 Microsoft 演算法實作功能選擇。功能選擇會自動從資料集裡選擇最有可能在模型中使用的屬性。下列演算法支援功能選擇：

貝氏機率分類
決策樹
群集
類神經網路

功能選擇適用於輸入屬性和可預測屬性，或資料行中的狀態數目，視演算法而定。您可以使用演算法參數 MAXIMUM_INPUT_ATTRIBUTES、MAXIMUM_OUTPUT_ATTRIBUTES 和 MAXIMUM_STATES，控制何時開啟功能選擇。如果模型包含的資料行比在 MAXIMUM_INPUT_ATTRIBUTES 參數中所指定的數目多，則演算法會忽略認為不重要的任何資料行。同樣地，如果模型包含的可預測資料行比在 MAXIMUM_OUTPUT_ATTRIBUTES 參數中所指定的數目多，演算法也會忽略認為不重要的任何資料行。如果模型包含的案例比在 MAXIMUM_STATES 參數中所指定的數目多，則會將最不常用的狀態群組在一起，並視為遺漏。如果其中有任何參數設定為 0，功能選擇就會關閉，且會影響處理時間和效能。

只有演算法選取的輸入屬性和狀態會包含在模型建立程序中，且可以用來預測。功能選擇所忽略的可預測資料行會用於預測，但預測只會以模型中存在的全域統計資料為基礎。

請參閱

概念

資料採礦演算法
 Microsoft 群集演算法
 Microsoft 決策樹演算法
 Microsoft 貝氏機率分類演算法
 Microsoft 類神經網路演算法 (SSAS)

說明及資訊

取得 SQL Server 2005 協助

共用方式為

資料採礦的功能選擇

請參閱

概念

說明及資訊

其他資源