資料採礦的功能選擇

當您在 Microsoft SQL Server 2005 Analysis Services (SSAS) 建立資料採礦模型時,資料集包含的資訊通常比建立模型所需的資訊更多,必須等到實際建立模型之後,才有辦法知道哪些是必要的資訊。例如,資料集可能包含 500 個資料行來描述客戶的特性,但其中可能只有 50 個資料行會用來建立特定的模型。雖然額外的資料行不會影響模型的輸出,但確實會增加處理模型所需的時間和儲存模型所需的空間。為了解決這個問題,有些 Microsoft 演算法實作功能選擇。功能選擇會自動從資料集裡選擇最有可能在模型中使用的屬性。下列演算法支援功能選擇:

  • 貝氏機率分類
  • 決策樹
  • 群集
  • 類神經網路

功能選擇適用於輸入屬性和可預測屬性,或資料行中的狀態數目,視演算法而定。您可以使用演算法參數 MAXIMUM_INPUT_ATTRIBUTESMAXIMUM_OUTPUT_ATTRIBUTESMAXIMUM_STATES,控制何時開啟功能選擇。如果模型包含的資料行比在 MAXIMUM_INPUT_ATTRIBUTES 參數中所指定的數目多,則演算法會忽略認為不重要的任何資料行。同樣地,如果模型包含的可預測資料行比在 MAXIMUM_OUTPUT_ATTRIBUTES 參數中所指定的數目多,演算法也會忽略認為不重要的任何資料行。如果模型包含的案例比在 MAXIMUM_STATES 參數中所指定的數目多,則會將最不常用的狀態群組在一起,並視為遺漏。如果其中有任何參數設定為 0,功能選擇就會關閉,且會影響處理時間和效能。

只有演算法選取的輸入屬性和狀態會包含在模型建立程序中,且可以用來預測。功能選擇所忽略的可預測資料行會用於預測,但預測只會以模型中存在的全域統計資料為基礎。

請參閱

概念

資料採礦演算法
Microsoft 群集演算法
Microsoft 決策樹演算法
Microsoft 貝氏機率分類演算法
Microsoft 類神經網路演算法 (SSAS)

說明及資訊

取得 SQL Server 2005 協助