Microsoft デシジョンツリーアルゴリズム

[アーティクル]
12/15/2008

Microsoft デシジョンツリーアルゴリズムは、不連続属性と連続属性の両方の予測モデリングで使用するために Microsoft SQL Server 2005 Analysis Services (SSAS) で提供されている分類および回帰アルゴリズムです。

不連続属性の場合、予測はデータセットの入力列間のリレーションシップに基づいて行われます。アルゴリズムでは、これらの列の値または状態を使用して、予測可能として指定した列の状態が予測されます。具体的には、予測可能列に相関している入力列が識別されます。たとえば、どのような顧客が自転車を購入する確率が高いかを予測するシナリオにおいて、若い顧客は 10 人のうち 9 人が自転車を購入するのに対し、中高年の顧客は 10 人のうち 2 人しか購入しない場合、アルゴリズムによって、年齢が自転車購入の適切な予測子であると推定されます。デシジョンツリーでは、特定の結果に対するこの傾向に基づいて予測が行われます。

連続属性の場合、アルゴリズムでは線型回帰を使用して、デシジョンツリーの分割ポイントが判断されます。

複数の列が予測可能に設定されている場合、または予測可能に設定されている入れ子になったテーブルが入力データに含まれている場合は、予測可能列ごとに個別のデシジョンツリーが作成されます。

例

Adventure Works Cycle 社のマーケティング部では、過去の顧客が製品を将来購入する可能性があるかどうかを示す特性を識別する必要があります。AdventureWorks データベースには、過去の顧客に関する人口統計情報が格納されています。マーケティング部は、Microsoft デシジョンツリーアルゴリズムを使用してこの情報を分析することで、特定の顧客が製品を購入するかどうかを予測するモデルを作成できます。この予測は、人口統計や過去の購入パターンなど、顧客に関する既知の列の状態に基づいて行います。

アルゴリズムの動作

Microsoft デシジョンツリーアルゴリズムでは、ノードとも呼ばれる一連の分割をツリー内に作成することによって、データマイニングモデルが作成されます。ノードは、入力列が予測可能列に密接に相関していることが認識されるたびに、アルゴリズムによってモデルに追加されます。アルゴリズムで分割が決定される方法は、連続列と不連続列のどちらを予測するかによって異なります。Microsoft のデシジョンツリーアルゴリズムが不連続の予測可能列に対してどのように機能するかの詳細については、「Scalable Classification over SQL Databases (SQL データベースのスケーラブルな分類)」および「Learning Bayesian Networks: The Combination of Knowledge and Statistical Data (ベイジアンネットワークの学習: 知識と統計データの組み合わせ)」を参照してください。Microsoft デシジョンツリーアルゴリズムが、連続する予測可能列をどのように処理するかについては、「Autoregressive Tree Models for Time-Series Analysis (時系列分析の自動回帰的ツリーモデル)」の付録を参照してください。

不連続列の予測

不連続の予測可能列に対して Microsoft デシジョンツリーアルゴリズムがツリーを作成する方法は、ヒストグラムで示すことができます。次の図は、予測可能列の "Bike Buyers" を入力列の "Age" と相関させてプロットしたヒストグラムを示しています。このヒストグラムは、ある顧客が自転車を購入するかどうかは、その人の年齢からある程度判断できることを示しています。

Microsoft デシジョンツリーアルゴリズムによるヒストグラム

Microsoft デシジョンツリーアルゴリズムでは、図のような相関関係に基づいてモデルに新しいノードを作成します。

デシジョンツリーノード

アルゴリズムによって新しいノードがモデルに追加されるにつれて、ツリー構造が形成されていきます。ツリーの最上部ノードには、顧客グループ全体の予測可能列の内訳が記述されます。モデルが拡大する際、アルゴリズムではすべての列が考慮されます。

連続列の予測

Microsoft デシジョンツリーアルゴリズムが連続する予測可能列に基づいてツリーを作成するとき、各ノードには回帰式が含まれます。分割は、回帰式内の非線形性のポイントで発生します。たとえば、次の図について検討します。

非線形性を表す複数の回帰線

この図には、1 本の線または 2 本の接続された線を使用してモデル化できるデータが含まれています。ただし、1 本の線ではデータを的確に表すことができません。代わりに 2 本の線を使用すると、モデルはデータをさらに的確に表すことができます。2 本の線が交差するポイントは非線形性のポイントで、これはデシジョンツリーモデルのノードが分割されるポイントになります。たとえば、前のグラフで非線形性のポイントに対応しているノードは、次の図で表すことができます。2 つの式は、2 本の線の回帰式を表します。

非線形性のポイントを表す式

アルゴリズムの使用

デシジョンツリーモデルには、キー列、入力列、および 1 つの予測可能列が必要です。

次の表のように、Microsoft デシジョンツリーアルゴリズムでは、特定の入力列のコンテンツの種類、予測可能列のコンテンツの種類、およびモデリングフラグがサポートされています。

入力列のコンテンツの種類	Continuous、Cyclical、Discrete、Discretized、Key、Table、Ordered
予測可能列のコンテンツの種類	Continuous、Cyclical、Discrete、Discretized、Table、Ordered
モデリングフラグ	MODEL_EXISTENCE_ONLY、NOT NULL、REGRESSOR

すべての Microsoft アルゴリズムでは、共通の関数セットがサポートされています。ただし、Microsoft デシジョンツリーアルゴリズムでは、次の表のような追加の関数がサポートされています。

IsDescendant	PredictNodeId
IsInNode	PredictProbability
PredictAdjustedProbability	PredictStdev
PredictAssociation	PredictSupport
PredictHistogram	PredictVariance

すべての Microsoft アルゴリズムに共通の関数の一覧については、「データマイニングアルゴリズム」を参照してください。これらの関数の使用方法については、「データマイニング拡張機能 (DMX) 関数リファレンス」を参照してください。

Microsoft デシジョンツリーアルゴリズムでは、Predictive Model Markup Language (PMML) を使用したマイニングモデルの作成がサポートされています。

Microsoft デシジョンツリーアルゴリズムでは、結果として得られるマイニングモデルのパフォーマンスおよび精度に影響を与えるいくつかのパラメータがサポートされています。次の表では、各パラメータについて説明します。

パラメータ	説明
MAXIMUM_INPUT_ATTRIBUTES	選択した機能を呼び出す前にアルゴリズムが処理できる入力属性の数を定義します。この値を 0 に設定すると、機能の選択がオフになります。既定値は 255 です。
MAXIMUM_OUTPUT_ATTRIBUTES	選択した機能を呼び出す前にアルゴリズムが処理できる出力属性の数を定義します。この値を 0 に設定すると、機能の選択がオフになります。既定値は 255 です。
SCORE_METHOD	分割スコアを計算するために使用する方法を決定します。使用可能なオプションは、エントロピ (1)、K2 事前分布を指定したベイズ定理 (2)、均一な事前分布を指定したベイズディリクレ等式 (BDE) (3) です。既定値は 3 です。
SPLIT_METHOD	ノードを分割するために使用する方法を決定します。使用可能なオプションは、バイナリ (1)、完全 (2)、または両方 (3) です。既定値は 3 です。
MINIMUM_SUPPORT	デシジョンツリー内で分割を生成するために必要なリーフケースの最小数を決定します。既定値は 10 です。
COMPLEXITY_PENALTY	デシジョンツリーの拡大を制御します。低い値では分割の数が増加し、高い値では分割の数が減少します。既定値は、次の一覧で説明するように、特定のモデルの属性数に基づいています。属性数が 1 ～ 9 の場合、既定値は 0.5 です。属性数が 10 ～ 99 の場合、既定値は 0.9 です。属性数が 100 以上の場合、既定値は 0.99 です。
FORCED_REGRESSOR	アルゴリズムによって計算された列の重要度にかかわらず、指定した列をアルゴリズムでリグレッサとして使用するように設定します。このパラメータは、連続属性を予測するデシジョンツリーでのみ使用します。

参照

次の方法で共有

Microsoft デシジョンツリーアルゴリズム

例

アルゴリズムの動作

不連続列の予測

連続列の予測

アルゴリズムの使用

参照

概念

その他の技術情報

ヘルプおよび情報

その他のリソース

次の方法で共有

Microsoft デシジョン ツリー アルゴリズム

例

アルゴリズムの動作

不連続列の予測

連続列の予測

アルゴリズムの使用

参照

概念

その他の技術情報

ヘルプおよび情報

その他のリソース

Microsoft デシジョンツリーアルゴリズム