Microsoft ロジスティック回帰アルゴリズム

Microsoft ロジスティック回帰アルゴリズムは、Microsoft ニューラル ネットワーク アルゴリズムのバリエーションです。このアルゴリズムでは、HIDDEN_NODE_RATIO パラメータが 0 に設定されます。この設定により、非表示の層を含んでいない、ロジスティック回帰に相当するニューラル ネットワーク モデルが作成されます。

予測可能列に状態が 2 つしか含まれていないが、予測可能列に特定の状態が含められる確率と入力列を関連付けて、回帰分析を実行する必要があるとします。次の図は、予測可能列の状態に 1 と 0 を割り当て、この列に特定の状態が含められる確率を計算し、入力変数に対する線形回帰を実行した場合に得られる結果を示しています。

線形回帰を使用して不十分にモデル化されたデータ

x 軸には入力列の値が表示されます。y 軸には、予測可能列が特定の状態またはもう一方の状態になる確率が表示されます。この場合の問題は、列の最大値と最小値が 0 と 1 であっても、線形回帰によって列が 0 と 1 の間に制限されないことです。この問題を解決するには、ロジスティック回帰を実行します。ロジスティック回帰分析では、直線を作成するのではなく、制約の最大値と最小値を含んでいる "S" 字型曲線が作成されます。たとえば、次の図は、前の例で使用したのと同じデータに対してロジスティック回帰を実行した場合に得られる結果を示しています。

ロジスティック回帰を使用してモデル化されたデータ

曲線が 0 ~ 1 の範囲を超えていないことに注目してください。ロジスティック回帰を使用して、予測可能列の状態の決定に重要な役割を果たす入力列を特定できます。

アルゴリズムの使用

Microsoft ニューラル ネットワーク ビューアを使用して、線形回帰マイニング モデルを調べます。

ロジスティック回帰モデルには、キー列、1 つ以上の入力列、および 1 つ以上の予測可能列が必要です。

次の表のように、Microsoft ロジスティック回帰アルゴリズムでは、特定の入力列のコンテンツの種類、予測可能列のコンテンツの種類、およびモデリング フラグがサポートされています。

入力列のコンテンツの種類

Continuous、Cyclical、Discrete、Discretized、Key、Table、Ordered

予測可能列のコンテンツの種類

Continuous、Cyclical、Discrete、Discretized、Ordered

モデリング フラグ

MODEL_EXISTENCE_ONLY と NOT NULL

すべての Microsoft アルゴリズムでは、共通の関数セットがサポートされています。ただし、Microsoft ロジスティック回帰アルゴリズムでは、次の表のような追加の関数がサポートされています。

IsDescendant

PredictStdev

PredictAdjustedProbability

PredictSupport

PredictHistogram

PredictVariance

PredictProbability

   

すべての Microsoft アルゴリズムに共通の関数の一覧については、「データ マイニング アルゴリズム」を参照してください。これらの関数の使用方法については、「データ マイニング拡張機能 (DMX) 関数リファレンス」を参照してください。

Microsoft ロジスティック回帰アルゴリズムを使用したモデルでは、マイニング モデルのノードの構造がその基になるデータと必ずしも直接対応しているわけではないので、ドリルスルーやデータ マイニング ディメンションがサポートされていません。

Microsoft ロジスティック回帰アルゴリズムでは、結果として得られるマイニング モデルのパフォーマンスおよび精度に影響を与えるいくつかのパラメータがサポートされています。次の表では、各パラメータについて説明します。

パラメータ 説明

HOLDOUT_PERCENTAGE

提示されたエラーの計算に使用するトレーニング データ内のケースの割合を指定します。HOLDOUT_PERCENTAGE は、マイニング モデルのトレーニング中に停止条件の一部として使用されます。

既定値は 30 です。

HOLDOUT_SEED

提示されたデータをランダムに調べるときに使用する擬似乱数ジェネレータのシード値を指定します。HOLDOUT_SEED を 0 に設定すると、アルゴリズムによってマイニング モデルの名前に基づいたシードが生成され、再処理中にモデルのコンテンツが変更されることはありません。

既定値は 0 です。

MAXIMUM_INPUT_ATTRIBUTES

選択した機能を呼び出す前にアルゴリズムが処理できる入力属性の数を定義します。この値を 0 に設定すると、機能の選択がオフになります。

既定値は 255 です。

MAXIMUM_OUTPUT_ATTRIBUTES

選択した機能を呼び出す前にアルゴリズムが処理できる出力属性の数を定義します。この値を 0 に設定すると、機能の選択がオフになります。

既定値は 255 です。

MAXIMUM_STATES

アルゴリズムによってサポートされる属性状態の最大数を指定します。属性の状態の数が状態の最大数よりも大きい場合、アルゴリズムでは属性の最も一般的な状態が使用され、残りの状態は無視されます。

既定値は 100 です。

SAMPLE_SIZE

モデルのトレーニングに使用するケースの数を指定します。アルゴリズム プロバイダでは、この数と、HOLDOUT_PERCENTAGE パラメータで指定された割合に含まれないケースの総数の割合のうち、いずれか小さい方が使用されます。

たとえば、HOLDOUT_PERCENTAGE が 30 に設定されている場合、アルゴリズムでは、このパラメータの値と、ケースの総数の 70% に相当する値のうち、いずれか小さい方が使用されます。

既定値は 10000 です。

参照

概念

データ マイニング アルゴリズム
データ マイニングでの機能の選択
データ マイニング ツールの使用
Microsoft ニューラル ネットワーク ビューアを使用したマイニング モデルの表示

その他の技術情報

CREATE MINING MODEL (DMX)

ヘルプおよび情報

SQL Server 2005 の参考資料の入手