Microsoft 線形回帰アルゴリズム

Microsoft 線形回帰アルゴリズムは、Microsoft デシジョン ツリー アルゴリズムを変形したものです。このアルゴリズムでは、MINIMUM_LEAF_CASES パラメータが、マイニング モデルのトレーニング時にアルゴリズムで使用される、データセットのケースの総数以上に設定されます。このようにパラメータを設定することにより、アルゴリズムで分割が作成されず、線形回帰が実行されます。

線形回帰を使用して、2 つの連続した列の関係を調べることができます。この関係は、一連のデータを最もよく表す直線の式の形になります。たとえば、次の図の直線は、データの最適な線形表現です。

データ セットをモデル化した直線

図の直線を表す式は、回帰式と呼ばれる y = ax + b という一般的な形式になります。変数 Y は出力変数を表し、変数 X は入力変数を表します。ab は調整可能な係数です。図の各データ ポイントには、回帰直線からの距離に関する誤差があります。回帰式の係数 a および b により、回帰直線の角度と位置が調整されます。データ ポイントに関する誤差の合計が最も小さな数になるまで、a および b を調整して、回帰式を取得できます。

アルゴリズムの使用

Microsoft ツリー ビューアを使用して、線形回帰マイニング モデルを調べます。

線形回帰モデルには、キー列、入力列、および少なくとも 1 つの予測可能列が必要です。

次の表のように、Microsoft 線形回帰アルゴリズムでは、特定の入力列のコンテンツの種類、予測可能列のコンテンツの種類、およびモデリング フラグがサポートされています。

入力列のコンテンツの種類

Continuous、Cyclical、Key、Table、Ordered

予測可能列のコンテンツの種類

Continuous、Cyclical、Ordered

モデリング フラグ

NOT NULL、REGRESSOR

すべての Microsoft アルゴリズムでは、共通の関数セットがサポートされています。ただし、Microsoft 線形回帰アルゴリズムでは、次の表のような追加の関数がサポートされています。

IsDescendant

PredictStdev

IsInNode

PredictSupport

PredictHistogram

PredictVariance

PredictNodeId

   

すべての Microsoft アルゴリズムに共通の関数の一覧については、「データ マイニング アルゴリズム」を参照してください。これらの関数の使用方法については、「データ マイニング拡張機能 (DMX) 関数リファレンス」を参照してください。

Microsoft 線形回帰アルゴリズムでは、結果として得られるマイニング モデルのパフォーマンスおよび精度に影響を与えるいくつかのパラメータがサポートされています。次の表では、各パラメータについて説明します。

パラメータ 説明

MAXIMUM_INPUT_ATTRIBUTES

選択した機能を呼び出す前にアルゴリズムが処理できる入力属性の数を定義します。この値を 0 に設定すると、機能の選択がオフになります。

既定値は 255 です。

MAXIMUM_OUTPUT_ATTRIBUTES

選択した機能を呼び出す前にアルゴリズムが処理できる出力属性の数を定義します。この値を 0 に設定すると、機能の選択がオフになります。

既定値は 255 です。

FORCED_REGRESSOR

アルゴリズムによって計算された列の重要性にかかわらず、指定した列をアルゴリズムでリグレッサとして使用するように設定します。

参照

概念

データ マイニング アルゴリズム
データ マイニング ウィザード
データ マイニングでの機能の選択
Microsoft ツリー ビューアを使用したマイニング モデルの表示

その他の技術情報

CREATE MINING MODEL (DMX)

ヘルプおよび情報

SQL Server 2005 の参考資料の入手