予測モデルのカスタマイズと処理 (中級者向けデータ マイニング チュートリアル)
Microsoft タイム シリーズ アルゴリズムには、モデルの作成方法と時間データの分析方法に影響するいくつかのパラメーターがあります。 これらのプロパティを変更すると、マイニング モデルでの予測の作成方法に大きく影響する場合があります。
このチュートリアルでは、次の作業を行ってモデルを変更します。
PERIODICITY_HINT パラメーターの新しい値を追加して、モデルでの期間の処理方法をカスタマイズします。
Microsoft タイム シリーズ アルゴリズムの重要な 2 つのパラメーターについて理解します。FORECAST_METHOD では、予測に使用される方法を制御できます。PREDICTION_SMOOTHING では、長期予測と短期予測の組み合わせをカスタマイズできます。
必要に応じて、不足値を帰属させる方法を指定します。
すべての変更が完了したら、モデルを配置して処理します。
時系列のパラメーターの設定
周期性のヒント
PERIODICITY_HINT パラメーターは、データに表示する追加の期間に関する情報をアルゴリズムに提供します。 時系列モデルでは、既定でデータのパターンの検出が自動的に試行されますが、 予想される周期が既にわかっている場合は、周期性のヒントを指定することでモデルの精度を高めることができます。 ただし、適切でない周期性のヒントを指定すると精度が低下することがあるため、どの値を使用すればよいか確信がない場合は、既定値を使用することをお勧めします。
たとえば、このモデルで使用されるビューでは、1 か月ごとに Adventure Works DW Multidimensional 2012 から売上データが集計されます。 したがって、このモデルで使用される各タイム スライスは 1 か月を表し、予測もすべて月単位で行われます。 売上パターンはだいたいが 1 年周期 (つまり 12 か月) で繰り返されると想定されるため、12 のタイム スライス (月) で 1 つの売上の周期となるように、ここでは PERIODICITY_HINT パラメーターを 12 に設定します。
予測方法
FORECAST_METHOD パラメーターは、タイム シリーズ アルゴリズムが短期予測と長期予測のどちら向けに最適化されるかを制御します。 既定では、FORECAST_METHOD パラメーターは MIXED に設定されます。この場合、2 種類のアルゴリズムが組み合わされ、短期予測と長期予測の優れた結果を得るためのバランスが保たれます。
ただし、使用するアルゴリズムが決まっている場合は、ARIMA または ARTXP に値を変更することができます。
長期予測と 短期予測の重み付け
PREDICTION_SMOOTHING パラメーターを使用して、長期予測と短期予測の組み合わせ方法をカスタマイズすることもできます。 既定では、このパラメーターは 0.5 に設定されます。一般には、これが全体的な精度を確保するための最適なバランスです。
アルゴリズム パラメーターを変更するには
[マイニング モデル] タブで [Forecasting] を右クリックし、[アルゴリズム パラメーターの設定] をクリックします。
[アルゴリズム パラメーター] ダイアログ ボックスの [PERIODICITY_HINT] 行で、[値] 列をクリックし、かっこ付きで「{12}」と入力します。
既定で、値 {1} も追加されます。
[FORECAST_METHOD] 行で、[値] ボックスが空白のままか、MIXED に設定されているかを確認します。 別の値が入力されている場合は、「MIXED」と入力してパラメーターを既定値に戻します。
[PREDICTION_SMOOTHING] 行で、[値] ボックスが空白か、0.5 に設定されているかを確認します。 別の値が入力されている場合は、[値] をクリックし、「0.5」と入力してパラメーターを既定値に戻します。
注 PREDICTION_SMOOTHING パラメーターは、SQL Server Enterprise Edition でのみ使用できます。 したがって、SQL Server Standard Edition では PREDICTION_SMOOTHING パラメーターの値を表示または変更できません。 ただし、既定の動作では両方のアルゴリズムが使用され、同等の重み付けが行われます。
[OK] をクリックします。
不足データの処理 (オプション)
売上データに NULL で埋められたギャップ (途切れ) が含まれていたり、店舗からのレポートが期限に間に合わなかったために系列の終了時点で空のセルが残されたりすることがよくあります。 このような場合は、Analysis Services から次のエラーが表示されてモデルが処理されません。
"エラー (データ マイニング): 系列 <系列名> (マイニング モデル <モデル名>) で始まるタイム スタンプが同期されていません。 すべての時系列は同一の時点で終了する必要があります。また、データ消失点をそれぞれが任意に持つこともできません。 MISSING_VALUE_SUBSTITUTION パラメーターを Previous または数値定数に設定すると、可能な場所にデータ消失点が自動的に設定されます。"
このエラーを回避するには、次のいずれかの方法で、ギャップを埋めるための新しい値が Analysis Services から自動的に提供されるように指定します。
平均値を使用する。 平均は、同じデータ系列のすべての有効値を使用して計算されます。
前の値を使用する。 複数の不足セルに前の値を割り当てることは可能ですが、開始値を埋めることはできません。
指定した定数値を使用する。
値の平均を計算してギャップを埋めるように指定するには
[マイニング モデル] タブで [Forecasting] 列を右クリックし、[アルゴリズム パラメーターの設定] をクリックします。
[アルゴリズム パラメーター] ダイアログ ボックスの [MISSING_VALUE_SUBSTITUTION] 行で、[値] 列をクリックし、「Mean」と入力します。
モデルの作成
モデルを使用するには、サーバーにモデルを配置し、アルゴリズムを使用してトレーニング データを実行することでそのモデルを処理する必要があります。
予測モデルを処理するには
SQL Server Data Tools で、[マイニング モデル] メニューの [マイニング構造および全モデルの処理] をクリックします。
プロジェクトをビルドして配置するかどうかを確認する警告で、[はい] をクリックします。
[マイニング構造の処理 - Forecasting] ダイアログ ボックスで [実行] をクリックします。
[処理の進行状況] ダイアログ ボックスが開き、モデル処理に関する情報が表示されます。 モデルの処理には、時間がかかることがあります。
処理が完了したら、[閉じる] をクリックして [処理の進行状況] ダイアログ ボックスを終了します。
もう一度 [閉じる] をクリックして、[マイニング構造の処理 - Forecasting] ダイアログ ボックスを終了します。
このレッスンの次の作業
予測モデルの検証 (中級者向けデータ マイニング チュートリアル)
関連項目
参照
Microsoft タイム シリーズ アルゴリズム テクニカル リファレンス