予測モデルの検証 (中級者向けデータ マイニング チュートリアル)
予測マイニング モデルが作成できたので、次は、データ マイニング デザイナーの [マイニング モデル ビューアー] タブを使用して結果を検証してみましょう。 Microsoft タイム シリーズ ビューアーには、[グラフ] タブと [モデル] タブがあります。
また、すべてのモデルで Microsoft 汎用ツリー ビューアーを使用できます。 それぞれのビューに、時系列モデルの情報が少しずつ異なる方法で表示されます。
[グラフ] タブ
[モデル] タブ
Microsoft 汎用コンテンツ ビューアー
[グラフ] タブ
Microsoft タイム シリーズ ビューアーの [グラフ] タブには、履歴データと予測を含む各系列がグラフィカルに表示されます。 時系列グラフのそれぞれの線は、製品、地域、および予測可能な属性の一意の組み合わせを表します。
ビューアーの右側の凡例には、ドロップダウン リストでの選択に基づいて、選択可能なすべての時系列が表示されます。 凡例で、これらのチェック ボックスをオンまたはオフにして、グラフに表示する時系列を指定できます。
各時系列に対して使用する色などの表示オプション、またはグラフの点に値を表示するかどうかを変更することもできます。
時系列を選択するには
[マイニング モデル ビューアー] タブの [グラフ] タブをクリックします (表示されていない場合)。
グラフ ビューの右側にあるドロップダウン リストをクリックし、すべてのチェック ボックスをオンにします。 [OK] をクリックします。
グラフに 24 本の異なる系列線が表示されます。
グラフの右側にあるチェック ボックスをオフにして、Amount に基づくすべての系列の線を一時的に非表示にします。
次に、R750 と R250 という自転車に関連するチェック ボックスをオフにします。
これで、グラフに含まれる系列線は次の 6 つだけになるため、M200 と T1000 という自転車の傾向を比較しやすくなります。
M200 Europe: Quantity
M200 North America: Quantity
M200 Pacific: Quantity
T1000 Europe: Quantity
T1000 North America: Quantity
T1000 Pacific: Quantity
このビューアーに表示されるグラフには、履歴データと予測データの両方が含まれます。 履歴データと区別できるよう、予測データの部分は網掛けされています。 個々の系列を比較しやすくするために、グラフのそれぞれの線に関連付けられている色を変更することもできます。 詳細については、「データ マイニング ビューアーで使用する色の変更」を参照してください。
これらの傾向線からは、どの地域でも総売上がしだいに増加しており、12 か月目 (つまり 12 月) でピークに達していることがわかります。 またグラフから、T1000 という自転車のデータが他の製品系列のデータより大幅に遅れて始まっていることもわかります。 これは、この製品が新しい製品であるためです。この系列については、基になるデータが十分でないため、正確な予測が得られない可能性があります。
既定では、各時系列について、5 つの予測期間分の予測が点線で表示されます。 この値を変更して、表示する予測を増減することもできます。 また、グラフに誤差範囲を追加して、予測の標準偏差をグラフィカルに表示することもできます。
グラフ ビューの予測オプションと表示オプションを変更するには
[予測期間] の値を変更し、5 から 10 まで徐々に増やしてから 6 に戻してみます。
履歴データの変動幅が大きい場合は、予測の数を増やすと変動が繰り返される傾向にあり、増幅されることもあります。 多くの場合、この時点である程度の調査が必要になります。この調査で、履歴データの大幅な増加の原因を特定し、それらの結果をそのまま使用するか、ソース データに修正する箇所がないかどうかを探すか、モデルの線をいずれかの方法で滑らかにするかを判断することになります。
[偏差の表示] チェック ボックスをオンにします。
このオプションをオンにすると、それぞれの予測値について、推定される誤差が表示されます。
X 軸のスケールを確認します。 履歴データと予測データの変化はどちらも常に比率で表されますが、実際の値はグラフにすべての値が表示されるように自動的に調整されます。 そのため、モデルを比較するときは、視覚的な見た目だけに頼らないように注意が必要です。 増加率や予測値の正確な値を確認するには、点線または実線の上にマウス ポインターを置いて確認するか、それらの線をクリックして [マイニング凡例] に表示される値を確認します。
ヒント: [マイニング凡例] が表示されない場合は、モデル ビューに切り替えて任意のノードを右クリックし、[凡例の表示] をクリックします。
これらの傾向を見て、一部の系列のデータが十分でないことが気になるときは、モデル別の売上の平均 (地域別の売上の平均など) を求めて予測の信頼性を高めることもできます。 この方法については、このチュートリアルのレッスンで後ほど説明します。
トップに戻る
[モデル] タブ
データ マイニング デザイナーで、Microsoft タイム シリーズ ビューアーの [モデル] タブを使用して、予測モデルをツリー グラフの形式で表示できます。
最初に注目する点は、ここで使用しているデータでは、複数の製品ライン (T1000 など) について、売上を示すメジャーがそれぞれ 2 つ (Amount と Quantity) あり、地域がそれぞれ 3 つ (ヨーロッパ、北米、および太平洋) に分かれているため、作成したモデルは実質的に 24 個のツリーで構成されているということです。それらの各ツリーが、地域、製品、および予測可能な属性の組み合わせがそれぞれ異なる売上パターンのモデルを表しています。
製品ライン、地域、および売上の基準の組み合わせから表示するものを選択するには、[モデル] タブの [ツリー] ボックスの一覧で系列を選択します。
ここで、モデルをツリーとして表示すると何がわかるか考えてみましょう。 ツリーに複数のレベルがあるモデルとノードが 1 つだけのモデルを例に、それらのモデルの違いについて考えてみます。
ツリー グラフのノードが 1 つだけの場合は、モデルで検出された傾向が時間の経過によってほとんど変化しないことを意味します。 この 1 つのノードには "すべて" というラベルが付けられ、入力変数と結果のリレーションシップを表す式を表示するために使用できます。
時系列のツリー グラフに複数の分岐がある場合は、検出された時系列が複雑すぎて、1 つの式では表せないことを意味します。 代わりに、ツリー グラフに複数の分岐が表示され、それぞれの分岐にツリーが分割される原因となった条件を示すラベルが付けられます。 ツリーが分割されている場合、各分岐はそれぞれの時間の単位を表し、その時間単位ごとに 1 つの式で傾向を表すことができます。
たとえば、グラフにおいて、9 月のある時点から売上高が急激に伸び始め、年末休暇までその傾向が続いている場合、モデル ビューに切り替えて傾向が変化した正確な日付を確認できます。 この場合、ツリー内の "9 月前" を表す分岐には分割前までの売上傾向を数学的に示す式、"9 月以降" を表す分岐には 9 月から年末休暇までの売上傾向を示す式のように、それぞれの分岐に異なる式が含まれます。
時系列モデルに対応するデシジョン ツリーを調査するには
タイム シリーズ ビューアーの [モデル] タブをクリックし、[ツリー] ボックスの一覧の [T1000 Europe: Amount] 系列を選択します。
"すべて" というラベルが付いたノードをクリックします。
[すべて] ノードについて表示されるツールヒントには、系列全体のケースの数や、データの分析から得られた時系列式などの情報が含まれます。
[マイニング凡例] が表示されない場合は、ノードを右クリックし、[凡例の表示] をクリックします。
[マイニング凡例] には、ツールヒントと同じ情報が表示されます。 不連続な独立変数がある場合は、ノード内の変数の分布を示すヒストグラムも表示されます。
次に、別の時系列を選択して表示します。 タイム シリーズ ビューアーの [モデル] タブをクリックし、[ツリー] ボックスの一覧の [M200 North America: Amount] 系列を選択します。
この時点で、ツリー グラフには [すべて] ノードと 2 つの子ノードが含まれています。 子ノードのラベルから、どの時点で傾向線が変化したか確認できます。
また、それぞれの子ノードの [マイニング凡例] の説明に、ツリーの各分岐のケースの数も表示されます。
ツリー ビューアーには、ほかにも次のような機能があります。
[背景] コントロールを使用して、グラフに表示される変数を変更できます。 既定では、[背景] の値が [母集団] に設定されているため、ケースが多いノードほど網掛けが濃くなります。 ノードに含まれる正確なケース数を確認するには、ノードの上にマウス ポインターを置いて表示されるツールヒントを確認するか、ノードをクリックして凡例ウィンドウに表示される数を確認します。
ツールヒントにはノードの回帰式も表示されます。これについても、ノードをクリックして確認することもできます。 混合モデルを作成した場合は、ARIMA の式 (リーフ ノード内) と ARTXP の式 (ツリーのルート ノード内) の 2 つが表示されます。
ノードでは、連続する数値が小さなひし形で表されます。 属性の範囲は、そのひし形が示されたバーに表示されます。 このひし形はノードの中間にあり、ひし形の幅がそのノードの属性の分散を表します。
トップに戻る
(オプション) 汎用コンテンツ ツリー ビューアー
Analysis Services には、時系列用のカスタム ビューアーのほかに、すべてのデータ マイニング モデルで使用できる Microsoft 汎用コンテンツ ツリー ビューアーが用意されています。 このビューアーには、次のような利点があります。
Microsoft タイム シリーズ ビューアー: このビューには、2 つのアルゴリズムの結果がマージされて表示されます。 各系列を別々に表示することもできますが、その場合、各アルゴリズムの結果がどのように結合されたかを判別できません。 また、このビューでは、ツールチップと [マイニング凡例] に重要な統計情報だけが表示されます。
汎用コンテンツ ツリー ビューアー: モデルで使用されているすべてのデータ系列を一度に参照して表示できます。また、混合モデルを作成した場合、ARIMA と ARTXP の両方のツリーが同じグラフに表示されます。
このビューアーを使用すると、両方のアルゴリズムからすべての統計情報を取得できるだけでなく、値の分布も確認できます。
ARIMA と ARTXP の分析について詳しく調べたい場合など、データ マイニングの上級ユーザー向けのビューアーです。
汎用コンテンツ ビューアーで特定のデータ系列の詳細を表示するには
[マイニング モデル ビューアー] タブの [ビューアー] ボックスの一覧で、[Microsoft 汎用コンテンツ ツリー ビューアー] を選択します。
[ノードのキャプション] ペインで最上位ノード ([すべて]) をクリックします。
[ノードの詳細] ペインで ATTRIBUTE_NAME の値を表示します。
この値から、このノードにどの系列 (製品と地域の組み合わせ) が含まれているかがわかります。 AdventureWorks の例では、最上位ノードは M200 Europe 系列のノードです。
[ノードのキャプション] ペインで、子ノードがある最初のノードを見つけます。
系列のノードに子がある場合は、Microsoft タイム シリーズ ビューアーの [モデル] タブに表示されるツリー ビューにも分岐構造が含まれます。
ノードを展開し、いずれかの子ノードをクリックします。
スキーマの NODE_DESCRIPTION 列に、ツリーが分割される原因になった条件が含まれています。
[ノードのキャプション] ペインで最上位の ARIMA ノードをクリックし、すべての子ノードが表示されるまでそのノードを展開します。
[ノードの詳細] ペインで ATTRIBUTE_NAME の値を表示します。
この値から、このノードに含まれている時系列がわかります。 ARIMA セクションの最上位ノードは [(すべて)] セクションの最上位ノードと一致するはずです。 AdventureWorks の例では、このノードには M200 Europe 系列に対する ARIMA 分析が含まれています。
詳細については、「タイム シリーズ モデルのマイニング モデル コンテンツ (Analysis Services - データ マイニング)」を参照してください。
トップに戻る
このレッスンの次の作業
時系列予測の作成 (中級者向けデータ マイニング チュートリアル)
関連項目
参照
Microsoft タイム シリーズ アルゴリズム テクニカル リファレンス