リフト チャート (Analysis Services - データ マイニング)
データ マイニング デザイナの [マイニング精度チャート] タブにある [リフト チャート] タブでは、選択したモデル、モデルの予測可能な属性、およびその他の設定に応じて、さまざまな種類のチャートを表示できます。
不連続値を予測するモデルの場合、リフト チャートまたは利益チャートを作成できます。リフト チャートは、各モデルの予測の精度を比較するもので、一般的な予測の精度または特定の値の予測の精度を表示するように構成できます。利益チャートはリフト チャートと同類のチャートで、リフト チャートと同じ情報が含まれます。ただし、利益チャートには各モデルの使用に関連した利益の予測上の増加も表示されます。[グラフの種類] ボックスの一覧から目的のチャートの種類を選択します。
注 リフト チャートまたは利益チャートにタイム シリーズ モデルを表示することはできません。ただし、[マイニング モデル予測] タブを使用して、履歴シリーズとこのシリーズに基づく予測の両方を含むチャートを表示できます。詳細については、「Microsoft タイム シリーズ アルゴリズム」を参照してください。
詳細情報 : 「利益チャート (Analysis Services - データ マイニング)」、「散布図 (Analysis Services - データ マイニング)」
シナリオ
[リフト チャート] タブには、マイニング モデルによって生成されるリフトの変化がグラフィカルに表示されます。たとえば、Adventure Works Cycles のマーケティング部門がターゲット メーリング キャンペーンを作成する場合を検討します。以前のキャンペーン結果から、10% の回答率が一般的であることがわかっています。データベースのテーブルには、10,000 人の潜在顧客の一覧が保存されています。よって、この一般的な回答率から、1,000 人の潜在顧客からの回答が期待できます。
ただし、このプロジェクトの予算は、データベース内の 10,000 人の顧客すべてを対象とするには不足しています。予算では、5,000 人の顧客のみに広告を郵送できます。マーケティング部門には、次の 2 つの選択肢があります。
ターゲットとする 5,000 人の顧客をランダムに選択する。
回答する確率が高いと思われる 5,000 人の顧客をターゲットとするためにマイニング モデルを使用する。
5,000 人の顧客をランダムに選択した場合、一般的な回答率に基づき、500 の回答しか期待できません。このシナリオは、リフト チャートのランダム線によって示されています。一方、マーケティング部門がメーリングのターゲット選択にマイニング モデルを使用した場合は、これより大きな回答率を期待できます。これは、回答する確率の高い顧客をターゲットにするためです。このモデルが完全な場合、つまり、このモデルが絶対に誤らない予測を作成できると仮定した場合は、このモデルが推奨する 1,000 人の潜在顧客に郵便を送ることで、1,000 の回答を得られることを期待できます。このシナリオは、リフト チャートの理想線によって示されています。現実には、マイニング モデルは、この 2 極、つまりランダムな推測と、完璧な予測の間に位置する確率が高くなります。ランダムな推測に対する改善は、すべてリフトと見なされます。
リフト チャートについて
作成できるリフト チャートは 2 種類あります。1 つは、予測可能な列の対象の値を指定するチャートで、もう 1 つは、値を指定しないチャートです。[入力の選択] タブと [リフト チャート] タブを切り替えると、チャートが更新され、列マッピングまたはその他の設定に加えられたすべての変更内容が反映されます。
対象の値を持つリフト チャート
次に示すチャートは、「基本的なデータ マイニング チュートリアル」で作成する Targeted Mailing モデルのリフト チャートです。このチャートの対象の属性は [Bike Buyer] で、対象の値は 1 です。これは、自転車を購入したか、購入する可能性がある顧客を意味します。したがって、このリフト チャートは、このモデルによって自転車を購入する可能性がある顧客をより効率的に識別できることを示します。
チャートには、基本モデルに加えて、特定の顧客を対象とするようフィルタ選択された関連モデルも含まれます。1 つのリフト チャートに複数のモデルを追加することができます。ただし、すべてのモデルに同じ予測可能な属性が必要です。このフィルタは、トレーニングと評価の両方に使用するケースを、30 歳未満の顧客に制限します。その結果、モデルの評価に使用されるケースの数は、基本モデルとフィルタ選択されたモデルとで異なります。予測結果やその他の統計情報を解釈する際は、この点に留意する必要があります。
チャートの X 軸は、予測を比較するために使用されるテスト データセットの割合を示します。チャートの Y 軸は、予測される値の割合を示します。
ここで青で示されている斜めの直線は、すべてのチャートに表示されます。これはランダムな推測の結果を表しており、リフトを評価するためのベースラインとなります。これに加えて、リフト チャートに追加するモデルごとに 2 本の線が表示されます。1 本は、常に完璧な予測を行うモデルを作成できた場合のトレーニング データセットに対する理想的な結果を表し、もう 1 本はモデルに対する実際のリフト (結果の改善) を表します。
この例では、フィルタ選択されたモデルの理想線が濃い青で、実際のリフトの線が黄色で示されています。チャートでは、理想線の最高点が約 40% を指しています。つまり、完璧なモデルを使用したとすれば、母集団の 40% にダイレクトメールを送信するだけで、ターゲットとする顧客の 100% に到達できることになります。母集団の 40% をターゲットとするフィルタ選択されたモデルの実際のリフトは、60 ~ 70% です。つまり、母集団の顧客の 40% にダイレクトメールを送信すると、ターゲットとする顧客の 60 ~ 70% に到達できます。
[マイニング凡例] には、曲線上の任意のポイントにおける実際の値が含まれます。測定される場所は、灰色の縦棒をクリックして移動することにより変更できます。チャートの灰色の線は 30% まで移動されています。フィルタ選択されたモデルとフィルタ選択されていないモデルの両方が、このポイントにおいて最も効果的であると思われるためです。このポイントを過ぎると、リフトの量が小さくなります。
[マイニング凡例] には、チャートの解釈に役立つスコアと統計も含まれます。これらの結果は、灰色の線におけるモデルの精度を表します。このシナリオでは、この線がテストケース全体の 30% を含むよう位置しています。
シリーズ、モデル |
スコア |
対象になる母集団 |
予測確率 |
---|---|---|---|
メーリング対象全員 |
0.71 |
47.40% |
61.38% |
30 歳未満のメーリング対象 |
0.85 |
51.81% |
46.62% |
ランダム推測モデル |
|
31.00% |
|
理想モデル : メーリング対象全員 |
|
62.48% |
|
理想モデル : 30 歳未満のメーリング対象 |
|
65.28% |
|
これらの結果から、すべてのケースの 30% を測定すると、対象になる母集団のうち 47.40% の自転車の購買行動を汎用モデル (メーリング対象全員) で予測できることがわかります。つまり、データベース内の顧客の 30% だけに対象を絞ってダイレクトメールを送信した場合、対象となる顧客の半数弱に到達できます。フィルタ選択されたモデルを使用した場合、対象とする顧客の約 51% に到達できます。
[予測確率] の値は、"購入する可能性がある" ケースに顧客を含めるために必要なしきい値を表します。ケースごとに、モデルによって各予測の精度が推定され、その値が保存されます。この値を使用して、顧客をフィルタ選択したり対象としたりできます。たとえば、購入する可能性のある顧客を基本モデルから識別するには、予測確率が 61% 以上のケースを取得するクエリを使用します。フィルタ選択されたモデルで対象とする顧客を取得するには、すべての条件 (年齢、PredictProbability 値が 46% 以上) を満たすケースを取得するクエリを作成します。
モデルを比較すると、おもしろいことがわかります。フィルタ選択されたモデルのほうが多くの潜在顧客を取得できるように思われますが、予測確率のスコアが 46% の顧客を対象とした場合、自転車を購入しない人にダイレクトメールを送信する確率も 53% あります。したがって、どのモデルがより適しているかを判断する場合、フィルタ選択されたモデルでは精度を高く、対象サイズを小さくして、基本モデルとの間のバランスを取る必要があります。
[スコア] の値は、正規化された母集団におけるモデルの効果を計算することで、モデルどうしの比較に役立ちます。スコアが高いほど良いため、この場合、予測確率は低くても、30 歳未満の顧客を対象とすると最も効果的であると結論できます。
対象の値を持たないモデルのリフト チャート
予測可能な列の状態を指定しない場合、次の図に示された種類のチャートが作成されます。このチャートは、予測可能な属性のすべての状態に対してモデルがどのように実行されるかを表します。たとえば、このチャートから、自転車を購入する可能性がある顧客と、自転車を購入する可能性が低い顧客の両方を、モデルでどの程度まで予測できるかがわかります。
X 軸は予測可能な列を指定するチャートの場合と同じですが、Y 軸は今度は適正な予測の割合を示しています。よって、ここでは理想線が斜めの線です。50% のデータで、50% のケースをモデルが適正に予測し、これが予想され得る最大値であることを表しています。
チャート内をクリックすると灰色の縦棒を移動でき、[マイニング凡例] には、ケース全体の割合と、適正に予測されたケースの割合が表示されます。たとえば、灰色のスライダ バーを 50% の印に合わせると、[マイニング凡例] に次の精度スコアが表示されます。これらの数値は、「基本的なデータ マイニング チュートリアル」で作成した TM_Decision Tree モデルに基づいています。
シリーズ、モデル |
スコア |
対象になる母集団 |
予測確率 |
---|---|---|---|
TM_Decision Tree |
0.77 |
40.50% |
72.91% |
理想モデル |
|
50.00% |
|
この表から、50% の母集団で、40% のケースを、作成したモデルが適正に予測することがわかります。このモデルの精度には問題がないと考えられます。ただし、このモデルは、予測可能な属性のすべての値を予測します。このため、顧客の 90% が自転車を購入しないという、このモデルによる予測が正しい場合もあります。
注 |
---|
予測可能な属性のすべての不連続値の予測精度は、1 行に表示されます。予測可能な属性の個別の値に対する予測精度行を表示するには、その値に対するリフト チャートを別途作成する必要があります。 |
トップに戻る
リフト チャートの作成
「基本的なデータ マイニング チュートリアル」には、Targeted Mailing モデルのリフト チャートの作成方法に関するチュートリアルが含まれています。詳細については、「リフト チャートを使用した精度テスト (基本的なデータ マイニング チュートリアル)」を参照してください。
すべてのチャートの種類に当てはまる詳しい手順については、「マイニング モデルの精度チャートを作成する方法」を参照してください。