テストおよび検証 (データマイニング)

[アーティクル]
07/30/2013

検証とは、実際のデータに対するマイニングモデルの性能を評価するプロセスです。運用環境に配置する前に品質や特性を理解してマイニングモデルを検証しておくことが重要です。

このセクションでは、モデルの品質に関するいくつかの基本的な概念について説明し、Microsoft Analysis Services に用意されているモデル検証のための戦略について説明します。大規模なデータマイニングプロセス内でモデルの検証がどのように位置付けられているかの概要については、「データマイニングソリューション」を参照してください。

データマイニングモデルのテストと検証の方法

データマイニングモデルの品質や特性を評価する方法は多数あります。

統計的妥当性の各種メジャーを使用して、データまたはモデルに問題があるかどうかを判定します。
データをトレーニングセットとテストセットに分割して、予測の精度をテストします。
発見されたパターンが目標とするビジネスシナリオにおいて有意であるかどうか、ビジネスの専門家にデータマイニングモデルの結果を評価してもらいます。

これらの方法はすべてデータマイニング手法として有用であり、特定の問題に対応するためにモデルの作成、テスト、および調整を行うときに繰り返し使用されます。モデルが満足できるものであること、または十分なデータがあることを単独で示すことができる包括的な規則はありません。

データマイニングモデルを検証するための基準の定義

通常、データマイニングの評価基準は、精度、信頼性、および実用性に分類されます。

精度は、モデルの結果が提供されたデータ内の属性と密接な関係があるかどうかを示すメジャーです。精度のメジャーは各種ありますが、精度のメジャーはすべて、使用されるデータに依存します。実際には、値が不足していたり概算値であったり、複数のプロセスによってデータが変更されている場合があります。特に調査と開発のフェーズでは、データの特性がきわめて均一である場合は特に、データ内に一定量のエラーを認める必要があります。たとえば、過去の売上に基づいて特定の店舗の売上を予測するモデルは、その店舗で継続的に誤った会計手続きが行われていたとしても、密接な相関関係を持ち非常に正確なモデルになります。したがって、精度の測定は、信頼性の評価とのバランスを取る必要があります。

信頼性は、異なるデータセットに対するデータマイニングモデルの性能を示します。提供されるテストデータに関係なく同じ種類の予測が生成される場合や同種の一般的パターンが発見される場合、データマイニングモデルは信頼性が高いと見なされます。たとえば、誤った会計手続きが行われていた店舗に対して生成されたモデルは、他の店舗用にはうまく一般化できず、信頼性がないことになります。

実用性には、モデルによって有用な情報が提供されるかどうかを示す各種のメトリックが含まれます。たとえば、店舗の場所と売上の相関関係を求めるデータマイニングモデルの場合、高い精度と信頼性を持つと評価される一方で、同じ場所にさらに店舗を追加してその結果を一般化することができないという理由で実用的でない可能性があります。さらに、このデータマイニングモデルでは、特定の場所でなぜ売上が多いのかという基本的な業務上の疑問点に対する回答が示されません。また、モデルはデータ内の相互相関に基づいているので、モデルが成果を挙げているように見えても実際は無意味である場合もあります。

マイニングモデルのテストと検証のツール

Analysis Services では、データマイニングソリューションを検証するための複数の方法をサポートすると共に、データマイニングテスト手法のすべてのフェーズをサポートしています。

テストセットとトレーニングセットへのデータのパーティション分割。
同じソースデータの異なる組み合わせでトレーニングおよびテストを行うためのモデルのフィルター処理。
リフトとゲインの測定。リフトチャートは、ランダムな推測と比較したときにデータマイニングモデルを使用したことによる改善を視覚化するための方法です。
データセットの相互検証の実行
分類マトリックスの生成。これらのチャートでは、良い推量と悪い推量をテーブルに並べ替えて、モデルによるターゲット値の予測精度を簡単に評価できるようにします。
回帰式の適合性を評価するための散布図の作成。
推奨設定の価値を評価するために財務的利益またはコストをマイニングモデルの使用に関連付ける利益チャートの作成。

これらの基準は、データマイニングモデルが業務上の質問に答えるものであるかを判断するためのものではなく、予測分析でデータの信頼性を評価するため、および開発プロセスで特定の繰り返し処理を使用するかどうかの決定を導きだすために使用できる客観的な測定値を提供するものです。

このセクションのトピックでは、各方法の概要を説明すると共に、SQL Server のデータマイニングを使用して作成したモデルの精度を測定するプロセスの手順を説明します。

トピック	リンク
ウィザードまたは DMX コマンドを使用してテスト用データセットを設定する方法を学ぶ	トレーニングデータセットとテストデータセット
マイニング構造内のデータの分布と代表性をテストする方法を学ぶ	相互検証 (Analysis Services - データマイニング)
SQL Server 2012 Analysis Services (SSAS) で用意されている精度チャートの種類について学ぶ	リフトチャート (Analysis Services - データマイニング) 利益チャート (Analysis Services - データマイニング) 散布図 (Analysis Services - データマイニング)
真陽性、偽陽性、真陰性、および偽陰性の実際の数値を評価する分類マトリックス (混同マトリックスと呼ばれることもある) の作成方法について学びます。	分類マトリックス (Analysis Services - データマイニング)

次の方法で共有

テストおよび検証 (データマイニング)

データマイニングモデルのテストと検証の方法

データマイニングモデルを検証するための基準の定義

マイニングモデルのテストと検証のツール

関連項目

関連項目

概念

その他の技術情報

その他のリソース

次の方法で共有

テストおよび検証 (データ マイニング)

データ マイニング モデルのテストと検証の方法

データ マイニング モデルを検証するための基準の定義

マイニング モデルのテストと検証のツール

関連項目

関連項目

概念

その他の技術情報

その他のリソース

テストおよび検証 (データマイニング)

データマイニングモデルのテストと検証の方法

データマイニングモデルを検証するための基準の定義

マイニングモデルのテストと検証のツール