トレーニングデータセットとテストデータセット

[アーティクル]
07/30/2013

トレーニングセットとテストセットにデータを分割することは、データマイニングモデルの評価における重要な部分です。通常、データセットをトレーニングセットとテストセットに分割すると、ほとんどのデータはトレーニングに使用され、テストに使用されるデータは少量になります。 Analysis Services ではデータのサンプルがランダムに抽出されるため、テストセットとトレーニングセットが同様になるように分割されます。トレーニングとテストに類似データを使用すると、データの差異による影響を最小限に抑えることができ、モデルの特性をよりよく理解できます。

トレーニングセットを使用してモデルが処理された後、テストセットに対する予測を実行してモデルをテストします。テストセット内のデータには予測対象の属性の既知の値が既に含まれているため、モデルの推測が正しいかどうかを簡単に判断できます。

データマイニング構造のテストとトレーニングセットの作成

SQL Server 2012 では、マイニング構造のレベルで元のデータセットを分割します。トレーニングとテストのデータセットのサイズ、どの行がどのセットに属するかなどに関する情報は、構造に格納され、その構造に基づくすべてのモデルで、これらのセットを使用してトレーニングとテストを行うことができます。

マイニング構造のテストデータセットは、次の方法で定義できます。

マイニング構造は、その作成時にデータマイニングウィザードを使用して分割します。
データマイニングデザイナーの [マイニング構造] タブで、構造のプロパティを変更します。
分析管理オブジェクト (AMO) または XML データ定義言語 (DDL) を使用し、プログラムによって構造を作成および変更します。

データマイニングウィザードを使用したマイニング構造の分割

既定では、マイニング構造のデータソースを定義した後、データマイニングウィザードによって、ソースデータの 70% がモデルのトレーニング用、30% がモデルのテスト用に分割されます。この既定設定は、データマイニングでは 70-30 の比率がよく使用されるために選択されていますが、Analysis Services では、独自の要件に合わせてこの比率を変更することもできます。

また、トレーニングケースの最大数を設定するようにウィザードを構成したり、指定したケースの最大数まで最大割合を許可するように制限を組み合わせたりすることもできます。ケースの最大割合と最大数の両方を指定した場合、Analysis Services によって、2 つの制限のうちの小さい方がテストセットのサイズとして使用されます。たとえば、テストケースに 30% の提示データを指定し、テストケースの最大数を 1000 に指定した場合、テストセットのサイズが 1000 ケースを超えることはありません。これを利用すると、モデルにトレーニングデータが追加されてもテストセットのサイズが一定に保たれるようにすることができます。

複数のマイニング構造に同じデータソースビューを使用する場合、すべてのマイニング構造とそのモデルでほぼ同じようにデータが分割されるようにするには、ランダムサンプリングの初期化に使用するシードを指定します。 HoldoutSeed の値を指定すると、Analysis Services によるサンプリングの開始時にその値が使用されます。指定しないと、サンプリング時に、マイニング構造の名前に対してハッシュアルゴリズムを使用してシード値が作成されます。

注
EXPORT ステートメントおよび IMPORT ステートメントを使用してマイニング構造のコピーを作成すると、新しいマイニング構造でも同じトレーニングデータセットとテストデータセットが使用されます。エクスポートプロセスでは新しい ID が作成されますが、同じ名前が使用されるためです。一方、2 つのマイニング構造の基になるデータソースが同じでも、名前が異なる場合は、それぞれのマイニング構造に作成されるセットも異なります。

EXPORT ステートメントおよび IMPORT ステートメントを使用してマイニング構造のコピーを作成すると、新しいマイニング構造でも同じトレーニングデータセットとテストデータセットが使用されます。エクスポートプロセスでは新しい ID が作成されますが、同じ名前が使用されるためです。一方、2 つのマイニング構造の基になるデータソースが同じでも、名前が異なる場合は、それぞれのマイニング構造に作成されるセットも異なります。

テストデータセットの作成のための構造のプロパティの変更

マイニング構造を作成および処理した後にテストデータセットを確保する場合は、マイニング構造のプロパティを変更できます。データのパーティション分割方法を変更するには、次のプロパティを編集します。

プロパティ	説明
HoldoutMaxCases	テストセットに含めるケースの最大数を指定します。
HoldoutMaxPercent	テストセットに含めるケースの数を、データセット全体に対する割合で指定します。データセットを含めないようにするには、0 を指定します。
HoldoutSeed	パーティションのデータをランダムに選択するときにシードとして使用する整数値を指定します。この値は、トレーニングセット内のケース数には影響を与えずに、パーティションを反復可能にします。

既存の構造でテストデータセットを追加または変更した場合、構造および関連するすべてのモデルを再処理する必要があります。また、ソースデータを分割すると、異なるデータサブセットでモデルがトレーニングされるようになるため、モデルの結果が変化する場合があります。

プログラムによる HOLDOUT の指定

DMX ステートメント、AMO、または XML DDL を使用すると、データマイニング構造でテストデータセットおよびトレーニングデータセットを定義できます。 ALTER MINING STRUCTURE ステートメントは、提示パラメーターの使用をサポートしていません。

DMX データマイニング拡張機能 (DMX) 言語では CREATE MINING STRUCTURE ステートメントが拡張されており、WITH HOLDOUT 句を使用できます。
ASSL Analysis Services スクリプト言語 (ASSL) を使用すると、マイニング構造を新しく作成することも、既存のデータマイニング構造にテストデータセットを追加することもできます。
AMO また、AMO を使用して予約データセットを表示および変更することもできます。

データマイニングスキーマ行セットに対してクエリを実行すると、既存のマイニング構造内の予約データセットに関する情報を表示できます。これを行うには、DISCOVER ROWSET を呼び出すか、DMX クエリを使用できます。

予約データに関する情報の取得

既定では、トレーニングデータセットとテストデータセットに関する情報はすべてキャッシュされるので、既存のデータを使用して新しいモデルをトレーニングし、テストできます。データのサブセットに対してモデルを評価できるように、キャッシュ済みの予約データに適用するフィルターをユーザーが定義することもできます。

ケースがどのようにトレーニングデータセットおよびテストデータセットに分割されるかは、予約データの構成方法、および指定したデータによって異なります。トレーニングまたはテストに使用されるケース数を確認する場合、またはトレーニングセットとテストセットに含まれているケースの詳細を調べる場合は、DMX クエリを作成してモデル構造でクエリを実行します。たとえば、次のクエリでは、モデルのトレーニングセットで使用されたケースが返されます。

SELECT * from <structure>.CASES WHERE IsTrainingCase()

テストケースのみを取得し、さらにマイニング構造内のいずれかの列でテストケースをフィルター処理するには、次の構文を使用します。

SELECT * from <structure>.CASES WHERE IsTestCase() AND <structure column name> = '<value>'

予約データの使用に関する制限事項

提示データを使用するには、マイニング構造の MiningStructureCacheMode プロパティが既定値の KeepTrainingCases に設定されている必要があります。 CacheMode プロパティを ClearAfterProcessing に変更してマイニング構造を再処理すると、パーティションが失われます。
タイムシリーズモデルからデータを削除することはできません。したがって、ソースデータをトレーニングセットとテストセットに分割することはできません。マイニング構造とモデルの作成を開始し、Microsoft タイムシリーズアルゴリズムを選択すると、予約データセットを作成するオプションは無効になります。また、ケーステーブルレベルまたは入れ子になったテーブルレベルで、マイニング構造に KEY TIME 列が含まれている場合も、予約データの使用が無効になります。
データセット全体がテストに使用され、トレーニング用のデータが残らなくなるように予約データセットが誤って構成されることもあります。ただし、この問題を修正できるように、Analysis Services によりエラーが生成されます。また、50% を超えるデータがテスト用に提示されていると、構造の処理時に Analysis Services により警告が表示されます。
多くの場合、提示データの既定値である 30 を使用すると、トレーニングデータとテストデータのバランスがとれます。十分なトレーニングのためにデータセットをどの程度大きくするか、また、オーバーフィットを回避するためにトレーニングセットをどの程度小さくするかを、単純に算出する方法はありません。ただし、モデルを作成した後、クロス検証を使用して、特定のモデルについてデータセットを評価できます。
AMO と XML DDL には、前の表に示したプロパティに加えて、読み取り専用プロパティ HoldoutActualSize が用意されています。ただし、構造が処理されるまではパーティションの実際のサイズを正確に知ることができないため、HoldoutActualSize プロパティの値を取得する前に、モデルが処理済みであるかどうかを確認する必要があります。

トピック	リンク
モデルに対するフィルターとトレーニングデータセットおよびテストデータセットとの間の対話方法について説明します。	マイニングモデルのフィルター選択 (Analysis Services - データマイニング)
トレーニングデータとテストデータの使用が相互検証に与える影響について説明します。	相互検証 (Analysis Services - データマイニング)
マイニング構造でのトレーニングセットとテストセットの操作のためのプログラムインターフェイスに関する情報を提供します。	AMO の概念とオブジェクトモデル MiningStructure 要素 (ASSL)
提示セットを作成するための DMX 構文について説明します。	CREATE MINING STRUCTURE (DMX)
トレーニングセットとテストセットのケースに関する情報を取得します。	データマイニングスキーマ行セットデータマイニングスキーマ行セットのクエリ (Analysis Services - データマイニング)

次の方法で共有

トレーニングデータセットとテストデータセット

データマイニング構造のテストとトレーニングセットの作成

データマイニングウィザードを使用したマイニング構造の分割

テストデータセットの作成のための構造のプロパティの変更

プログラムによる HOLDOUT の指定

予約データに関する情報の取得

予約データの使用に関する制限事項

関連コンテンツ

関連項目

概念

その他のリソース

次の方法で共有

トレーニング データ セットとテスト データ セット

データ マイニング構造のテストとトレーニング セットの作成

データ マイニング ウィザードを使用したマイニング構造の分割

テスト データセットの作成のための構造のプロパティの変更

プログラムによる HOLDOUT の指定

予約データに関する情報の取得

予約データの使用に関する制限事項

関連コンテンツ

関連項目

概念

その他のリソース

トレーニングデータセットとテストデータセット

データマイニング構造のテストとトレーニングセットの作成

データマイニングウィザードを使用したマイニング構造の分割

テストデータセットの作成のための構造のプロパティの変更