マイニング構造 (Analysis Services - データマイニング)

[アーティクル]
07/30/2013

マイニング構造には、マイニングモデルの作成元となる、データソースビュー、列の数と型、トレーニングセットとテストセットに分ける省略可能なパーティションなどのデータを定義します。 1 つのマイニング構造には、同じドメインを共有する複数のマイニングモデルを含めることができます。次の図は、データマイニング構造とデータソースの関係、およびデータマイニング構造とそれを構成するデータマイニングモデルの関係を示しています。

データの処理: ソース、構造、モデル

図内のマイニング構造は、CustomerID フィールドで結合された複数のテーブルまたはビューを含むデータソースを基にしています。 1 つのテーブルには顧客に関する情報 (地理的な領域、年齢、収入、性別など) が格納され、入れ子になった関連テーブルには各顧客の追加情報 (顧客が購入した製品など) を含む複数の行が格納されます。この図は、同じマイニング構造から複数のモデルを作成し、それぞれのモデルに構造からさまざまな列を採用できることを示しています。

モデル 1 CustomerID、Income、Age、Region を使用し、Region でデータをフィルタリングします。

モデル 2 CustomerID、Income、Age、Region を使用し、Age でデータをフィルタリングします。

モデル 3 CustomerID、Age、Gender と入れ子になったテーブルを使用し、フィルターは適用しません。

それぞれのモデルは入力に異なる列を使用しており、うち 2 つのモデルはフィルター適用によってモデル内で使用するデータをさらに絞り込んでいるため、同じデータに基づいていても結果は著しく異なる場合があります。 CustomerID 列は、ケースキーとして使用できる唯一の有効な列であるため、すべてのモデルに必要となります。

このセクションでは、データマイニング構造の基本的なアーキテクチャについて説明します。マイニング構造の定義方法、その構造にデータを設定する方法、モデル作成のためにそれを使用する方法などが含まれます。既存のデータマイニング構造の管理方法またはエクスポート方法の詳細については、「データマイニングソリューションおよびオブジェクトの管理」を参照してください。

マイニング構造の定義

データマイニング構造の設定は、次の手順で行います。

データソースを定義します。
構造に含めるデータの列を選択し (モデルにはすべての列を含める必要はありません)、キーを定義します。
必要に応じて入れ子になったテーブルのキーも含めて、構造のキーを定義します。
ソースデータをトレーニングセットとテストセットに分割する必要があるかどうかを指定します。このステップは省略可能です。
構造を処理します。

これらの手順は、以下のセクションで詳しく説明します。

マイニング構造のデータソース

マイニング構造を定義する際には、既存のデータソースビューで使用できる列を指定します。データソースビューは、複数のデータソースをまとめて 1 つのデータソースとして使用することができる共有オブジェクトです。元のデータソースはクライアントアプリケーションでは表示されません。データ型の変更や、集計列またはエイリアス列の作成には、データソースビューのプロパティを使用できます。

データソースビューの詳細については、「データソースビュー (Analysis Services - 多次元データ)」を参照してください。

同じマイニング構造から複数のマイニングモデルを作成する場合、それぞれのモデルに構造からさまざまな列を採用することができます。たとえば、1 つの構造を作成してデシジョンツリーモデルとクラスターモデルを別々に作成し、各モデルが別々の列を使用したり、異なる属性を予測したりできます。

また、各モデルでは、構造からさまざまな方法で列を使用できます。たとえば、データソースビューに Income 列が含まれるとすると、それを異なるモデルに対して異なる方法でバインドすることができます。

データマイニング構造には、データソースおよびそれに含まれる列の定義がソースデータへのバインドという形で保存されます。データソースのバインドの詳細については、「データソースとバインド (SSAS 多次元)」を参照してください。ただし、DMX の CREATE MINING STRUCTURE (DMX) ステートメントを使用して、特定のデータソースにバインドせずにデータマイニング構造を作成することもできることに留意してください。

マイニング構造列

マイニング構造の構成要素は、データソースに格納されているデータについて記述したマイニング構造列です。マイニング構造列には、データ型、コンテンツの種類、データの配布方法などの情報が格納されます。マイニング構造には、特定のマイニングモデルに対する列の使用方法や、モデルを構築するために使用されるアルゴリズムの種類などの情報は含まれていません。これらの情報は、マイニングモデルの内部で定義されます。

マイニング構造には、入れ子になったテーブルを含めることもできます。入れ子になったテーブルは、ケースのエンティティとその関連属性との間の一対多の関係を表します。たとえば、顧客に関する情報と顧客の購入記録が別々のテーブルに格納されている場合は、入れ子になったテーブルを使用すると、これらの情報を単一のケースにまとめることができます。この場合、顧客の識別子はエンティティで、購入記録は関連する属性となります。入れ子になったテーブルを使用する場合の詳細については、「入れ子になったテーブル (Analysis Services - データマイニング)」を参照してください。

SQL Server データツール (SSDT) でデータマイニングモデルを作成するには、まずデータマイニング構造を作成する必要があります。データマイニングウィザードを使用すると、マイニング構造の作成、データの選択、およびマイニングモデルの追加の手順を段階的に実行できます。

データマイニング拡張機能 (DMX) を使用してマイニングモデルを作成する場合は、モデルとモデル内の列を指定すると、必要なマイニング構造が DMX によって自動的に作成されます。詳細については、「CREATE MINING MODEL (DMX)」を参照してください。

詳細については、「マイニング構造列」を参照してください。

トレーニングセットとテストセットへのデータの分割

マイニング構造のデータを定義する際に、データの一部をトレーニング用に、一部をテスト用に指定することもできます。そのため、データマイニング構造を作成する前にデータを分割する必要はなくなりました。代わりに、モデルを作成する際にデータの一定の割合をテスト用、残りをトレーニング用として指定できます。また、テストデータセットとして使用するケースの数を指定することもできます。トレーニングデータセットとテストデータセットに関する情報は、マイニング構造と共にキャッシュも保存され、その結果、その構造に基づくすべてのモデルで同じテストセットを使用できます。

詳細については、「トレーニングデータセットとテストデータセット」を参照してください。

ドリルスルーの有効化

特定のマイニングモデルで使用する予定がない列でも、マイニング構造に追加することができます。これは、分析プロセスで電子メールアドレスを使用せずに、クラスターモデルで顧客の電子メールアドレスを検索する場合などに便利です。分析および予測のフェーズで列を無視するには、それを構造に追加しますが、使用法フラグを Ignore に設定するか、その列の使用を指定しません。マイニングモデルでドリルスルーが有効であり、ユーザーが適切な権限を持っている場合には、この方法でフラグを設定したデータをクエリで使用できます。たとえば、モデルの作成にそれらの列のデータが使用されなかった場合でも、すべての顧客の分析結果のクラスターを確認してから、ドリルスルークエリを使用して特定のクラスターの顧客の名前と電子メールを取得できます。

詳細については、「ドリルスルークエリ (データマイニング)」を参照してください。

マイニング構造の処理

マイニング構造は、処理されるまでは単なるメタデータコンテナーです。マイニング構造を処理する際、Analysis Services は、データに関する統計値、連続属性を分離する方法に関する情報、および後でマイニングモデルが使用するその他の情報を格納するキャッシュを作成します。マイニングモデル自体には、このサマリー情報は保存されませんが、代わりに、マイニング構造の処理時にキャッシュに保存された情報が参照されます。したがって、既存の構造に新しいモデルを追加するたびに構造を再処理する必要はなく、モデルのみを処理できます。

キャッシュが非常に大きい場合や詳細データを削除したい場合は、処理後にこのキャッシュを破棄することもできます。データをキャッシュしない場合は、マイニング構造の CacheMode プロパティを ClearAfterProcessing に変更できます。これにより、モデルを処理した後にキャッシュが破棄されます。 CacheMode プロパティを ClearAfterProcessing に設定すると、マイニングモデルからのドリルスルーが無効になります。

ただし、キャッシュを破棄した後は、マイニング構造に新しいモデルを追加することはできません。新しいマイニングモデルを追加したり、既存のモデルのプロパティを変更した場合は、マイニング構造を最初に再処理する必要があります。詳細については、「処理の要件および注意事項 (データマイニング)」を参照してください。

マイニング構造の表示

ビューアーを使用して、マイニング構造内のデータを参照することはできません。しかし、SQL Server データツール (SSDT) では、データマイニングデザイナーの [マイニング構造] タブを使用して構造列とその定義を表示できます。詳細については、「データマイニングデザイナー」を参照してください。

マイニング構造のデータを確認する場合、データマイニング拡張機能 (DMX) を使用してクエリを作成できます。たとえば、SELECT * FROM <structure>.CASES というステートメントでは、マイニング構造のすべてのデータが返されます。この情報を取得するには、マイニング構造が既に処理されていて、処理結果がキャッシュされている必要があります。

SELECT * FROM <model>.CASES というステートメントでは同じ列が返されますが、特定のモデルのケースのみです。詳細については、「SELECT FROM <structure>.CASES」および「SELECT FROM <model>.CASES (DMX)」を参照してください。

データマイニングモデルとマイニング構造の使用

データマイニングモデルは、マイニング構造によって表されるデータにマイニングモデルアルゴリズムを適用します。マイニングモデルは特定のマイニング構造に属するオブジェクトで、マイニング構造によって定義されるプロパティのすべての値を継承します。マイニングモデルは、マイニング構造に含まれているすべての列またはその一部を使用することができます。構造列の複数のコピーを構造に追加できます。構造列の複数のコピーをモデルに追加し、モデルの各構造列に異なる名前、つまり別名を割り当てることもできます。構造列の別名定義の詳細については、「モデル列の別名の作成」および「マイニングモデルのプロパティ」を参照してください。

データマイニングモデルのアーキテクチャの詳細については、「マイニングモデル (Analysis Services - データマイニング)」を参照してください。

タスク	リンク
リレーショナルマイニング構造の操作	新しいリレーショナルマイニング構造の作成マイニング構造への入れ子になったテーブルの追加
OLAP キューブに基づくマイニング構造の操作	新規の OLAP マイニング構造の作成マイニング構造のソースキューブのフィルター選択
マイニング構造内の列の操作	マイニング構造への列の追加マイニング構造からの列の削除
マイニング構造のプロパティおよびデータの変更またはクエリ	マイニング構造のプロパティの変更
基になるデータソースの操作とソースデータの更新	マイニング構造に使用されるデータソースビューの編集マイニング構造の処理

次の方法で共有

マイニング構造 (Analysis Services - データマイニング)

マイニング構造の定義

マイニング構造のデータソース

マイニング構造列

トレーニングセットとテストセットへのデータの分割

ドリルスルーの有効化

マイニング構造の処理

マイニング構造の表示

データマイニングモデルとマイニング構造の使用

関連タスク

関連項目

概念

その他のリソース

次の方法で共有

マイニング構造 (Analysis Services - データ マイニング)

マイニング構造の定義

マイニング構造のデータ ソース

マイニング構造列

トレーニング セットとテスト セットへのデータの分割

ドリルスルーの有効化

マイニング構造の処理

マイニング構造の表示

データ マイニング モデルとマイニング構造の使用

関連タスク

関連項目

概念

その他のリソース

マイニング構造 (Analysis Services - データマイニング)

マイニング構造のデータソース

トレーニングセットとテストセットへのデータの分割

データマイニングモデルとマイニング構造の使用