新しいマイニング構造の作成

MicrosoftSQL ServerAnalysis Services でデータ マイニング ソリューションを作成する場合は、まず Business Intelligence Development Studio の データ マイニング ウィザード (Analysis Services - データ マイニング)を使用してマイニング構造を作成します。マイニング構造では、マイニング モデルの作成元となるデータ ドメインが定義されます。すべてのマイニング モデルは構造に基づいています。

マイニング構造は、リレーショナル データ ソースまたはオンライン分析処理 (OLAP) データ ソースを使用します。リレーショナル マイニング構造は、データ ソース ビューとして定義され、リレーショナル データベース システムに格納されているデータに基づいています。OLAP マイニング構造は、そのマイニング構造と同じデータベースに存在する OLAP キューブのディメンションおよび関連メジャーに基づいています。

詳細情報 :データベースのデザイン」、「Analysis Services 多次元データベース オブジェクトの設計

データ マイニング ウィザードでは、自動的にマイニング構造が定義され、初期マイニング モデルをその構造に追加できるようになります。マイニング構造には複数のマイニング モデルを含めることができるため、データ マイニング デザイナを使用して、その構造にマイニング モデルをさらに追加できます。

次のセクションでは、データ マイニング ウィザードを使用して新しいマイニング構造を作成する方法について説明します。また、テスト セットの作成やマイニング構造内のデータに対するクエリの実行に使用するオプションをマイニング構造に設定する方法についても説明します。

  • リレーショナル マイニング構造の作成

  • OLAP マイニング構造の作成

  • ドリルスルーと提示データの有効化

リレーショナル マイニング構造の作成

リレーショナル マイニング構造は、OLE DB データ ソースで使用可能なすべてのデータに基づいて作成できます。ソース データが複数のテーブルに格納されている場合は、入れ子になったテーブルを使用して、ソース データを単一のケース テーブルとしてウィザードに読み込むことができます。

詳細情報 :入れ子になったテーブル (Analysis Services - データ マイニング)

データ マイニング ウィザードでは、次の手順に従って新しいマイニング モデルの構造を作成します。

  1. データ ソースの種類 (この場合はリレーショナル データベース) を選択します。

  2. 構造のみを作成するか、構造と共にマイニング モデルも作成するかを決定します。

  3. モデルのアルゴリズムを選択します。

  4. データ ソースを選択します。

  5. ケース テーブル (必要に応じて、入れ子になったテーブル) を選択します。

  6. 各列の種類 (予測可能列、入力列、またはキー列) を選択します。

  7. 列のコンテンツの種類を指定します。

  8. 提示されたデータセットを指定します (省略可)。

  9. 構造のドリルスルーを有効にし、新しいマイニング構造と関連マイニング モデルに名前を付けて保存します。

詳細情報 :データ マイニング アルゴリズム (Analysis Services - データ マイニング)」、「マイニング モデル列」、「マイニング構造列」、「データ型 (データ マイニング)」、「コンテンツの種類 (データ マイニング)

OLAP マイニング構造の作成

OLAP キューブには多数のメンバおよびディメンションが含まれていることが多く、データ マイニングをどこから始めたらよいか判断しづらい場合があります。キューブ内のパターンを手動で識別しやすくするには、通常、目的のディメンションを 1 つ特定してから、そのディメンションに関連するパターンを調べます。次の表は、一般的な OLAP データ マイニング タスクの一覧で、各タスクを適用できるサンプル シナリオの説明、各タスクに使用するデータ マイニング アルゴリズムを示しています。

タスク

サンプル シナリオ

アルゴリズム

クラスタへのメンバのグループ化

顧客メンバのプロパティ、顧客が購入する製品、顧客が費やす金額に基づいて顧客ディメンションを分割します。

Microsoft クラスタリング アルゴリズム

興味深いメンバまたは異常なメンバの検索

売上、利益、店舗の場所、店舗の規模に基づいて、Store ディメンション内の興味深い店舗または異常な店舗を識別します。

Microsoft デシジョン ツリー アルゴリズム

興味深いセルまたは異常なセルの検索

一般的な傾向に反している店舗売上を識別します。

Microsoft タイム シリーズ アルゴリズム

データ マイニング ウィザードでは、次の手順に従って新しいマイニング モデルの構造を作成します。

  1. データ ソースの種類 (この場合はキューブ) を選択します。

  2. アルゴリズムを選択します。

  3. ソース キューブのディメンションを選択します。

  4. ケース キーを選択します。

  5. ケース列を選択します。

  6. 入れ子になったテーブルを選択します。

  7. 各列の使用法 (予測可能列、入力列、またはキー列) を選択します。

  8. 列のコンテンツの種類を指定します。

  9. ソース キューブをスライスします。

  10. テスト データセットを作成します (省略可)。

  11. 新しいマイニング構造と関連するマイニング モデルに名前を付けて保存します。

ウィザードの最後のページでは、次のオプションを設定できます。

  • [ドリルスルーを許可する]

  • [マイニング モデル ディメンションを作成する]

  • [マイニング モデル ディメンションを使用してキューブを作成する]

ソース キューブ内に新しいマイニング モデル ディメンションを作成する場合は、データ マイニング アルゴリズムによって OLAP データ ソース内で検索される情報を含めることができます。マイニング モデル ディメンションを作成すると、ディメンションの形式で、モデル内容の参照やクエリを実行できます。このオプションは、Microsoft クラスタリング、Microsoft デシジョン ツリー、Microsoft アソシエーション ルールの各アルゴリズムに基づいて作成されたモデルに対して使用できます。

新しいキューブを作成するオプションを選択した場合、新しいキューブはそのマイニング モデル ディメンション (および場合によっては関連ディメンション) を含んでいるデータベース上に定義されます。

詳細情報 :データ マイニング アルゴリズム (Analysis Services - データ マイニング)」、「マイニング モデル列」、「マイニング構造列」、「データ型 (データ マイニング)」、「コンテンツの種類 (データ マイニング)

ドリルスルーと提示データの有効化

マイニング構造の作成時には、データの操作に関する 2 つの重要なオプションについても設定する必要があります。提示データとドリルスルーです。提示データとは、マイニング構造内のデータをトレーニング セットとテスト セットにパーティション分割して、その構造に関連付けられたすべてのモデルで使用できるようにする、SQL Server 2008 の機能です。詳細については、「トレーニング セットとテスト セットへのデータのパーティション分割 (Analysis Services - データ マイニング)」を参照してください。

ドリルスルーを使用すると、マイニング モデルにクエリを実行することにより、マイニング構造内のソース データを表示できます。これは、マイニング モデルの結果を表示する際、基になるケースの詳細も必要な場合に便利です。たとえば、特定のクラスタのトレーニングに使用されたケースである連絡先情報が必要な場合などです。ドリルスルーを使用するには、マイニング構造の作成時に有効にする必要があります。後から有効にすることはできません。詳細については、「マイニング モデルとマイニング構造におけるドリルスルーの使用 (Analysis Services - データ マイニング)」を参照してください。