データマイニングソリューションの関連プロジェクト

[アーティクル]
07/30/2013

データマイニングソリューションに最低限必要なのは、データソース、データソースビュー、マイニング構造、およびマイニングモデルを定義した、データマイニングプロジェクトです。ただし、データマイニングモデルを日々の意志決定に使用する場合は、データマイニングを予測分析ソリューションの他の部分と統合し、次のプロセスやコンポーネントを含めることが重要です。

データと変数の準備および選択。データクレンジング、複数のデータソースのメタデータ管理と統合のほか、データの変換、マージ、およびデータウェアハウスへのアップロードが含まれます。
分析のレポート、予測の提示、データマイニングアクティビティの監査と追跡。
多次元モデルまたはテーブルモデルを使用した、結果の調査。
データマイニングソリューションの強化による新しいデータのサポート、最新の分析に基づくサポートインフラストラクチャの変更。

このトピックでは、データ準備とデータマイニングのプロセスをサポートするため、または、分析と処理のためのツールを提供してユーザーをサポートするために、予測分析ソリューションに組み込まれることの多い SQL Server 2012 のその他の機能について説明します。

Integration Services

Reporting Services

Data Quality Services

フルテキスト検索

セマンティックインデックスの作成

SQL Server Integration Services

Integration Services には、データマイニングプロジェクトのデータ準備とトレーニングのフェーズに必要なコンポーネントと機能が用意されています。さまざまなデータクレンジングタスクやデータ準備タスクには、スクリプトをはじめとする他のツールを使用することもできますが、Integration Services には、データマイニングに関して多数の利点があります。

繰り返し、自動化、分岐、および拡張が可能なワークフローの一部としてタスクを表現できます。
監査が幅広くサポートされており、複数の方法でエラーをキャプチャし、イベントをログに記録できます。

データ系列のキャプチャに加えて、データ変換パイプライン全体でデータへの変更を監視できます。

SQLServer の変更データキャプチャ機能をサポートする機能に SSIS ワークフローを統合することもできます。
データマイニングを Integration Services のワークフローに組み込み、入力されたデータを複数のテーブルに適切に分割できます。たとえば、予測クエリを使用して新しい顧客をさまざまなグループに分けることで、メーリングキャンペーンの対象者を絞り込むことができます。

データマイニングのサポートで最も幅広く使用されている Integration Services コンポーネントへのリンクを以下の一覧にまとめました。

制御フローコンポーネント

データフローコンポーネント

トップに戻る

SQL Server Reporting Services

Reporting Services は、データマイニングソリューションに欠かせないコンポーネントとは考えられていませんが、データマイニングソリューションのプレゼンテーションの面で役立つ次のような機能を備えています。

複雑なレポートにおける、複数のソースからのデータの統合。アナリスト用のモデルコンテンツに対するクエリや、エンドユーザー用の予測と傾向を示すレポートを作成できます。
ユーザーが既存のマイニングモデルに対して直接問い合わせできるレポートを作成する機能。
Analysis Services との統合。これにより、OLAP モデルから作成されたデータマイニングディメンションとデータマイニングキューブのドリルスルーと調査がサポートされます。
Reporting Services に用意されているパラメーター化と書式設定の機能。

DMX クエリで Reporting Services をデータソースとして使用する方法の詳細については、以下のリンクを参照してください。

データマイニングモデル (DMX) からデータを取得する (SSRS)

Analysis Services の DMX クエリデザイナーのユーザーインターフェイス

DMX のための Analysis Services の接続の種類 (SSRS)

ただし、DMX をデータソースとして使用する必要はありません。データマイニング用の Integration Services コンポーネントでは、予測クエリの結果をリレーショナルデータベースに保存することもできます。 Integration Services を使用して、モデルを更新するためのワークフローを確立している場合は、予測をはじめとするデータマイニングクエリの結果を SQL Server で保持することで、レポート用の Power View や、DMX とやり取りしないその他のツールを使用できます。

Reporting Services をデータソースのプレゼンテーション層として使用する方法の詳細については、「アプリケーションへの Reporting Services の統合」を参照してください。

トップに戻る

Data Quality Services

Data Quality Services (DQS) は SQL Server 2012 の新機能です。データに問題があるとデータマイニングが不可能になる可能性があるため、繰り返し分析を行ったり、大規模な組織で複雑なデータソースを扱ったりするデータマイニング担当者は、DQS を使用する計画的なデータプロジェクトの方が、Transact-SQL やその他のスクリプトを使用した場当たり的なデータクレンジングよりも、データマイニングをサポートするうえで信頼性の高いソリューションであることを認識する必要があります。

データマイニングソリューションでのデータ準備とデータ整合性のために、DQS の次の機能を考慮する必要があります。

ソースデータを分析し変更を提案するコンピューター支援型データクレンジングプロセス。
DQS では、データ品質プロバイダーによって保守および保証されているクラウドベースの参照データとソースデータを比較できます。

また、生のソースデータを分析し、ユーザーデータからナレッジベースを作成することもできます。処理後のデータは分類されたうえでユーザーに表示され、さらに処理が行われます。クレンジングプロセスは対話型です。つまり、データスチュワードはコンピューター支援型データクレンジングプロセスによって提案されたデータを承認、拒否、または変更できます。

プロセスの結果として、継続的に質を高めたり、複数のデータ強化フェーズで再利用したりできるナレッジベースを得ることができます。

詳細については、「データクレンジング」を参照してください。
ソースデータを分析し変更を提案する、コンピューター支援型の照合プロセス。
データの重複を防ぐために、データソースの追加クレンジングを実行して、完全一致とあいまい一致を識別できます。これらのコンポーネントでは、照合ルールに加えて、照合ルールを適用するしきい値を指定できます。

データの一致を検出することにより、データマイニングの妨げとなり得る重複を削除できます。データの重複除去は自動ではありません。データスチュワードか IT プロフェッショナルが、ナレッジベース内のナレッジと、データに対する変更の両方を検証する必要があります。

初期 DQS プロジェクトを作成したら、Integration Services コンポーネントを使用してタスクの多くを自動化できます。

詳細については、「データ照合」を参照してください。

データ品質プロジェクトでクレンジングおよび照合アクティビティを実行しながら、DQS で処理中のデータに関する統計と情報をリアルタイムに入手できます。データクレンジングまたは照合によりデータ品質がどの程度向上したかを評価したり、加えられた変更を把握したりするのには、データプロファイルが役立ちます。データプロファイルと通知の詳細については、「DQS でのデータプロファイルと通知」を参照してください。
3 種類のナレッジ (そのままの状態のナレッジ、DQS サーバーによって生成されるナレッジ、ユーザーが生成するナレッジ) があるナレッジベース。
ナレッジベースを作成した後は、それを繰り返し使用して、他のデータのクレンジングと検証を行うことができます。

新しいデータを複数のソースからナレッジベースデータにインポートできます。参照プロバイダーからの既知のクリーンデータも、ナレッジベース内の既存のデータに一致する生のデータもインポート可能です。

データ品質プロジェクトでのクレンジングアクティビティの詳細については、「データクレンジング (DQS)」を参照してください。

ナレッジベース内のナレッジを他のソースに適用して、他のプロセス内でデータクレンジングを行うこともできます。こうしたデータクレンジングは、ユーザーの入力エラー、転送または格納時の破損、データ辞書定義の不一致などを見つけるのに役立ちます。

詳細については、「DQS のナレッジベースとドメイン」を参照してください。

トップに戻る

フルテキスト検索

SQL Server のフルテキスト検索により、アプリケーションとユーザーは、SQL Server テーブル内の文字ベースのデータに対してフルテキストクエリを実行できます。フルテキスト検索が有効であれば、語句のさまざまな形式に関する言語固有のルールに基づいて強化された検索を、テキストデータに対して実行できます。また、複数の用語間の距離などの検索条件を構成することも、尤度の順に返される結果を制限する関数を使用することもできます。

フルテキストクエリは SQL Server エンジンによって提供される機能なので、パラメーター化クエリを作成したり、テキストデータソースでフルテキスト検索機能を使用してカスタムデータセットや用語のベクトルを生成したりできるほか、これらのソースをデータマイニングで使用することもできます。

フルテキストクエリでフルテキストインデックスを扱う方法の詳細については、「フルテキスト検索でのクエリ」を参照してください。

SQL Server のフルテキスト検索機能の利点は、すべての SQL Server 言語で提供されるワードブレーカーとステマーに含まれる言語インテリジェンスを活用できるという点です。提供されたワードブレーカーとステマーを使用すると、各言語に適した文字で単語を区切ることができるうえ、分音記号または表記のバリエーション (日本語における数の複数の形式など) に基づくシノニムを見落とさずに済みます。

単語の境界を決める言語インテリジェンスに加え、各言語のステマーでも、その言語の活用形や表記のバリエーションに関するルールのナレッジに基づいて、単語の変化形を 1 つの用語に絞り込むことができます。言語分析のルールは言語ごとに異なり、実際のコーパスに関する幅広い研究に基づいて作成されます。

詳細については、「検索用のワードブレーカーとステミング機能の構成と管理」を参照してください。

フルテキストインデックスの作成後に保存される単語のバージョンは、圧縮形式のトークンです。フルテキストインデックスに対する後続のクエリにより、その言語のルールに基づいて特定の単語の変化形が複数生成されるため、あいまい一致も漏らさず照合されます。たとえば、格納されているトークンが "run" であっても、クエリエンジンは "running"、"ran"、および "runner" の各用語も検索します。これらは、原形の単語 "run" からルールどおりに派生した変化形であるためです。

ユーザー類義語辞典を作成および構築して、シノニムの格納、検索結果の精度の向上、用語の分類を行うこともできます。フルテキストデータに合わせた類義語辞典を作成すると、そのデータのフルテキストクエリのスコープを効果的に拡張できます。詳細については、「フルテキスト検索に使用する類義語辞典ファイルの構成と管理」を参照してください。

フルテキスト検索を使用するうえでの要件は次のとおりです。

データベース管理者がテーブル上にフルテキストインデックスを作成する必要があります。
1 つのテーブルにつき、1 つのフルテキストインデックスしか作成できません。
インデックスを作成する列ごとに一意のキーが必要です。
フルテキストインデックスを作成できるのは、データ型が char、varchar、nchar、nvarchar、text、ntext、image、xml、varbinary、varbinary(max) の列のみです。列が varbinary、varbinary(max)、image、または xml の場合は、インデックスを作成できるドキュメントのファイル拡張子 (.doc、.pdf、.xls など) を別の型列で指定する必要があります。

トップに戻る

セマンティックインデックスの作成

セマンティック検索は SQL Server の既存のフルテキスト検索機能を基にして構築されていますが、追加の機能と統計を使用して、自動キーワード抽出や関連ドキュメントの検出などにも対応できます。たとえば、セマンティック検索を使用すると、編成用の基本分類を構築することも、ドキュメントのコーパスを分類することもできます。また、クラスタリングまたはデシジョンツリーモデルで、抽出した用語を組み合わせたものや、ドキュメントの類似スコアを使用することも可能です。

セマンティック検索を正しく実装し、データ列にインデックスを設定したら、セマンティックインデックスの作成にネイティブに備わる関数を使用して、以下の処理が可能です。

スコアと共に 1 語のキーフレーズを返す。
指定したキーフレーズを含むドキュメントを返す。
類似性スコアと、そのスコアに関係する用語を返す。

詳細については、「セマンティック検索を使用したドキュメント内のキーフレーズの検索」および「セマンティック検索による類似および関連したドキュメントの取得」を参照してください。

セマンティックインデックスの作成をサポートするデータベースオブジェクトの詳細については、「テーブルおよび列に対するセマンティック検索の有効化」を参照してください。

セマンティック検索を使用するための要件は次のとおりです。

フルテキスト検索も有効である必要があります。
セマンティック検索コンポーネントをインストールすると特殊なシステムデータベースも作成されますが、名前の変更、修正、置き換えはできません。
サービスを使用してインデックスを作成するドキュメントは、SQL Server を使用して、フルテキストインデックスの作成に対応した、テーブルとインデックス付きビューを含む任意のデータベースオブジェクトに格納する必要があります。
すべてのフルテキスト言語でセマンティックインデックスの作成がサポートされているわけではありません。サポートされる言語の一覧については、「sys.fulltext_semantic_languages (Transact-SQL)」を参照してください。

トップに戻る

次の方法で共有

データマイニングソリューションの関連プロジェクト

SQL Server Integration Services

SQL Server Reporting Services

Data Quality Services

フルテキスト検索

セマンティックインデックスの作成

関連項目

概念

その他のリソース

次の方法で共有

データ マイニング ソリューションの関連プロジェクト

SQL Server Integration Services

SQL Server Reporting Services

Data Quality Services

フルテキスト検索

セマンティック インデックスの作成

関連項目

概念

その他のリソース

データマイニングソリューションの関連プロジェクト

セマンティックインデックスの作成