DQS でのデータ プロファイルと通知

適用対象: SQL Server

Data Quality Services (DQS) のデータ プロファイルは、既存のデータ ソースのデータを分析し、DQS のアクティビティでデータに関する統計情報を表示するプロセスです。 このプロセスでは、データ品質が自動的に測定されます。 DQS のプロファイルは、DQS のナレッジ マネージメントおよびデータ品質プロジェクトに統合されており、 動的に調整が可能です。 プロファイルの主な目的は、一連のデータ品質プロセスを通じて意思決定を支援すること、およびプロセスの有効性を評価することの 2 つです。 DQS のプロファイル プロセスには次の利点があります。

  • ソース データの品質について調べることができ、データ品質の問題を特定するのに役立ちます。

  • データ品質プロセスの有効性を評価し、ナレッジ検出、データ クレンジング、照合ポリシー、および照合作業を順をおって行うことができます。

  • 最も関連性の高い情報が最も適切なタイミングで表示されます。

  • プロファイリング プロセスでは、アクションが必要な可能性のある重要な統計やイベントを強調する通知が生成されます。 多くの場合、DQS の通知には、現在の状況を示す情報とその状況を改善するための推奨される操作が示されます。

プロファイルを行うと、Data Quality Services をナレッジ検出、クレンジング、および照合に使用するだけでなく、分析ツールとしても使用することができます。 分析用のナレッジ ベースを 1 つ作成し、そのナレッジ ベースを使用してナレッジ検出を実行することで、ナレッジ ベースが検出、クレンジング、および照合のニーズを満たすかどうかをプロファイル統計情報から判断することができます。

プロファイルのしくみ

プロファイルは、ナレッジ ベースの品質を測定するものではなく、 ソース データの品質を測定するためのものです。 プロファイルにより、ナレッジ マネージメントまたはデータ品質プロジェクトで実行している特定の操作について、その操作によるソース データに対する効果を示す統計情報が提供されます。 プロファイルは常に、実行中の特定のアクティビティのコンテキスト内で実行されます。 画面に表示されるプロファイルのタブをクリックすることで、実行中のアクティビティのステージを終了せずにプロファイル データを表示できます。 プロファイル テーブルには、プロセスの実行中にリアルタイムでデータが入力されるため、データ品質タスクを実行中に評価できるようになります。 クレンジングや重複除去の実行後にソース データが向上するかどうか、およびどの程度向上するかを確認することができます。

すべてのプロファイルの数値は、値の出現回数を示し、一意性メトリックスを除いて、多くの場合、全体に対するパーセントを指します。 値の出現回数に関係なく、値の絶対数を示します。

プロファイルは、DQS ナレッジ ドリブン ソリューションの一部であり、 ナレッジ ベース、照合、またはデータ クレンジングのプロセスに関する情報を、データ ソースのフィールドとナレッジ ベースのドメインのマッピングに基づいて提供します。 プロファイルはマッピングが完了している場合にのみ実行され、アクティビティのマッピング段階ではプロファイリングは行われません。 プロファイルは常にアクティビティにアタッチされます。 プロファイル プロセスは、ドメイン内のデータではなく、ドメインにマップされたデータで実行されます。 プロファイルは、次のアクティビティの手順に統合されています。

  • ナレッジ検出アクティビティの [検出][ドメイン値の管理] の手順

  • クレンジング アクティビティの [最適化][結果の管理と表示] の手順

  • 照合ポリシー アクティビティの [照合ポリシー][照合結果] の手順

  • 照合アクティビティの [照合][エクスポート] の手順

DQS はドメイン管理アクティビティに対してプロファイル統計情報を提供しません。

アクティビティ別のプロファイル データ

DQS のプロファイルでは、完全性 (データがどの程度存在するか)、正確性 (データがどの程度意図されたとおりに使用できるか)、および一意性 (異なるエンティティを異なる値でどの程度表すか) という、標準のデータ品質ディメンションを使用してデータの品質を表します。 デフォルトでは、NULL 値と空の値は欠落しているとみなされ、完全性のパーセンテージが低くなります。 ただし、他の値を NULL と同等になるように定義することもできます。その場合、それらの値も欠損しているとみなされます。

プロファイルによってプロセスの評価に必要な統計情報が提供されますが、実際に評価するにはその統計情報を解釈する必要があります。 プロファイルの内容について理解するには、統計情報を列ごとに確認するようにしてください。

プロファイル統計情報は、DQS のアクティビティによって次のように異なります。

  • 正確性についてのプロファイル統計情報 (ドメイン別の割合) は、クレンジング アクティビティに対してのみ提供されます。 正確性に影響するものには、有効性、一貫性、構文エラー、およびドメイン ルールがあります。

  • ソースの適切な値、修正された値、提案された値、およびドメイン別の修正された値と提案された値についてのプロファイル統計情報 (どちらも割合の数値) は、クレンジング アクティビティに対してのみ提供されます。

  • 有効性についてのプロファイル統計情報は、クレンジング アクティビティとナレッジ検出アクティビティに対して提供されます (クレンジングではレコード別、ナレッジ検出ではレコードおよびドメイン別)。 照合ポリシー アクティビティと照合アクティビティには、有効性に関する統計がありません。

  • クレンジング アクティビティには、一意性を示すプロファイリング統計がありません。 一意性についてのプロファイル統計情報 (ソース全体およびドメイン別の数と割合) は、ナレッジ検出、照合ポリシー、および照合のアクティビティに対して提供されます。

アクティビティに関連する特定のプロファイル統計情報の詳細については、以下のトピックのプロファイルに関するセクションを参照してください。

アクティビティ監視のプロファイル データ

ナレッジ検出、照合ポリシー、照合、およびクレンジングのアクティビティに対するプロファイル情報は、Data Quality Client のアクティビティのページだけでなく、アクティビティ監視でも利用できます。 アクティビティ監視には、現在と過去のアクティビティの概要が表示されます。 アクティビティのプロパティおよび関連する計算プロセスに加え、各アクティビティに対して生成されるプロファイル情報を 1 か所で確認することができます。 アクティビティのテーブルでアクティビティを選択すると、下のテーブルにプロファイル結果が表示されます。 プロファイル結果はエクスポートすることもできます。 詳細については、「 DQS Administration」をご参照ください。

通知

DQS では、プロファイルによって重要な統計情報や基準を収集して表示することに加え、表示されるプロファイル統計情報に基づいて推奨される操作がある場合に、そのことを示す通知が生成されます (有効にしている場合)。 DQS は通知を使用して、データ ソースに関する重要な事実を強調し、実行された目的と比較した現在のアクティビティの有効性を示します。 通知で提供されるヒントや推奨事項には、現在の状況を示す情報と、ナレッジ検出、データ クレンジング、またはデータ照合のアクティビティを改善するための推奨される方法が示されます。

DQS の通知は、ユーザーに関連すると思われる問題を提起したり、潜在的な問題に対処したりすることを目的としたものです。 通知が示されたときにそれに対処するかどうかは、目的に関連するかどうかに応じて選択できます。 たとえば、データ クレンジングで修正された値や提案された値がなく、完全性と正確性がどちらも 100% である場合に DQS で通知が生成されたとします。 この通知はアクティビティを実行する必要がないことを示していると考えられますが、 アクティビティを実行するかどうかはユーザーが選択できます。

通知は、[プロファイリング]タブの感嘆符付きのツールチップによって示されます。 通知に関連付けられた統計は、通知の統計的根拠を示すために赤色で表示されます。

通知の有効 (既定) と無効の切り替えは、Data Quality Client のホーム ページの [全般設定] タブにある [管理] セクションで行えます。 通知が無効になっている場合、ツールヒントは表示されず、統計情報も赤色になりません。 通知を無効にしてもパフォーマンスが大幅に向上することはありません。 通知を無効にしてもプロファイルは実行されます。

アクティビティの通知に関連付けられている特定の条件については、次の記事を参照してください。

タスクの説明 [アーティクル]
DQS で通知を有効または無効にする方法について説明します。 DQS のプロファイル通知の有効化または無効化