照合プロジェクトの実行
適用対象: SQL Server
このトピックでは、Data Quality Services (DQS) でデータ照合を実行する方法について説明します。 照合プロセスでは、照合ポリシーの照合ルールに基づいて一致レコードのクラスターを特定し、サバイバーシップ ルールに基づいて各クラスターで保持するレコードを 1 つ特定し、結果をエクスポートします。 照合プロセス (重複除去とも呼ばれます) はコンピューター支援型のプロセスで実行されますが、照合ルールを対話形式で作成し、いくつかの選択肢の中からサバイバーシップ ルールを選択することで、照合プロセスを制御します。
照合を実行する手順は、データ ソースを特定してドメインをデータ ソースにマップするマップ プロセス、照合分析を実行する照合プロセス、およびサバイバーシップ ルールを指定して照合結果をエクスポートするサバイバーシップとエクスポート プロセスの 3 つのステージで構成されます。 照合アクティビティのウィザードでは、これらの各プロセスをそれぞれ異なるページで実行します。前後の各ページに移動したり、プロセスを再実行したり、特定の照合プロセスを完了した後にそのプロセスの同じステージに戻ることも可能です。 DQS から提供されるソース データ、照合ルール、および照合結果に関する統計情報に基づいて照合に関する決定を行い、照合プロセスを調整することができます。
照合を実行する準備として、1 つ以上の照合ルールを含む照合ポリシーを作成し、そのポリシーをサンプル データに対して実行する必要があります。 照合プロジェクトは照合ポリシー プロセスとは別のプロセスであり、照合プロジェクトから得られた照合のナレッジはナレッジ ベースに取り込まれません。 照合ポリシーの作成の詳細については、「 Create a Matching Policy」を参照してください。
始める前に
前提条件
1 つ以上の照合ルールで構成された照合ポリシーを設定してナレッジ ベースを作成しておく必要があります。
照合するソース データが Excel ファイルに含まれている場合は、Data Quality Client コンピューターに Microsoft Excel がインストールされている必要があります。 Excel がインストールされていないと、マップ ステージで Excel ファイルを選択できません。 Microsoft Excel で作成されるファイルの拡張子は、.xlsx、.xls、または .csv です。 64 ビット バージョンの Excel を使用する場合は、Excel 2003 ファイル (.xls) のみがサポートされます。Excel 2007 または 2010 ファイル (.xlsx) はサポートされません。 64 ビット バージョンの Excel 2007 または 2010 を使用している場合は、ファイルを .xls ファイルまたは .csv ファイルとして保存するか、32 ビット バージョンの Excel をインストールしてください。
セキュリティ
アクセス許可
照合プロジェクトを実行するには、DQS_MAIN データベースの dqs_kb_editor ロールまたは dqs_administrator ロールが必要です。
最初の手順: 照合プロジェクトの開始
DQS クライアント アプリケーションで作成したデータ品質プロジェクトで照合アクティビティを実行します。
Data Quality クライアントを開始します。 これを行う方法の詳細については、「Data Quality Client アプリケーションの実行」を参照してください。
Data Quality Client のホーム画面で [新しいデータ品質プロジェクト] をクリックして、新しいデータ品質プロジェクトで照合を実行します。 データ品質プロジェクトの名前と説明を入力し、照合に使用するナレッジ ベースを [ナレッジ ベースを使用]で選択します。 アクティビティとして [照合] をクリックします。 [次へ] をクリックしてマップ ステージに進みます。
既存のデータ品質プロジェクトで照合を実行する場合は、 [データ品質プロジェクトを開く] をクリックします。 プロジェクトを選択し、 [次へ]をクリックします (または、[最近使用したデータ品質プロジェクト] の下にあるプロジェクトをクリックすることもできます。) 閉じた照合プロジェクトを開くと、照合プロジェクトのアクティビティを終了したステージから再開されます (プロジェクト テーブルの [状態] 列または [最近使用したデータ品質プロジェクト] のプロジェクト名で判別できます)。 完了した照合プロジェクトを開く場合は、 [エクスポート] ページが開きます (前の画面に戻ることはできません)。
マップ ステージ
マップ ステージでは、照合分析を実行するデータのソースを特定し、ドメインを照合アクティビティで使用できるようにソース列をドメインにマップします。
データベースに対して照合を実行する場合は、 [マップ] ページで [データ ソース] を [SQL Server]のままにして、照合を実行するデータベースを選択し、テーブルを選択します。 ソース データベースは、DQS サーバーと同じ SQL Server インスタンス上に存在する必要があります。 それ以外の場合、データベースはドロップダウン リストに表示されません。
Excel ワークシートのデータに対して照合を実行する場合は、 [データ ソース] で [Excel ファイル]を選択し、 [参照] をクリックして Excel ファイルを選択します。必要に応じて、 [先頭の行を見出しとして使用] は選択したままにします。 [ワークシート]で、データのソースとなる Excel ファイルのワークシートを選択します。 Excel ファイルを選択するには、Data Quality Client コンピューターに Excel がインストールされている必要があります。 Data Quality Client コンピューターに Excel がインストールされていない場合は、 [参照] ボタンを使用できません。Excel がインストールされていないことを通知するメッセージが、このテキスト ボックスの下に表示されます。
[マッピング]の [ソース列]でデータ ソースのフィールドを選択し、対応するドメインを選択します。 照合プロセスで使用するすべてのドメインについて繰り返します。 照合ポリシーで定義されているそれぞれのドメインを適切なソース列にマップする必要があります。 [マップ] ページの右側のペインに、照合ポリシーで定義されているドメインと照合ポリシーのルールが表示されます。
Note
ソース データを DQS ドメインにマッピングできるのは、ソースのデータ型が DQS でサポートされていて、なおかつ DQS ドメインのデータ型と一致する場合だけです。 DQS でサポートされるデータ型の詳細については、「 DQS ドメインに対してサポートされる SQL Server のデータ型と SSIS のデータ型」を参照してください。
マッピング テーブルに行を追加するには、プラス記号 (+) コントロールをクリックします。行を削除するには、マイナス記号 (-) コントロールをクリックします。
選択した SQL Server のテーブルやビューのデータ、または選択した Excel ワークシートのデータを表示するには、 [データ ソースのプレビュー] をクリックします。
ナレッジ ベースで使用できる複合ドメインの一覧を表示し、必要に応じてマップするものを選択するには、 [複合ドメインの表示と選択] をクリックします。
[次へ] をクリックして照合ステージに進みます。
Note
[閉じる] をクリックすると、照合プロジェクトのステージが保存され、DQS ホーム ページに戻ります。 次回このプロジェクトを開いたとき、プロジェクトは同じステージから開始されます。 [キャンセル] をクリックすると、照合アクティビティが終了して作業内容が破棄され、DQS ホーム ページに戻ります。
照合ステージ
このステージでは、照合ルールに基づいてソース データ内の一致の数を示すコンピューター支援型の照合プロセスを実行します。 このプロセスで生成される照合結果のテーブルには、DQS で特定されたクラスター、クラスター内の各レコードのレコード ID と照合スコア、およびクラスター内の最初の先頭レコードが表示されます。 クラスターの先頭レコードはランダムに選択されます 保持するレコードは、照合プロジェクトの実行中に [エクスポート] ページで選択したサバイバーシップ ルールで決まります。 クラスター内のその他の各行は一致と見なされ、照合スコア (先頭レコードとの比較) が結果テーブルに表示されます。 クラスター番号は、クラスター内の先頭レコードのレコード ID と同じになります。
照合結果では、フィルターを使用して必要なデータだけを残し、不要な一致を拒否することができます。 照合プロセス全体のプロファイル データ、適用されている照合ルールに関する詳細、および照合結果全体に関する統計情報を表示できます。 照合プロセスでは、重複するクラスターか重複しないクラスターかを識別し、照合プロセスを複数回実行する場合は、ソースから新たにコピーされてインデックスが再作成されたデータに対して実行するか、以前のデータに対して実行するかを選択することができます。
[照合]ページで、ドロップダウン リストから [重複するクラスター] を選択すると、照合の実行時に、クラスターのグループに共通のレコードがあるかどうかに関係なく、すべてのクラスターのピボット レコードとそれに従ったレコードが表示されます。 [重複しないクラスター] を選択すると、照合の実行時に、共通のレコードを持つクラスターが 1 つのクラスターとして表示されます。
[ソースからデータを再読み込み] (既定値) をクリックすると、照合プロジェクトの実行時に、データ ソースからステージング テーブルにデータがコピーされてインデックスが再作成されます。 [以前のデータで実行] をクリックすると、ステージング テーブルへのデータのコピーとインデックスの再作成を行わずに照合プロジェクトが実行されます。 [以前のデータで実行] は、照合プロジェクトの初回実行時は無効になります。また、 [マップ] ページでマッピングを変更した後に、ポップアップ画面で [はい] をクリックした場合も無効になります。 この場合はどちらも、インデックスを再作成する必要があります。 照合プロジェクトに変更がなければ、インデックスを再作成する必要はありません。 以前のデータで実行するとパフォーマンスの向上に役立ちます。
選択したデータ ソースで照合を実行するには、 [開始] をクリックします。
照合プロジェクトを中止して結果を破棄する場合は、 [停止] をクリックします。
照合プロセスが完了したら、 "照合結果" テーブルに表示されたクラスターが適切であることを確認し、 [プロファイラー] タブと [照合結果] タブの統計情報で必要な結果が得られたことを確認します。 一致レコードを表示するには [フィルター] で [一致] を選択し、不一致レコードを表示するには [不一致]を選択します。
照合ポリシーに照合ルールが複数ある場合は、 [照合ルール] タブをクリックして各ルールのアイコンを特定し、 "照合結果" テーブルの [ルール] 列でルールを特定することで、レコードを一致と見なしたルールを確認します。
テーブルでピボット以外のレコードを選択して [詳細表示] アイコンをクリックすると (または、そのレコードをダブルクリックすると)、 [照合スコアの詳細] ポップアップが表示され、ダブルクリックしたレコードとそのピボット レコード (およびそれらのフィールドの値)、それらのレコード間のスコア、および各フィールドの照合スコアの割合のドリルダウンが表示されます。 ピボット レコードをダブルクリックした場合はポップアップは表示されません。
[すべて折りたたみ] アイコンをクリックすると、 "照合結果" テーブルに表示されているレコードが折りたたまれ、重複レコードを除くピボット レコードだけが表示されます。 [すべて展開] をクリックすると、"照合結果" テーブルに表示されているレコードが展開され、すべての重複レコードが表示されます。
照合結果のレコードを拒否するには、レコードの [拒否] チェック ボックスをオンにします。
レコードを表示する条件となる最小照合スコアを変更するには、テーブルの右側の上にある [最小の照合スコア] アイコンを選択し、より大きい数値を入力します。 最小照合スコアは、既定では 80% に設定されています。 [更新] をクリックするとテーブルの内容が変わります。
分析が完了すると、 [開始] ボタンが [再起動] ボタンに変わります。 [再起動] をクリックすると、分析プロジェクトが再び実行されます。 ただし、前回の分析の結果はまだ保存されていないため、 [再起動] をクリックすると前のデータが失われます。 続行するには、ポップアップ画面で [はい] をクリックします。 分析の実行中にページを移動しないでください。ページを移動すると、分析プロセスが終了します。
[次へ] をクリックしてサバイバーシップとエクスポート ステージに進みます。
サバイバーシップとエクスポート ステージ
Data Quality Services のサバイバーシップ プロセスでは、各クラスターで保持するレコードが特定され、そのレコードに一致するクラスター内の他のレコードがそのレコードに置き換えられます。 その後、照合またはサバイバーシップ (またはその両方) の結果が SQL Server データベースのテーブル、.csv ファイル、または Excel ファイルにエクスポートされます。
サバイバーシップは省略可能であり、 サバイバーシップを実行しなくても結果をエクスポートできます。この場合、照合分析で判定されたピボット レコードが使用されます。 サバイバーシップ プロセスで、クラスター内の複数のレコードがサバイバーシップ ルールに適合する場合は、競合するレコードの中でレコード ID が最も小さいものが保持するレコードとして選択されます。 保持するレコードは、サバイバーシップ ルールごとに異なるファイルやテーブルにエクスポートできます。
[エクスポート] ページの [エクスポート先の種類]で、照合データのエクスポート先を選択します ( [SQL Server]、 [CSV ファイル]、または [Excel ファイル])。
重要
Excel の 64 ビット版を使用している場合、一致するデータは Excel ファイルにエクスポートできません。SQL Server データベースまたは .csv ファイルにのみエクスポートできます。
[エクスポート先の種類] で [SQL Server]を選択した場合は、結果のエクスポート先のデータベースを [データベース名]で選択します。
重要
エクスポート先のデータベースは、DQS サーバーと同じ SQL Server インスタンス上に存在する必要があります。 それ以外の場合、データベースはドロップダウン リストに表示されません。
指定した SQL Server データベースのテーブルか、指定した .csv ファイルまたは Excel ファイルに照合の結果 (上記の説明を参照) をエクスポートするには、 [照合結果] のチェック ボックスをオンにします。 指定した SQL Server データベースのテーブルか、指定した .csv ファイルまたは Excel ファイルにサバイバーシップの結果 (上記の説明を参照) をエクスポートするには、 [サバイバーシップの結果] のチェック ボックスをオンにします。
照合の結果でエクスポートされる情報は次のとおりです。
クラスターと各クラスター内の一致レコードの一覧 (ルール名とスコアが表示されます)。 ピボット レコードには "ピボット" のマークが付けられます。 クラスターは、エクスポートの一覧の先頭に表示されます。
不一致レコードの一覧 ([スコア] 列と [ルール名] 列は "NULL" になります)。 これらのレコードは、エクスポートの一覧でクラスターの後に表示されます。
サバイバーシップの結果でエクスポートされる情報は次のとおりです。
サバイバーシップ ルールに従ってサバイバーシップ プロセスで特定された保持するレコードの一覧。 これらのレコードは、エクスポートの一覧の先頭に表示されます。
一致レコードのクラスターに含まれない不一致レコードの一覧。 これらのレコードは、保持するレコードの結果の後に表示されます。
[エクスポート先の種類] で [SQL Server]を選択した場合は、結果のエクスポート先のテーブルの名前を [テーブル名]に入力します。 照合とサバイバーシップの両方の結果をエクスポートする場合は、それぞれのエクスポート先のテーブルとして、データベース内で一意の異なる名前を指定する必要があります。
[エクスポート先の種類] で [CSV ファイル]を選択した場合は、エクスポート先の CSV ファイルの名前とパスを [CSV ファイル名]に入力します。
[エクスポート先の種類] で [Excel ファイル]を選択した場合は、エクスポート先の Excel ファイルの名前とパスを [Excel ファイル名]に入力します。 Excel の 64 ビット版を使用している場合は、Excel ファイルにエクスポートできません。
次のようにしてサバイバーシップ ルールを選択します。
[ピボット レコード] (既定値) を選択すると、DQS で任意に選択された最初のピボット レコードが保持するレコードと見なされます。
[最も完全で最長のレコード] を選択すると、設定されたフィールドの数が最も多く、各フィールド内の語句の数が最も多いレコードが保持するレコードと見なされます。 [マップ] ページでドメインにマップされていないフィールドも含め、すべてのソース フィールドが確認されます。
[最も完全なレコード] を選択すると、設定されたフィールドの数が最も多いレコードが保持するレコードと見なされます。 設定されたフィールドとは、少なくとも 1 つの値 (文字列、数値、またはその両方) が含まれるフィールドです。 [マップ] ページでドメインにマップされていないフィールドも含め、すべてのソース フィールドが確認されます。 設定されたフィールドとは、少なくとも 1 つの値 (文字列、数値、またはその両方) が含まれるフィールドです。
[最長のレコード] を選択すると、ソース フィールド内の語句の数が最も多いレコードが保持するレコードと見なされます。 各レコードの長さを特定するために、 [マップ] ページでドメインにマップされていないフィールドも含め、すべてのソース フィールド内の語句の長さが確認されます。
[プロファイラー] タブで統計情報を表示して、必要な結果が得られたことを確認します。
[エクスポート] をクリックして結果をエクスポートします。 [一致するエクスポート] ダイアログ ボックスに進行状況が表示され、完了するとエクスポートの結果が表示されます。
[SQL Server] をデータのエクスポート先として選択した場合、選択したデータベースに指定した名前の新しいテーブルが作成されます。
[CSV ファイル] をデータのエクスポート先として選択した場合、 [CSV ファイル名] ボックスに指定したファイル名を持つ .csv ファイルが Data Quality Server コンピューター上に作成されます。
[Excel ファイル] をデータのエクスポート先として選択した場合、[Excel ファイル名] ボックスに指定したファイル名を持つ .xlsx ファイルが Data Quality Server コンピューター上に作成されます。
エクスポートが正常に完了したことを確認して、 [閉じる]をクリックします。
[完了] をクリックして照合プロジェクトを終了します。
Note
照合プロジェクトの完了後にもう一度そのプロジェクトを使用する場合、発行された時点のナレッジ ベースが使用されます。 プロジェクトの完了後にナレッジ ベースに対して行われた変更は使用されません。 それらの変更を使用する場合や新しいナレッジ ベースを使用する場合は、新しい照合プロジェクトを作成する必要があります。 一方、作成した照合プロジェクトが完了していない場合は、そのプロジェクトで照合を実行するときに、照合ポリシーに対して発行された変更が使用されます。
補足情報: 照合プロジェクトを実行した後
照合プロジェクトを実行した後、ナレッジ ベースの照合ポリシーを変更し、更新後の照合ポリシーに基づく別の照合プロジェクトを作成して実行できます。 詳細については、「 Create a Matching Policy」をご参照ください。
Profiler and Results Tabs
照合プロセスに関する統計情報は、[プロファイラー] タブと [結果] タブに表示されます。
[プロファイラー] タブ
[プロファイラー] タブをクリックすると、ソース データベースの統計情報とポリシーのルールに含まれる各フィールドの統計情報が表示されます。 これらの統計情報は、ポリシーのルールを実行すると更新されます。 プロファイルは、重複除去プロセスの有効性を評価する際に、プロセスによってデータの品質がどの程度向上するかを特定するのに役立ちます。 照合プロジェクトでは、プロファイルの精度は重要ではありません。
ソース データベースの統計情報には、次の情報が含まれます。
レコード: データベース内のレコードの総数
合計値: フィールドの値の総数
新しい値: 前回の実行以降の新しい値の総数と、全体に占める割合
一意の値: フィールドの一意の値の総数と、全体に占める割合
新しい一意の値: フィールドの新しい一意の値の総数と、全体に占める割合
フィールドの統計情報には、次の情報が含まれます。
フィールド: マッピングで対象となったフィールドの名前
ドメイン: フィールドにマップされたドメインの名前
新規: 検出された新しい一致の数と、全体に占める割合
一意: フィールドの一意のレコードの数と、全体に占める割合
完全: ルールの実行が完了した割合
照合ポリシーの通知
照合ポリシー アクティビティでは、以下の状況で通知が生成されます。
フィールドがすべてのレコードで空の場合。そのフィールドをマッピングから除去することをお勧めします。
フィールドの完全性スコアが非常に低い場合。そのフィールドをマッピングから除去できます。
フィールド内のすべての値が無効である場合。マッピングと、ドメイン ルールとフィールドの内容の関連を確認する必要があります。
フィールド内の有効な値が少ない場合。マッピングと、ドメイン ルールとフィールドの内容の関連を確認する必要があります。
フィールドの一意性が高い場合。 照合ポリシーでこのフィールドを使用すると、照合結果の数を減らすことができます。
[照合ルール] タブ
このタブをクリックすると、照合ポリシーのルールと各ルールの条件の一覧が表示されます。
[ルールの一覧]
照合ポリシーのすべての照合ルールの一覧が表示されます。 ルールを選択すると、"照合ルール" テーブルにそのルールの条件が表示されます。
"照合ルール" テーブル
選択したルールの各条件が表示されます。これには、ドメイン、類似値、重み値、前提条件の選択などが含まれます。
[照合結果] タブ
[照合結果] タブをクリックすると、プロジェクトに対して選択されたナレッジとそのナレッジ ベースの照合ルールを使用して実行された、データ ソースの分析の統計情報が表示されます。 この統計情報には、次の情報が含まれます。
データベース内のレコードの総数
データベース内の一致レコードの総数
データベース内の重複と見なされないレコードの数
検出されたクラスターの数
クラスターの平均サイズ (重複レコードの数をクラスターの数で割った値)
クラスター内の重複の最小数
クラスター内の重複の最大数