データを統合するために各テーブルの重複を削除します
重複排除ルールのステップでは、各顧客が各テーブルの単一の行で表されるように、ソーステーブルから顧客の重複レコードを検出して削除します。 各テーブルは、特定の顧客のレコードを識別するルールを使用して個別に重複排除されます。
ルールは順番に処理されます。 すべてのルールがテーブル内のすべてのレコードに対して実行された後、共通の行を共有する一致グループが 1 つの一致グループに結合されます。
重複排除ルールを定義する
適切なルールは、固有の顧客を識別します。 データを考慮します。 E メールなどのフィールドに基づいて顧客を識別するだけでも十分かもしれません。 しかし、E メールを共有する顧客を区別したい場合は、2 つの条件を持つルールを選択することができます。 詳細については、 重複排除のベスト プラクティスを参照してください。
重複排除ルール ページで、テーブルを選択し、ルールの追加 を選択して重複排除ルールを定義します。
チップ
統合結果を改善するためにデータ ソース レベルでテーブルをエンリッチした場合は、ページ上部でエンリッチされたテーブルを使用するを選択します。 詳細については、データ ソースのエンリッチメント を参照してください。
ルールの追加ウィンドウに、次の情報を入力します。
フィールドを選択: 重複を確認するテーブルの使用可能なフィールドのリストから選択します。 各顧客に固有である可能性が高いフィールドを選択します。 たとえば、電子メール アドレス、または名前、都市、電話番号の組み合わせです。
正規化: 列の 選択 正規化オプション 。 正規化は照合ステップにのみ影響し、データは変更されません。
- 数字: 数字を表すUnicode記号を単純な数字に変換します。
- 記号: !"#$%&'()*+,-./:;<=>?@[]^_`{|}~ などの記号や特殊文字を削除します。 例えば、Head&Shoulder は HeadShoulder になります。
- テキストを小文字に変換: 大文字を小文字に変換します。 「ALL CAPS and Title Case」 が 「ALL CAPS AND TITLE CASE」 になります。
- タイプ (電話、名前、住所、組織): 名前、役職、電話番号、住所を標準化します。
- UnicodeからASCII: Unicode文字をそれに相当するASCII文字に変換します。 たとえば、アクセント付きの ề は e 文字に変換されます。
- 空白: すべてのスペースを削除します。 Hello World は、HelloWorld になります。
- エイリアス 閉じる: 常に完全一致とみなされる文字列を示す文字列ペアのカスタム リストをアップロードできます。
- カスタム バイパス: 一致してはならない文字列を示すカスタム文字列リストをアップロードできます。
精度: 精度のレベルを設定します。 精度は、完全一致とあいまい一致に使用され、一致と見なされるために2つの文字列がどの程度一致する必要があるかを決定します。
- 基本: 低 (30%)、中 (60%)、高 (80%)、完全一致t (100%) から選択します。 100%一致するレコードのみを一致とする場合は 完全一致 を選択します。
- カスタム: レコードが一致する必要がある割合を設定します。 システムは、このしきい値を超えるレコードのみを照合します。
名前: ルールの名前です。
必要に応じて、追加>条件を追加を選択し、ルールに条件を追加します。 条件は論理 AND 演算子で接続されるため、すべての条件が満たされた場合にのみ実行されます。
必要に応じて、追加>例外の追加にルールに例外を追加 します。 例外は、誤検知と擬陰性のまれなケースに対処するために使用されます。
完了を選択してルールを作成します。
オプションで、ルールをさらに追加 します。
テーブルを選択し、次にマージの基本設定を編集するを選択します。
マージの基本設定ウィンドウ:
3 つのオプションのいずれかを選択して、重複が見つかった場合に保持するレコードを決定します。
- 最も多い: 最も多くの列を持つレコードを勝者レコードとして識別します。 既定のマージ オプションです。
- 最も新しい: 最新性に基づいて勝者レコードを識別します。 最新を定義するには、日付または数値フィールドが必要です。
- 最も古い: 最も古いレコードに基づいて勝者レコードを識別します。 最新を定義するには、日付または数値フィールドが必要です。
同点の場合、勝者レコードは MAX(PK) またはより大きな主キー値を持つレコードです。
オプションで、テーブルの個々の列に対するマージ設定を定義するには、ペインの下部にある 詳細設定 を選択します。 たとえば、最新のメールと最も完全なアドレスを異なるレコードから保持することを選択できます。 テーブルを展開してすべての列を表示し、個々の列に使用するオプションを定義します。 最新性に基づくオプションを選択する場合は、最新性を定義する日付/時刻フィールドも指定する必要があります。
完了を選択して、マージ設定を適用します。
重複排除ルールとマージ設定を定義した後、次へを選択します。