Common Data Model データ ソースを更新し、差分テーブルを使用する
データ接続に依存する既存の構成を削除して再作成することなく、共通データ モデル テーブルを使用して既存のデータ接続を更新し、Delta 形式のテーブルに移行します。
Delta 形式で保存されたデータに接続する主な理由は次のとおりです:
- Delta 形式のデータを直接インポートして、時間と労力を節約します。
- Lakehouse データのコピーの変換と保存に関連するコンピューティング コストとストレージ コストを排除します。
- Delta バージョン によって提供される Customer Insights - Data へのデータ インジェストの信頼性を自動的に向上します。
デルタ は、Databricks Lakehouse Platform のデータとテーブルを格納する基盤である Delta Lake で導入された用語です。 Delta Lake は、ビッグデータのワークロードに ACID (原子性、一貫性、分離、耐久性) トランザクションをもたらすオープンソースのストレージ レイヤーです。 詳細については、Delta Lake のドキュメントページ を参照してください。
前提条件
Azure Data Lake Storage は、Customer Insights - Data と同じテナントおよび Azure リージョンに存在する必要があります。
Customer Insights - Data サービス プリンシパルは、ストレージ アカウントにアクセスするためのストレージ Blob データ コントリビューターの権限を持っている必要があります。 詳細については、ストレージ アカウントにアクセスするためのアクセス許可をサービス プリンシパルに付与するを参照してください。
データ ソース 接続を設定または更新するユーザーには、少なくとも Azure Data Lake Storage アカウントに対するストレージ BLOB データの閲覧権限が必要です。
オンライン サービスに保存されたデータは、データが処理または保存される場所とは異なる場所に保存される場合があります。 オンラインサービスに保存されたデータをインポートまたは接続することにより、ユーザーはデータが転送されることに同意するものとします。 詳細については、Microsoft Trust Center を参照してください。
Customer Insights - Data は、Databricks リーダー バージョン 2 をサポートします。 Databricks リーダー バージョン 3 以上を必要とする機能を使用するデルタ テーブルはサポートされていません。 詳細: サポートされているDatabricks機能。
Delta テーブルはストレージ コンテナー内のフォルダーに存在する必要があり、コンテナーのルート ディレクトリに存在することはできません。 例:
storageaccountcontainer/ DeltaDataRoot/ ADeltaTable/ _delta_log/ 0000.json 0001.json part-0001-snappy.parquet part-0002-snappy.parquet
Delta テーブルとそのスキーマは、既存の Common Data Model データ ソースのテーブルと一致し、同じストレージ コンテナーに存在する必要があります。 新しいデータ フォルダーのテーブルは、Common Data Model データ ソースで選択したテーブルと正確に一致する必要があります。 テーブル名とそのスキーマは正確に一致する必要があります。 Delta テーブル名はデータが保存されているフォルダー名と同じです。 そのため、フォルダー名は、Common Data Model データ ソースで選択したテーブルと正確に一致する必要があります。 そうでない場合、更新は失敗します。
たとえば、選択した Common Data Model データ ソース テーブルが テーブル 1 とテーブル 2 である場合、更新用に選択したフォルダーには階層内にテーブル 1 とテーブル 2 が表示される必要があります。
storageaccountroot/ DeltaDataRoot/ Table1/ Table2/
Common Data Model データ テーブルを差分テーブルに更新する
データ>データ ソースにアクセスします。
Azure Data Lake Common Data Model データ ソースを選択し、Delta Lake デーブルに更新 を選択します。 または、Common Data Model データ ソース を編集している場合は、テーブルの追加 ページから 更新の開始 を選択します。
参照 を選択し、Delta 形式のデータが含まれ、選択した Azure Data Lake データ ソース テーブルに 完全に一致する フォルダーに移動します。 そのデータを選択してから データ ソースの更新 を選択します。
データソース ページが開き、新しいデータソースが更新された状態で表示されます。
重要
データ ソースの更新に悪影響を与える可能性があるため、更新プロセスを停止しないでください。
更新が成功し、すべてが期待どおりに動作していると判断するまで、既存のパイプラインを使用してデータを Data Lake Storage の場所にストリーミングし続け、マニフェストとスキーマを維持することをお勧めします。
Common Data Model テーブルからデルタ テーブルへの変換を元に戻す
Azure Data Lake Common Data Model データ ソースを Delta テーブルに更新しようとしてプロセスが失敗した場合は、次の手順を実行します。
前提条件
- 組織は、パイプラインを使用して Data Lake Storage データをストリーミングし続けている。
- 組織は、Data Lake Storage のマニフェストとスキーマを維持している。
Azure Data Lake Common Data Model データソースに戻す
データ>データ ソースにアクセスします。
Azure Data Lake Common Data Model データ ソースを選択し、Common Data Model テーブルに戻す を選択します。
元に戻すことを確認します。 データソース ページが開き、新しいデータソースが更新された状態で表示されます。
重要
データ ソースを元に戻すのに悪影響を与える可能性があるため、更新プロセスを停止しないでください。