Azure Data Catalog でのデータ ソースの登録

重要

Azure Data Catalog は、2024 年 5 月 15 日に廃止されました。

データ カタログ機能については、Microsoft Purview サービスを使用してください。データ資産全体に対する一元化されたデータ ガバナンスが得られます。

はじめに

Azure Data Catalog は、フル マネージドのクラウド サービスで、エンタープライズ データ ソースの登録と検出システムとして機能します。 つまり、Data Catalog を使用すると、ユーザーはデータ ソースを検出、理解、使用でき、組織は既存のデータからより多くの価値を引き出すことができます。 Data Catalog でデータ ソースを検出できるようにするための最初のステップは、そのデータ ソースを登録することです。

データ ソースの登録

登録は、メタデータをデータ ソースから抽出し、そのデータを Data Catalog サービスにコピーするプロセスです。 データは現在存在する場所に残り、現在のシステムの管理者とポリシーの制御下に留まります。

データ ソースを登録するには、次の手順に従います。

  1. Azure Data Catalog ポータルで、Data Catalog データ ソース登録ツールを起動します。
  2. ポータルへのサインインに使用するのと同じ Microsoft Entra 資格情報を使用して、職場または学校アカウントでサインインします。
  3. 登録するデータ ソースを選択します。

データ ソースを登録すると、カタログはその場所を追跡し、メタデータのインデックスを作成します。 ユーザーは、データ ソースを検索、参照、検出し、その場所を使用して任意のアプリケーションまたはツールで接続できます。

サポートされるデータ ソース

現在サポートされているデータ ソースの一覧については、「Azure Data Catalog でサポートされるデータ ソース」をご覧ください。

構造メタデータ

データ ソースを登録するとき、登録ツールは選択されたオブジェクトの構造体に関する情報を抽出します。 この情報は構造メタデータと呼ばれます。

すべてのオブジェクトについて、この構造メタデータには、データを検出するユーザーがその情報を使用して、任意のクライアント ツールのオブジェクトに接続できるように、オブジェクトの場所が含まれます。 他の構造メタデータとしては、オブジェクトの名前と型、属性/列の名前、データの型などがあります。

記述メタデータ

データ ソースから抽出されるコア構造メタデータに加えて、データ ソース登録ツールは記述メタデータも抽出します。 SQL Server Analysis Services および SQL Server Reporting Services の場合、このメタデータはこれらのサービスによって公開される Description プロパティから取得されます。 SQL Server の場合は、ms_description 拡張プロパティを使用して提供される値が抽出されます。 Oracle データベースでは、データ ソース登録ツールによって、ALL_TAB_COMMENTS ビューから COMMENTS 列が抽出されます。

データ ソースから抽出される記述メタデータに加えて、ユーザーはデータ ソース登録ツールを使用して記述メタデータを入力することもできます。 ユーザーはタグを追加でき、登録されているオブジェクトの専門家を識別できます。 この記述メタデータはすべて、構造メタデータと共に Data Catalog サービスにコピーされます。

プレビューを含める

既定では、メタデータのみがデータ ソースから抽出されて Data Catalog サービスにコピーされますが、含まれるデータのサンプルを見る方がデータ ソースを簡単に理解できることがよくあります。

Data Catalog データ ソース登録ツールを使用して、登録される各テーブルおよびビューにデータのスナップショット プレビューを含めることができます。 登録時にプレビューを含めることを選択すると、登録ツールは各テーブルおよびビューから最大 20 個のレコードを含めます。 このスナップショットは、構造メタデータおよび記述メタデータと共にカタログにコピーされます。

Note

多くの列を含む幅の広いテーブルでは、プレビューに組み込まれるレコードが 20 より少ない場合があります。

データ プロファイルを含める

プレビューを含めることで Data Catalog 内のデータ ソースを検索するユーザーに貴重なコンテキストを提供できるのと同じように、データ プロファイルを含めることで、検出されたデータ ソースをより簡単に理解できるようになります。

Data Catalog データ ソース登録ツールを使用して、登録されたテーブルおよびビューごとにデータ プロファイルを含めることができます。 登録時にデータ プロファイルを含めることを選択すると、登録ツールは各テーブルとビューのデータに関する次のような集計情報を含めます。

  • オブジェクト内の行数とデータのサイズ
  • データとオブジェクト スキーマに対して最新の更新が行われた日付
  • 列における null レコードの数と重複しない値の数
  • 列の最小値、最大値、平均値、および標準偏差値

これらの統計は、構造メタデータおよび記述メタデータと共にカタログにコピーされます。

Note

テキスト列と日付列には、該当するデータ プロファイル内の平均または標準偏差の統計情報は含まれません。

登録を更新する

データ ソースを登録すると、登録時に抽出されるメタデータおよびオプションのプレビューを使用する際に、Data Catalog でデータ ソースを検出できるようになります。 カタログのデータ ソースを更新する必要がある場合 (オブジェクトのスキーマが変更された場合、最初は除外されていたテーブルを含める必要がある場合、プレビューに含まれるデータを更新する場合など) は、データ ソース登録ツールを再実行できます。

既に登録されているデータ ソースを再登録すると、マージ "upsert" 操作が実行されます。既存のオブジェクトは更新され、新しいオブジェクトが作成されます。 ユーザーが Data Catalog ポータルで提供したメタデータはすべて維持されます。

まとめ

構造メタデータと記述メタデータがデータ ソースからカタログ サービスにコピーされるため、Data Catalog でデータ ソースを登録すると、データ ソースの検出と把握が容易になります。 データ ソースを登録した後は、Data Catalog ポータルを使用して、データ ソースの注釈付け、管理、および検出を実行できます。