Microsoft Purview で Azure Databricks Unity カタログに接続して管理する (プレビュー)

この記事では、Azure Databricks を登録する方法と、Microsoft Purview で Azure Databricks Unity Catalog を認証して操作する方法について説明します。 Microsoft Purview の詳細については、 入門記事を参照してください。

重要

この機能は現在プレビューの段階です。 Microsoft Azure プレビューの補足使用条件には、ベータ版、プレビュー版、または一般公開されていない Azure 機能に適用される追加の法的条件が含まれています。

サポートされている機能

メタデータ抽出 フル スキャン 増分スキャン スコープスキャン 分類 ラベル付け アクセス ポリシー 系統 データ共有 ライブ ビュー
はい いいえ はい いいえ 不要 不要 不要 不要 不要

Azure Databricks Unity Catalog をスキャンする場合、Microsoft Purview では次の処理がサポートされます。

  • メタストア
  • カタログ
  • Schemas
  • 列を含むテーブル
  • 列を含むビュー

スキャンを設定するときに、Unity カタログ全体をスキャンするか、カタログのサブセットにスキャンのスコープを設定するかを選択できます。

注:

このコネクタは、Azure Databricks Unity Catalog からメタデータを取得します。 Azure Databricks ワークスペーススコープのメタデータをスキャンするには、 Azure Databricks Hive メタストア コネクタに関するページを参照してください。

既知の制限

  • 現在、Azure Databricks ワークスペースでパブリック ネットワークからのアクセスが許可されていない場合、または Purview アカウントですべてのネットワークからのアクセスが有効になっていない場合、スキャンはサポートされていません。 このサポートはまもなく追加されます。
  • オブジェクトがデータ ソースから削除された場合、現在、後続のスキャンでは、Microsoft Purview の対応する資産は自動的に削除されません。

前提条件

  • アクティブなサブスクリプションを持つ Azure アカウントが必要です。 無料でアカウントを作成します

  • アクティブな Microsoft Purview アカウントが必要です。

  • シークレットにアクセスするためのアクセス許可を Microsoft Purview に付与するには、Azure Key Vaultが必要です。

  • ソースを登録し、Microsoft Purview ガバナンス ポータルで管理するには、データ ソース管理者とデータ 閲覧者のアクセス許可が必要です。 アクセス許可の詳細については、「 Microsoft Purview でのアクセス制御」を参照してください。

  • Azure Databricks Unity Catalog をスキャンするために、Microsoft Purview はワークスペース内の SQL Warehouse に接続し、認証に個人用アクセス トークンを使用します。 Unity Catalog が有効で、スキャンするメタストアにアタッチされている Azure Databricks ワークスペースが必要です。 Azure Databricks ワークスペースで、次の手順を実行します。

    • 個人用アクセス トークンを生成し、それをシークレットとして Azure Key Vaultに格納します。

      • Microsoft Purview に取り込むすべてのオブジェクトについて、ユーザーには、テーブル/ビューに対する SELECT 権限、オブジェクトのカタログに 対する USE CATALOG 権限、およびオブジェクトのスキーマに対する USE SCHEMA 権限が必要です。

      • Unity Catalog メタストア内のすべてのオブジェクトをスキャンするには、メタストア管理者ロールを持つユーザーを使用します。 詳細については、「 Unity Catalog での特権の管理 」と 「Unity Catalog の特権とセキュリティ保護可能なオブジェクト」を参照してください。

    • SQL Warehouse を作成します。 必要に応じて、自動作成されたスターター ウェアハウスも使用できます。

      • HTTP パスをメモします。 Azure Databricks ワークスペース - SQL Warehouses -> ウェアハウス -> 接続の詳細 ->> HTTP パスで確認できます。

      • Azure Databricks SQL ウェアハウスに接続するために、ユーザーに Can Use アクセス許可があることを確認します。 詳細については、 SQL ウェアハウスのアクセス制御に関するページを参照してください。

登録

このセクションでは、 Microsoft Purview ガバナンス ポータルを使用して、Microsoft Purview に Azure Databricks ワークスペースを登録する方法について説明します。

  1. Microsoft Purview アカウントに移動します。

  2. 左側のウィンドウで [ データ マップ ] を選択します。

  3. [登録] を選択します。

  4. [ ソースの登録] で、[Azure Databricks>Continue] を選択します。

  5. [ ソースの登録 (Azure Databricks)] 画面で 、次の操作を行います。

    1. [ 名前] に、Microsoft Purview がデータ ソースとして一覧表示する名前を入力します。

    2. Azure サブスクリプションDatabricks ワークスペース名の場合は、ドロップダウンからスキャンするサブスクリプションとワークスペースを選択します。 Databricks ワークスペース URL が自動的に設定されます。

    3. [ コレクションの選択] で、一覧からコレクションを選択するか、新しいコレクションを作成します。 この手順は省略できます。

    Azure Databricks ソースの登録のスクリーンショット。

  6. [完了] を選択します。

スキャン

ヒント

スキャンに関する問題のトラブルシューティングを行うには:

  1. すべての前提条件に従っていることを確認 します
  2. スキャンのトラブルシューティングに関するドキュメントを確認してください

Azure Databricks をスキャンして資産を自動的に識別するには、次の手順を使用します。 一般的なスキャンの詳細については、「 Microsoft Purview でのスキャンとインジェスト」を参照してください。

  1. [ソース] に移動します。

  2. 登録済みの Azure Databricks を選択します。

  3. [ + 新しいスキャン] を選択します。

  4. 次のユーザー詳細を入力します。

    1. [名前]: スキャンの名前を入力します。

    2. 抽出方法: Hive メタストアまたは Unity カタログからメタデータを抽出することを示します。 [ Unity カタログ] を選択します。

    3. 統合ランタイム経由で接続する: 既定の自動解決された統合ランタイムを選択します。

    4. 資格情報: データ ソースに接続する資格情報を選択します。 次のことを確認してください。

      • 資格情報の作成時 に [アクセス トークン認証 ] を選択します。
      • [ 前提条件] で作成した個人用アクセス トークンのシークレット名を適切なボックスに指定します。

      詳細については、「 Microsoft Purview でのソース認証の資格情報」を参照してください。

    5. HTTP パス:Microsoft Purview が接続してスキャンを実行する Databricks SQL Warehouse の HTTP パス (例: ) を指定します。 /sql/1.0/endpoints/xxxxxxxxxxxxxxxx Azure Databricks ワークスペース - SQL Warehouses -> ウェアハウス -> 接続の詳細 ->> HTTP パスで確認できます。

  5. [ 接続のテスト ] をクリックして設定を検証します。

    Azure Databricks Unity Catalog スキャンの設定のスクリーンショット。

  6. [続行] を選択します。

  7. [ スキャンのスコープ] ページで、スキャンするカタログを選択します。

    Azure Databricks スキャンのスコープを設定するスクリーンショット。

  8. [ スキャン トリガー] で、スケジュールを設定するか、スキャンを 1 回実行するかを選択します。

  9. スキャンを確認し、[ 保存して実行] を選択します。

スキャンが正常に完了したら、 資産を参照して検索する方法を参照してください。

スキャンとスキャンの実行を表示する

既存のスキャンを表示するには:

  1. Microsoft Purview ガバナンス ポータルに移動します。 左側のウィンドウで、[ データ マップ] を選択します。
  2. データ ソースを選択します。 [最近のスキャン] で、そのデータ ソースの既存の スキャンの一覧を表示したり、[ スキャン ] タブですべてのスキャンを表示したりできます。
  3. 表示する結果を含むスキャンを選択します。 このウィンドウには、以前のすべてのスキャン実行と、各スキャン実行の状態とメトリックが表示されます。
  4. 実行 ID を選択して、スキャン実行の詳細をチェックします

スキャンを管理する

スキャンを編集、取り消し、または削除するには:

  1. Microsoft Purview ガバナンス ポータルに移動します。 左側のウィンドウで、[ データ マップ] を選択します。

  2. データ ソースを選択します。 [最近のスキャン] で、そのデータ ソースの既存の スキャンの一覧を表示したり、[ スキャン ] タブですべてのスキャンを表示したりできます。

  3. 管理するスキャンを選択します。 次のことを実行できます。

    • [スキャンの編集] を選択して スキャンを編集します
    • [スキャンの実行の取り消し] を選択して、進行中 のスキャンを取り消します
    • [スキャンの削除] を選択して スキャンを削除します

注:

  • スキャンを削除しても、以前のスキャンから作成されたカタログ資産は削除されません。
  • ソース テーブルが変更され、Microsoft Purview の [スキーマ] タブで説明を編集した後にソース テーブルを再スキャンした場合、資産は スキーマ の変更で更新されなくなります。

資産の参照と検索

Azure Databricks をスキャンした後、 データ カタログを参照 するか 、データ カタログを検索 して資産の詳細を表示できます。

ソースの種類別に参照すると、 Azure Databricks Unity CatalogAzure Databricks の 2 つのエントリがそれぞれ表示されます。 前者には、メタストアとそのカタログ/スキーマ/テーブル/ビューを含む Unity Catalog 成果物が含まれていますが、後者にはワークスペースが含まれています。

ソースの種類別の資産の参照のスクリーンショット。

Azure Databricks ワークスペース資産から、[プロパティ] タブの [関連付けられている Unity カタログ] を見つけることができます。逆の場合も適用されます。

Azure Databricks ソースに関連付けられている Unity Catalog を見つけるスクリーンショット。

次の手順

ソースを登録したので、次のガイドを使用して、Microsoft Purview とデータの詳細を確認します。