Infoworks に接続する
重要
この機能はパブリック プレビュー段階にあります。
Infoworks DataFoundry は、Azure Databricks 上でネイティブに実行される自動化されたエンタープライズ データ操作とオーケストレーション システムであり、Azure Databricks の全機能を活用して、データ オンボードのための簡単なソリューションを提供します。これは、データ レイクを運用する上で重要な最初のステップです。 DataFoundry は、データ インジェストを自動化するだけでなく、分析の基盤を確立するためにインジェストに付随する必要がある主要な機能も自動化します。 DataFoundry を使用したデータ オンボードでは、次の自動化が行われます。
- データ インジェスト: すべてのエンタープライズ データ ソースと外部データ ソースから
- データ同期: ソースとのデータ同期を維持するための CDC
- データ ガバナンス: カタログ化、系列、メタデータ管理、監査、履歴
次に、Infoworks と Azure Databricks を一緒に使用する手順を示します。
手順 1: Databricks 個人用アクセス トークンを生成する
Infoworks は、Azure Databricks 個人用アクセス トークンを使用して、Azure Databricks との認証を行います。
注意
セキュリティのベスト プラクティスとして、自動化ツール、システム、スクリプト、アプリを使用して認証する場合、Databricks では、ワークスペース ユーザーではなくサービス プリンシパルに属する個人用アクセス トークンを使用することを推奨しています。 サービス プリンシパルのトークンを作成するには、「サービス プリンシパルのトークンを管理する」をご覧ください。
手順 2: 統合のニーズをサポートするためにクラスターを設定する
Infoworks は Azure Data Lake Storage パスにデータを書き込み、Azure Databricks 統合クラスターは、その場所からデータを読み取ります。 そのため、統合クラスターには、Azure Data Lake Storage パスへのセキュリティで保護されたアクセスが必要です。
Azure Data Lake Storage パスへのアクセスをセキュリティで保護する
Azure Data Lake Storage (ADLS) のデータへのアクセスをセキュリティで保護するには、Azure ストレージ アカウント アクセス キー (推奨) または Microsoft Entra ID サービス プリンシパルを使用できます。
Azure ストレージ アカウント アクセス キーを使用する
Spark 構成の一部として、統合クラスターでストレージ アカウントのアクセス キーを構成できます。 ストレージ アカウントが、ステージング データに使用される ADLS コンテナーとファイル システム、Delta Lake テーブルを書き込む ADLS コンテナーとファイル システムにアクセスできることを確認します。 キーを使用するように統合クラスターを構成するには、「Azure Data Lake Storage Gen2 と Blob Storage に接続する」に記載されている手順に従います。
Microsoft Entra ID サービス プリンシパルを使用する
Spark 構成の一部として、Azure Databricks 統合クラスターでサービス プリンシパルを構成できます。 サービス プリンシパルが、ステージング データに使用される ADLS コンテナーと、Delta テーブルを書き込む ADLS コンテナーにアクセスできることを確認します。 サービス プリンシパルを使用する統合クラスターを構成するには、「サービス プリンシパルを使用して ADLS Gen2 にアクセスする」の手順に従います。
クラスター構成の指定
[クラスター モード] を [Standard] に設定します。
[Databricks Runtime のバージョン] を Databricks Runtime のバージョンに設定します。
Spark 構成に次のプロパティを追加して、最適化された書き込みと自動圧縮を有効にします。
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
統合とスケーリングのニーズに応じて、クラスターを構成します。
クラスター構成の詳細については、「コンピューティング構成リファレンス」を参照してください。
JDBC URL と HTTP パスを取得する手順については、「Azure Databricks コンピューティング リソースの接続の詳細を取得する」を参照してください。
手順 3: クラスターに接続するための JDBC 接続と ODBC 接続の詳細を取得する
Azure Databricks クラスターを Infoworks に接続するには、次の JDBC/ODBC 接続プロパティが必要です。
- JDBC URL
- HTTP パス
手順 4: Azure Databricks 用の Infoworks を取得する
Infoworks に移動して詳細を確認し、デモを取得します。