StreamSets に接続する
重要
この機能はパブリック プレビュー段階にあります。
StreamSets は、データ フローをライフサイクル全体で管理し、監視するのに役立ちます。 StreamSets の Azure Databricks と Delta Lake とのネイティブ統合により、さまざまなソースからデータを取得し、パイプラインを簡単に管理できます。
StreamSets の一般的なデモについては、次の YouTube ビデオ (10 分) をご覧ください。
Azure Databricks で StreamSets を使用する手順を次に示します。
手順 1: Databricks 個人用アクセス トークンを生成する
StreamSets は、Azure Databricks 個人用アクセス トークンを使用して、Azure Databricks との認証を行います。
注意
セキュリティのベスト プラクティスとして、自動化ツール、システム、スクリプト、アプリを使用して認証する場合、Databricks では、ワークスペース ユーザーではなくサービス プリンシパルに属する個人用アクセス トークンを使用することを推奨しています。 サービス プリンシパルのトークンを作成するには、「サービス プリンシパルのトークンを管理する」をご覧ください。
手順 2: 統合のニーズをサポートするようにクラスターを設定する
StreamSets は Azure Data Lake Storage パスにデータを書き込み、Azure Databricks 統合クラスターは、その場所からデータを読み取ります。 そのため、統合クラスターには、Azure Data Lake Storage パスへのセキュリティで保護されたアクセスが必要です。
Azure Data Lake Storage パスへのアクセスをセキュリティで保護する
Azure Data Lake Storage (ADLS) のデータへのアクセスをセキュリティで保護するには、Azure ストレージ アカウント アクセス キー (推奨) または Microsoft Entra ID サービス プリンシパルを使用できます。
Azure ストレージ アカウント アクセス キーを使用する
Spark 構成の一部として、統合クラスターでストレージ アカウントのアクセス キーを構成できます。 ストレージ アカウントが、ステージング データに使用される ADLS コンテナーとファイル システム、Delta Lake テーブルを書き込む ADLS コンテナーとファイル システムにアクセスできることを確認します。 キーを使用するように統合クラスターを構成するには、「Azure Data Lake Storage Gen2 と Blob Storage に接続する」に記載されている手順に従います。
Microsoft Entra ID サービス プリンシパルを使用する
Spark 構成の一部として、Azure Databricks 統合クラスターでサービス プリンシパルを構成できます。 サービス プリンシパルが、ステージング データに使用される ADLS コンテナーと、Delta テーブルを書き込む ADLS コンテナーにアクセスできることを確認します。 サービス プリンシパルを使用する統合クラスターを構成するには、「サービス プリンシパルを使用して ADLS Gen2 にアクセスする」の手順に従います。
クラスター構成の指定
[クラスター モード] を [標準] に設定します。
Databricks Runtime バージョンを Runtime: 6.3 以降に設定します。
Spark 構成に次のプロパティを追加して、最適化された書き込みと自動圧縮を有効にします。
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
統合とスケーリングのニーズに応じて、クラスターを構成します。
クラスター構成の詳細については、「コンピューティング構成リファレンス」を参照してください。
JDBC URL と HTTP パスを取得する手順については、「Azure Databricks コンピューティング リソースの接続の詳細を取得する」を参照してください。
手順 3: クラスターに接続するための JDBC と ODBC の接続の詳細を取得する
Azure Databricks クラスターを StreamSets に接続するには、次の JDBC/ODBC 接続プロパティが必要です。
- JDBC URL
- HTTP パス
手順 4: Azure Databricks の StreamSets を取得する
StreamSets アカウントをまだ持っていない場合は、Databricks の StreamSets にサインアップします。 準備ができたら、無料版とアップグレード版をお使いいただけます。StreamSets DataOps Platform の価格を参照してください。
手順 5: StreamSets を使用して Delta Lake にデータを読み込む方法を学習する
サンプル パイプラインを使用するか、StreamSets ソリューションをチェックアウトして、データを Delta Lake に取り込むパイプラインを構築する方法を学習します。