クラスタースコープの init スクリプトを使用する

[アーティクル]
03/04/2024

クラスタースコープの init スクリプトは、クラスター構成で定義されている init スクリプトです。クラスタースコープの init スクリプトは、作成するクラスターとジョブを実行するために作成されたクラスターの両方に適用されます。

クラスタースコープの init スクリプトは、UI、CLI、および Clusters API を呼び出して構成できます。ここでは、UI を使用してプールタスクを実行する方法について説明します。その他の方法については、Databricks CLI と Clusters API に関するページを参照してください。

任意の数のスクリプトを追加できます。スクリプトは指定された順序で順番に実行されます。

クラスタースコープの init スクリプトが 0 以外の終了コードを返した場合、クラスターの起動は失敗します。クラスターのログ配信を構成し、init スクリプトログを調べることで、クラスタースコープの init スクリプトのトラブルシューティングを行います。「Init スクリプトのログ」を参照してください。

UI を使用してクラスタースコープの init スクリプトを構成する

このセクションでは、Azure Databricks UI を使用して init スクリプトを実行するようにクラスターを構成する手順について説明します。

Databricks では、クラスタースコープの init スクリプトとして、すべての init スクリプトを管理することが推奨されています。共有またはシングルユーザーアクセスモードでコンピューティングを使用している場合は、Unity Catalog ボリュームに init スクリプトを格納します。分離なしの共有アクセスモードでコンピューティングを使用している場合は、init スクリプトにワークスペースファイルを使用します。

共有アクセスモードの場合、allowlist に init スクリプトを追加する必要があります。「共有コンピューティングの許可リストライブラリと init スクリプト」を参照してください。

UI を使用して init スクリプトを実行するようにクラスターを構成するには、次の手順を実行します。

クラスター構成ページで、[詳細オプション] トグルをクリックします。
ページの下部にある [Init Scripts] (Init スクリプト) タブをクリックします。
[ソース] ドロップダウンで、[ワークスペース]、[ボリューム]、または [ABFSS] ソースのタイプを選択します。
次のいずれかの例のように、init スクリプトへのパスを指定します。
- ワークスペースファイルと共にホームディレクトリに格納されている init スクリプトの場合: /Users/<user-name>/<script-name>.sh。
- Unity Catalog ボリュームと共に格納されている init スクリプトの場合: /Volumes/<catalog>/<schema>/<volume>/<path-to-script>/<script-name>.sh。
- オブジェクトストレージと共に格納されている init スクリプトの場合: abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/init-script。
追加をクリックします。

シングルユーザーアクセスモードでは、割り当てられたプリンシパル (ユーザーまたはサービスプリンシパル) の ID が使用されます。

共有アクセスモードでは、クラスター所有者の ID が使用されます。

Note

分離なし共有アクセスモードではボリュームがサポートされませんが、共有アクセスモードと同じ ID 割り当てが使用されます。

クラスター構成からスクリプトを削除するには、スクリプトの右側にあるごみ箱アイコンをクリックします。削除を確定すると、クラスターの再起動を求めるメッセージが表示されます。必要に応じて、アップロードした場所からスクリプトファイルを削除できます。

Note

ABFSS ソースタイプを使用して init スクリプトを構成する場合は、アクセス資格情報を構成する必要があります。

Databricks は、Microsoft Entra ID サービスプリンシパルを使用して、Azure Data Lake Storage Gen2 に保存されている init スクリプトへのアクセスを管理することをお勧めしています。次のリンクされたドキュメントを使用して、このセットアップを完了してください。

目的の BLOB に対する読み取りと一覧表示の権限を持つサービスプリンシパルを作成します。「サービスプリンシパルと Microsoft Entra ID (Azure Active Directory) を使用してストレージにアクセスする」をご覧ください。
シークレットを使用して資格情報を保存します。「シークレット」を参照してください。

次の例のように、クラスターの作成時に Spark 構成と環境変数のプロパティを設定します。

Spark 構成:

spark.hadoop.fs.azure.account.auth.type.<storage-account>.dfs.core.windows.net OAuth
spark.hadoop.fs.azure.account.oauth.provider.type.<storage-account>.dfs.core.windows.net org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider
spark.hadoop.fs.azure.account.oauth2.client.id.<storage-account>.dfs.core.windows.net <application-id>
spark.hadoop.fs.azure.account.oauth2.client.secret.<storage-account>.dfs.core.windows.net {{secrets/<secret-scope>/<service-credential-key>}}
spark.hadoop.fs.azure.account.oauth2.client.endpoint.<storage-account>.dfs.core.windows.net https://login.microsoftonline.com/<tenant-id>/oauth2/token

環境変数:

SERVICE_CREDENTIAL={{secrets/<secret-scope>/<service-credential-key>}}

(省略可能) azcopy または Azure CLI を使用して、init スクリプトをリファクタリングします。

init スクリプト内でクラスター構成中に設定された環境変数を参照して、検証用のシークレットとして格納された資格情報を渡すことができます。

警告

DBFS のクラスタースコープの init スクリプトはサポートが終了しました。一部のワークスペースでは、レガシワークロードをサポートするために UI に DBFS オプションが存在していますが、これは推奨されません。 DBFS に格納されているすべての init スクリプトを移行する必要があります。移行手順については、「DBFS から init スクリプトを移行する」を参照してください。

クラスタースコープの init スクリプトのトラブルシューティング

スクリプトは、構成された場所に存在する必要があります。スクリプトが存在しない場合は、クラスターの起動や Executor のスケールアップを試みると、失敗します。
init スクリプトは 64 KB より大きくすることはできません。スクリプトがこのサイズを超えると、クラスターの起動に失敗し、クラスターログにエラーメッセージが表示されます。

次の方法で共有

クラスタースコープの init スクリプトを使用する

UI を使用してクラスタースコープの init スクリプトを構成する

クラスタースコープの init スクリプトのトラブルシューティング

フィードバック

その他のリソース

次の方法で共有

クラスター スコープの init スクリプトを使用する

UI を使用してクラスター スコープの init スクリプトを構成する

クラスター スコープの init スクリプトのトラブルシューティング

フィードバック

その他のリソース

クラスタースコープの init スクリプトを使用する

UI を使用してクラスタースコープの init スクリプトを構成する

クラスタースコープの init スクリプトのトラブルシューティング