オブジェクトストレージからライブラリをインストールする

[アーティクル]
04/18/2024

この記事では、クラウドオブジェクトストレージから Azure Databricks にライブラリをインストールするために必要な手順について説明します。

Note

この記事では、クラウドオブジェクトストレージを一般的な概念と呼び、URI を使用してオブジェクトストレージに格納されているデータを直接操作することを前提としています。 Databricks では、Unity Catalog ボリュームを使用して、クラウドオブジェクトストレージ内のファイルへのアクセスを構成することをお勧めします。「ボリュームを作成して操作する」を参照してください。

カスタムの JAR ライブラリと Python Whl ライブラリは、DBFS ルートに格納するのではなく、クラウドオブジェクトストレージに格納できます。ライブラリの互換性の詳細については、「クラスタースコープライブラリ」を参照してください。

重要

Databricks Runtime 14.3 LTS 以下を使用する場合は、DBFS からライブラリをインストールできます。ただし、ワークスペースユーザーは、DBFS に格納されているライブラリファイルを変更できます。 Azure Databricks ワークスペース内のライブラリのセキュリティを向上させるために、Databricks Runtime 15.1 以降では、ライブラリファイルを DBFS ルートに格納することは非推奨となり、既定では無効になっています。「DBFS ルートにライブラリを格納することは非推奨であり、既定では無効になっている」を参照してください。

Databricks は、代わりにワークスペースファイルまたは Unity Catalog ボリュームに Python ライブラリ、JAR ファイル、Spark コネクタを含むすべてのライブラリをアップロードするか、ライブラリパッケージリポジトリを使用することを推奨しています。ワークロードでこれらのパターンがサポートされない場合、クラウドオブジェクトストレージに格納されているライブラリも使用できます。

ライブラリをオブジェクトストレージに読み込む

ライブラリは、他のファイルを読み込むのと同じ方法でオブジェクトストレージに読み込むことができます。新しいオブジェクトストレージコンテナーを作成する、またはクラウドオブジェクトストレージにファイルを読み込むには、クラウドプロバイダーに適切なアクセス許可が必要です。

オブジェクトストレージに読み取り専用アクセス許可を付与する

Databricks では、ライブラリのインストールに関連するすべての権限を読み取り専用のアクセス許可で構成することをお勧めします。

Azure Databricks では、クラウドオブジェクトストレージ内のデータへのアクセスを制御する個々のクラスターにセキュリティアクセス許可を割り当てることができます。これらのポリシーを展開して、ライブラリを含むクラウドオブジェクトストレージへの読み取り専用アクセスを追加できます。

Note

Databricks Runtime 12.2 LTS 以降では、共有アクセスモードのクラスターを使用する場合、JAR ライブラリを読み込むことができません。 Databricks Runtime 13.3 LTS 以降では、JAR ライブラリを Unity Catalog 許可リストに追加する必要があります。「共有コンピューティングの許可リストライブラリと init スクリプト」を参照してください。

Databricks は、Microsoft Entra ID サービスプリンシパルを使用して、Azure Data Lake Storage Gen2 に保存されているライブラリへのアクセスを管理することをお勧めしています。次のリンクされたドキュメントを使用して、このセットアップを完了してください。

目的の BLOB に対する読み取りと一覧表示の権限を持つサービスプリンシパルを作成します。「サービスプリンシパルと Microsoft Entra ID (Azure Active Directory) を使用してストレージにアクセスする」をご覧ください。
シークレットを使用して資格情報を保存します。「シークレット」を参照してください。

次の例のように、クラスターの作成時に Spark 構成と環境変数のプロパティを設定します。

Spark 構成:

spark.hadoop.fs.azure.account.auth.type.<storage-account>.dfs.core.windows.net OAuth
spark.hadoop.fs.azure.account.oauth.provider.type.<storage-account>.dfs.core.windows.net org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider
spark.hadoop.fs.azure.account.oauth2.client.id.<storage-account>.dfs.core.windows.net <application-id>
spark.hadoop.fs.azure.account.oauth2.client.secret.<storage-account>.dfs.core.windows.net {{secrets/<secret-scope>/<service-credential-key>}}
spark.hadoop.fs.azure.account.oauth2.client.endpoint.<storage-account>.dfs.core.windows.net https://login.microsoftonline.com/<tenant-id>/oauth2/token

環境変数:

SERVICE_CREDENTIAL={{secrets/<secret-scope>/<service-credential-key>}}

(省略可能) azcopy または Azure CLI を使用して、init スクリプトをリファクタリングします。

init スクリプト内でクラスター構成中に設定された環境変数を参照して、検証用のシークレットとして格納された資格情報を渡すことができます。

ライブラリをクラスターにインストールする

クラウドオブジェクトストレージに格納されているライブラリをクラスターにインストールするには、次の手順を実行します。

クラスター UI のリストからクラスターを選択します。
[ライブラリ] タブを選択します。
[ファイルパス/ADLS] オプションを選択します。
ライブラリオブジェクトへの完全な URI パスを指定します (例: abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/library.whl)。
[インストール] をクリックします。

REST API または CLI を使用してライブラリをインストールすることもできます。

ライブラリをノートブックにインストールする

%pip を使用して、ノートブックから分離された SparkSession をスコープとするオブジェクトストレージに格納されているカスタム Python ホイールファイルをインストールできます。このメソッドを使用するには、ライブラリをパブリックに読み取り可能なオブジェクトストレージに格納するか、事前署名された URL を使用する必要があります。

「ノートブックスコープの Python ライブラリ」を参照してください。

Note

JAR ライブラリはノートブックにインストールできません。 JAR ライブラリはクラスターレベルでインストールする必要があります。

次の方法で共有

オブジェクトストレージからライブラリをインストールする

ライブラリをオブジェクトストレージに読み込む

オブジェクトストレージに読み取り専用アクセス許可を付与する

ライブラリをクラスターにインストールする

ライブラリをノートブックにインストールする

フィードバック

その他のリソース

次の方法で共有

オブジェクト ストレージからライブラリをインストールする

ライブラリをオブジェクト ストレージに読み込む

オブジェクト ストレージに読み取り専用アクセス許可を付与する

ライブラリをクラスターにインストールする

ライブラリをノートブックにインストールする

フィードバック

その他のリソース

オブジェクトストレージからライブラリをインストールする

ライブラリをオブジェクトストレージに読み込む

オブジェクトストレージに読み取り専用アクセス許可を付与する