Google Cloud Storage に接続する

[アーティクル]
02/14/2025

この記事では、Google Cloud Storage (GCS) に格納されているテーブルとデータの読み取りと書き込みを行うために、Azure Databricks からの接続を構成する方法について説明します。

GCS バケットから読み取りまたは書き込みを行うには、アタッチされたサービスアカウントを作成し、バケットをそのサービスアカウントに関連付ける必要があります。サービスアカウント用に生成したキーを使用してバケットに直接接続します。

Google クラウドサービスアカウントキーを使用して GCS バケットに直接アクセスする

バケットの読み取りと書き込みを直接行うには、Spark の構成で定義されているキーを構成します。

手順 1: Google Cloud Console を使用して Google Cloud サービスアカウントを設定する

Azure Databricks クラスターのサービスアカウントを作成する必要があります。 Databricks では、タスクを実行するために必要な最小限の特権をこのサービスアカウントに付与することをお勧めします。

左側のナビゲーションウィンドウで [IAM and Admin](IAM と管理) をクリックします。
[サービスアカウント] をクリックします。
[+ CREATE SERVICE ACCOUNT](サービスアカウントの作成) をクリックします。
サービスアカウント名と説明を入力します。
[作成] をクリックします。
[続行] をクリックします。
[完了] をクリックします。

ステップ 2: GCS バケットに直接アクセスするためのキーを作成する

警告

サービスアカウント用に生成する JSON キーは秘密キーであり、Google Cloud アカウント内のデータセットとリソースへのアクセスを制御するため、承認されたユーザーとのみ共有する必要があります。

Google Cloud コンソールのサービスアカウントの一覧で、新しく作成したアカウントをクリックします。
[キー] セクションで、[ADD KEY](キーの追加)>[新しいキーを作成する] をクリックします。
JSON キーの種類をそのまま使用します。
[作成] をクリックします。キーファイルがコンピューターにダウンロードされます。

ステップ 3: GCS バケットを構成する

バケットを作成する

まだバケットがない場合は、バケットを作成します。

左側のナビゲーションウィンドウで [ストレージ] をクリックします。
[CREATE BUCKET](バケットの作成) をクリックします。
[作成] をクリックします。

バケットを構成する

バケットの詳細を構成します。
[Permissions] タブをクリックします。
[アクセス許可] ラベルの横にある [追加] をクリックします。
Cloud Storage ロールから、バケット上のサービスアカウントにストレージ管理アクセス許可を付与します。
[保存] をクリックします。

ステップ 4: Databricks シークレットにサービスアカウントキーを配置する

Databricks では、すべての資格情報の格納にシークレットスコープを使うことをお勧めします。キー JSON ファイルから Databricks シークレットスコープに秘密キーと秘密キー ID を配置できます。ワークスペース内のユーザー、サービスプリンシパル、グループにシークレットスコープを読み取るアクセス権を付与することができます。これにより、ユーザーが GCS にアクセスできるようにしながら、アカウントキーキーが保護されます。シークレットスコープを作成するには、管理シークレットを参照してください。

ステップ 5: Azure Databricks クラスターを構成する

[Spark Config] タブで、グローバル構成またはバケットごとの構成を設定します。次の例では、Databricks シークレットとして格納されている値を使用してキーを設定します。

Note

サービスアカウントと GCS バケット内のデータへのアクセスを保護するには、クラスターのアクセス制御とノートブックのアクセス制御を使用します。「コンピューティングのアクセス許可」と「Databricks ノートブックを使用して共同作業する」をご覧ください。

グローバル構成

指定された認証情報を使用してすべてのバケットにアクセスする必要がある場合は、この構成を使用します。

spark.hadoop.google.cloud.auth.service.account.enable true
spark.hadoop.fs.gs.auth.service.account.email <client-email>
spark.hadoop.fs.gs.project.id <project-id>
spark.hadoop.fs.gs.auth.service.account.private.key {{secrets/scope/gsa_private_key}}
spark.hadoop.fs.gs.auth.service.account.private.key.id {{secrets/scope/gsa_private_key_id}}

<client-email>、<project-id> を、キー JSON ファイルの正確なフィールド名の値に置き換えます。

バケットごとの構成

特定のバケットの認証情報を構成する必要がある場合は、この構成を使用します。バケットごとの構成の構文では、次の例のように、各構成の末尾にバケット名が追加されます。

重要

グローバルな設定に加え、バケットごとの構成も使用できます。バケットごとの構成を指定すると、グローバル構成よりも優先されます。

spark.hadoop.google.cloud.auth.service.account.enable.<bucket-name> true
spark.hadoop.fs.gs.auth.service.account.email.<bucket-name> <client-email>
spark.hadoop.fs.gs.project.id.<bucket-name> <project-id>
spark.hadoop.fs.gs.auth.service.account.private.key.<bucket-name> {{secrets/scope/gsa_private_key}}
spark.hadoop.fs.gs.auth.service.account.private.key.id.<bucket-name> {{secrets/scope/gsa_private_key_id}}

<client-email>、<project-id> を、キー JSON ファイルの正確なフィールド名の値に置き換えます。

ステップ 6: GCS から読み取る

GCS バケットから読み取る場合は、次の例のように、サポートされている任意の形式で Spark の読み取りコマンドを使用します。

df = spark.read.format("parquet").load("gs://<bucket-name>/<path>")

GCS バケットに書き込む場合は、次の例のように、サポートされている任意の形式で Spark の書き込みコマンドを使用します。

df.write.mode("<mode>").save("gs://<bucket-name>/<path>")

<bucket-name> は、「ステップ 3: GCS バケットを構成する」で作成したバケットの名前に置き換えます。

次の方法で共有

Google Cloud Storage に接続する

Google クラウドサービスアカウントキーを使用して GCS バケットに直接アクセスする

手順 1: Google Cloud Console を使用して Google Cloud サービスアカウントを設定する

ステップ 2: GCS バケットに直接アクセスするためのキーを作成する

ステップ 3: GCS バケットを構成する

バケットを作成する

バケットを構成する

ステップ 4: Databricks シークレットにサービスアカウントキーを配置する

ステップ 5: Azure Databricks クラスターを構成する

グローバル構成

バケットごとの構成

ステップ 6: GCS から読み取る

サンプルの Notebook

Google Cloud Storage ノートブックから読み取る

Google Cloud Storage ノートブックに書き込む

フィードバック

その他のリソース

次の方法で共有

Google Cloud Storage に接続する

Google クラウド サービス アカウント キーを使用して GCS バケットに直接アクセスする

手順 1: Google Cloud Console を使用して Google Cloud サービス アカウントを設定する

ステップ 2: GCS バケットに直接アクセスするためのキーを作成する

ステップ 3: GCS バケットを構成する

バケットを作成する

バケットを構成する

ステップ 4: Databricks シークレットにサービス アカウント キーを配置する

ステップ 5: Azure Databricks クラスターを構成する

グローバル構成

バケットごとの構成

ステップ 6: GCS から読み取る

サンプルの Notebook

Google Cloud Storage ノートブックから読み取る

Google Cloud Storage ノートブックに書き込む

フィードバック

その他のリソース

Google クラウドサービスアカウントキーを使用して GCS バケットに直接アクセスする

手順 1: Google Cloud Console を使用して Google Cloud サービスアカウントを設定する

ステップ 4: Databricks シークレットにサービスアカウントキーを配置する