サーバーレスコンピューティングのベストプラクティス

[アーティクル]
08/09/2024

この記事では、ノートブックとジョブでサーバーレスコンピューティングを使用するためのベストプラクティスの推奨事項について説明します。

これらの推奨事項に従うことで、Azure Databricks でのワークロードの生産性、コスト効率、信頼性が向上します。

サーバーレスコンピューティングへのワークロードの移行

サーバーレスコンピューティングでは、ユーザーコードの分離を保護するために、Azure Databricks セキュア共有アクセスモードを利用します。このため、一部のワークロードでは、サーバーレスコンピューティングでの作業を継続するためにコードの変更が必要になります。サポートされていない機能の一覧については、「サーバーレスコンピューティングの制限事項」を参照してください。

特定のワークロードは、他のワークロードよりも移行が簡単です。次の要件を満たすワークロードは、移行が最も簡単です。

アクセスするデータは Unity Catalog に格納する必要があります。
ワークロードは、共有アクセスモードコンピューティングと互換性がある必要があります。
ワークロードは、Databricks Runtime 14.3 以上と互換性がある必要があります。

ワークロードがサーバーレスコンピューティングで動作するかどうかをテストするには、共有アクセスモードと 14.3 以上の Databricks Runtime を使用して、非サーバーレスコンピューティングリソースで実行します。実行が成功した場合、ワークロードの移行準備はできています。

この変更の重要性と現在の制限事項の一覧により、多くのワークロードはシームレスに移行されません。 Azure Databricks では、すべてを再コーディングする代わりに、新しいワークロードを作成するときにサーバーレスコンピューティングの互換性を優先することをお勧めします。

外部システムからのデータの取り込み

サーバーレスコンピューティングでは JAR ファイルのインストールがサポートされていないため、JDBC や ODBC ドライバーを使用して外部データソースからデータを取り込むことはできません。

インジェストに使用できる代替戦略には以下が含まれます。

COPY INTO やストリーミングテーブルなどの SQL ベースの構成要素。
新しいデータファイルがクラウドストレージに到着すると、それらを段階的かつ効率的に処理する自動ローダー。「自動ローダー」を参照してください。
データインジェストパートナーソリューション。「Partner Connect を使用してインジェストパートナーに接続する」を参照してください。
ファイルを直接アップロードするためのデータ追加 UI。「Azure Databricks にファイルをアップロードする」を参照してください。

取り込みの代替手段

サーバーレスコンピューティングを使う場合は、次の機能を使用して、データを移動せずにクエリを実行することもできます。

データの重複を制限するか、可能な限り最新のデータに対してクエリを実行することを保証する場合、Databricks では Delta Sharing を使用することをお勧めします。「Delta Sharing とは」を参照してください。
カスタムレポートと概念実証作業を行う場合、Databricks では適切な選択肢 (Lakehouse フェデレーションである可能性がある) を試すことをお勧めします。 Lakehouse フェデレーションは、外部システムからデータベース全体を Azure Databricks に同期することを可能にし、Unity Catalog によって管理されます。「Lakehouse フェデレーションとは」をご覧ください。

これらの機能のいずれかまたは両方を試して、クエリのパフォーマンス要件を満たしているかどうかを確認します。

サーバーレスコンピューティングのコストを監視する

アカウントのサーバーレスコンピューティングの使用コストの監視に役立つ課金対象の使用状況システムテーブル (パブリックプレビュー) を使用できます。詳細については、「サーバーレスコンピューティングのコストを監視する」を参照してください。

次の方法で共有

サーバーレスコンピューティングのベストプラクティス

サーバーレスコンピューティングへのワークロードの移行

外部システムからのデータの取り込み

取り込みの代替手段

サーバーレスコンピューティングのコストを監視する

フィードバック

その他のリソース

次の方法で共有

サーバーレス コンピューティングのベスト プラクティス

サーバーレス コンピューティングへのワークロードの移行

外部システムからのデータの取り込み

取り込みの代替手段

サーバーレス コンピューティングのコストを監視する

フィードバック

その他のリソース

サーバーレスコンピューティングのベストプラクティス

サーバーレスコンピューティングへのワークロードの移行

サーバーレスコンピューティングのコストを監視する