Compute

[アーティクル]
05/27/2024

Azure Databricks コンピューティングとは、Azure Databricks ワークスペースで使用できるコンピューティングリソースの選択を指します。ユーザーは、Data Engineering、データサイエンス、Data Analytics ワークロード (運用環境 ETL パイプライン、ストリーミング分析、アドホック分析、機械学習など) を実行できるコンピューティングへのアクセスが必要です。

ユーザーは、既存のコンピューティングに接続するか、適切なアクセス許可がある場合は新しいコンピューティングを作成できます。

ワークスペースの [コンピューティング] セクションを使用して、アクセスできるコンピューティングを表示できます。

Databricks ワークスペースの [汎用コンピューティング] ページ

コンピューティングの種類

Azure Databricks で使用できるコンピューティングの種類は次のとおりです。

ノートブック用のサーバーレスコンピューティング (パブリックプレビュー): ノートブックで SQL および Python コードを実行するために使用されるオンデマンドでスケーラブルなコンピューティング。
ワークフロー用のサーバーレスコンピューティング (パブリックプレビュー): インフラストラクチャを構成およびデプロイせずに Databricks ジョブを実行するために使用されるオンデマンドでスケーラブルなコンピューティング。
汎用コンピューティング: ノートブック内のデータを分析するために使用されるプロビジョニングされたコンピューティング。このコンピューティングは、UI、CLI、または REST API を使って作成、終了、再起動できます。
ジョブコンピューティング: 自動ジョブの実行に使用されるプロビジョニングされたコンピューティング。 Azure Databricks ジョブスケジューラは、新しいコンピューティングで実行するようにジョブが構成されるたびに、ジョブコンピューティングを自動的に作成します。そのコンピューティングは、ジョブが完了すると終了します。ジョブコンピューティングを再起動することは "できません"。「ジョブで Azure Databricks コンピューティングを使用する」を参照してください。
インスタンスプール: アイドル状態ですぐに使用できるインスタンスを含むコンピューティングであり、起動と自動スケールの時間を短縮するために使用します。このコンピューティングは、UI、CLI、または REST API を使って作成できます。
サーバーレス SQL ウェアハウス: SQL エディターまたは対話型ノートブックでデータオブジェクトに対して SQL コマンドを実行するために使われるオンデマンドのエラスティックコンピューティング。 SQL ウェアハウスは UI、CLI、または REST API を使って作成できます。
クラシック SQL ウェアハウス: SQL エディターまたは対話型ノートブック内でデータオブジェクトに対して SQL コマンドを実行するために使用されます。 SQL ウェアハウスは UI、CLI、または REST API を使って作成できます。

このセクションの記事では、Azure Databricks UI を使ってコンピューティングリソースを操作する方法を説明しています。その他の方法については、「Databricks CLI とは?」と「Databricks REST API リファレンス」を参照してください。

Databricks Runtime

Databricks Runtime は、コンピューティングで実行されるコアコンポーネントのセットです。 Databricks Runtime は、汎用的に構成可能なジョブコンピューティングの設定ですが、SQL ウェアハウスでは自動選択されます。

Databricks Runtime の各バージョンには、使用性、パフォーマンス、ビッグデータ分析のセキュリティを向上させる更新プログラムが含まれています。コンピューティング上の Databricks Runtime によって、次のような多くの機能が追加されます。

Delta Lake は、Apache Spark 上に構築された次世代ストレージレイヤーです。ACID トランザクション、最適化されたレイアウトとインデックス、およびデータパイプラインを構築するための実行エンジンの機能強化を提供します。「Delta Lake とは」を参照してください。
インストールされている Java、Scala、Python、R ライブラリ。
Ubuntu とそれに付随するシステムライブラリ。
GPU 対応クラスター用の GPU ライブラリ。
ノートブック、ジョブ、クラスター管理など、プラットフォームの他のコンポーネントと統合される Azure Databricks サービス。

各ランタイムバージョンの内容については、リリースノートを参照してください。

ランタイムのバージョン管理

Databricks Runtime のバージョンは、定期的にリリースされます。

長期サポート バージョンは、LTS 修飾子 (たとえば、3.5 LTS など) で表されます。メジャーリリースごとに、"正規の" フィーチャーバージョンが宣言されます。このバージョンには、丸 3 年間のサポートが提供されます。詳細については、「Databricks ランタイムサポートライフサイクル」を参照してください。
メジャー バージョンは、小数点の前のバージョン番号の増分 (たとえば、3.5 から 4.0 へのジャンプ) で表されます。これらは、大きな変更がある場合にリリースされます。その一部は、下位互換性がない可能性があります。
フィーチャー バージョンは、小数点以下のバージョン番号の増分 (たとえば、3.4 から 3.5 へのジャンプ) で表されます。各メジャーリリースには、複数のフィーチャーリリースが含まれています。フィーチャーリリースは、メジャーリリース内の以前のリリースとの間に、常に下位互換性があります。

サーバーレスコンピューティングとは

サーバーレスコンピューティングでは、次の方法で生産性、コスト効率、信頼性を向上させています。

生産性: クラウドリソースは Azure Databricks によって管理されます。これにより管理オーバーヘッドが削減され、ユーザーの生産性を向上させるためのインスタントコンピューティングを提供します。
効率: サーバーレスコンピューティングにより、迅速な起動とスケーリング時間がもたらされ、アイドル時間を最小限に抑え、使用するコンピューティングに対してのみ課金されることが確実になります。
信頼性: サーバーレスコンピューティングでは、容量処理、セキュリティ、修正プログラムの適用、アップグレードが自動的に管理されるため、セキュリティポリシーと容量不足に関する懸念が軽減されます。

サーバーレス SQL ウェアハウスとは

Databricks SQL により、サーバーレス SQL ウェアハウスで最適な価格とパフォーマンスが提供されます。プロモデルおよびクラシックモデルに対して、サーバーレスウェアハウスには主に次のような利点があります。

インスタントでエラスティックなコンピューティング: インフラストラクチャリソースに対する待機の必要がなく、使用量の急増中のリソースの過剰なプロビジョニングが回避されます。インテリジェントなワークロード管理により、スケーリングが動的に処理されます。インテリジェントなワークロード管理とその他のサーバーレス機能の詳細については、「SQL ウェアハウスの種類」を参照してください。
最小限の管理オーバーヘッド: 容量管理、修正プログラムの適用、アップグレード、パフォーマンスの最適化はすべて Azure Databricks によって処理され、これにより運用が簡素化され、価格の予測可能性につながります。
総保有コスト (TCO) の低減: 必要に応じてリソースの自動プロビジョニングとスケーリングが行われることで、過剰なプロビジョニングを回避し、アイドル時間が短縮され、TCO が削減されます。

次の方法で共有

Compute

コンピューティングの種類

Databricks Runtime

ランタイムのバージョン管理

サーバーレスコンピューティングとは

サーバーレス SQL ウェアハウスとは

フィードバック

フィードバック

その他のリソース

次の方法で共有

Compute

コンピューティングの種類

Databricks Runtime

ランタイムのバージョン管理

サーバーレス コンピューティングとは

サーバーレス SQL ウェアハウスとは

フィードバック

フィードバック

その他のリソース

サーバーレスコンピューティングとは