Compute

Azure Databricks コンピューティングとは、Azure Databricks ワークスペースで使用できるコンピューティング リソースの選択を指します。 ユーザーは、Data Engineering、データ サイエンス、Data Analytics ワークロード (運用環境 ETL パイプライン、ストリーミング分析、アドホック分析、機械学習など) を実行できるコンピューティングへのアクセスが必要です。

ユーザーは、既存のコンピューティングに接続するか、適切なアクセス許可がある場合は新しいコンピューティングを作成できます。

ワークスペースの [コンピューティング] セクションを使用して、アクセスできるコンピューティングを表示できます。

Databricks ワークスペースの [汎用コンピューティング] ページ

コンピューティングの種類

Azure Databricks で使用できるコンピューティングの種類は次のとおりです。

  • ノートブック用のサーバーレス コンピューティング (パブリック プレビュー): ノートブックで SQL および Python コードを実行するために使用されるオンデマンドでスケーラブルなコンピューティング。

  • ワークフロー用のサーバーレス コンピューティング (パブリック プレビュー): インフラストラクチャを構成およびデプロイせずに Databricks ジョブを実行するために使用されるオンデマンドでスケーラブルなコンピューティング。

  • 汎用コンピューティング: ノートブック内のデータを分析するために使用されるプロビジョニングされたコンピューティング。 このコンピューティングは、UI、CLI、または REST API を使って作成、終了、再起動できます。

  • ジョブ コンピューティング: 自動ジョブの実行に使用されるプロビジョニングされたコンピューティング。 Azure Databricks ジョブ スケジューラは、新しいコンピューティングで実行するようにジョブが構成されるたびに、ジョブ コンピューティングを自動的に作成します。 そのコンピューティングは、ジョブが完了すると終了します。 ジョブ コンピューティングを再起動することは "できません"。ジョブで Azure Databricks コンピューティングを使用する」を参照してください。

  • インスタンス プール: アイドル状態ですぐに使用できるインスタンスを含むコンピューティングであり、起動と自動スケールの時間を短縮するために使用します。 このコンピューティングは、UI、CLI、または REST API を使って作成できます。

  • サーバーレス SQL ウェアハウス: SQL エディターまたは対話型ノートブックでデータ オブジェクトに対して SQL コマンドを実行するために使われるオンデマンドのエラスティック コンピューティング。 SQL ウェアハウスは UI、CLI、または REST API を使って作成できます。

  • クラシック SQL ウェアハウス: SQL エディターまたは対話型ノートブック内でデータ オブジェクトに対して SQL コマンドを実行するために使用されます。 SQL ウェアハウスは UI、CLI、または REST API を使って作成できます。

このセクションの記事では、Azure Databricks UI を使ってコンピューティング リソースを操作する方法を説明しています。 その他の方法については、「Databricks CLI とは?」と「Databricks REST API リファレンス」を参照してください。

Databricks Runtime

Databricks Runtime は、コンピューティングで実行されるコア コンポーネントのセットです。 Databricks Runtime は、汎用的に構成可能なジョブ コンピューティングの設定ですが、SQL ウェアハウスでは自動選択されます。

Databricks Runtime の各バージョンには、使用性、パフォーマンス、ビッグ データ分析のセキュリティを向上させる更新プログラムが含まれています。 コンピューティング上の Databricks Runtime によって、次のような多くの機能が追加されます。

  • Delta Lake は、Apache Spark 上に構築された次世代ストレージ レイヤーです。ACID トランザクション、最適化されたレイアウトとインデックス、およびデータ パイプラインを構築するための実行エンジンの機能強化を提供します。 「Delta Lake とは」を参照してください。
  • インストールされている Java、Scala、Python、R ライブラリ。
  • Ubuntu とそれに付随するシステム ライブラリ。
  • GPU 対応クラスター用の GPU ライブラリ。
  • ノートブック、ジョブ、クラスター管理など、プラットフォームの他のコンポーネントと統合される Azure Databricks サービス。

各ランタイム バージョンの内容については、リリース ノートを参照してください。

ランタイムのバージョン管理

Databricks Runtime のバージョンは、定期的にリリースされます。

  • 長期サポート バージョンは、LTS 修飾子 (たとえば、3.5 LTS など) で表されます。 メジャー リリースごとに、"正規の" フィーチャー バージョンが宣言されます。このバージョンには、丸 3 年間のサポートが提供されます。 詳細については、「Databricks ランタイム サポート ライフサイクル」を参照してください。
  • メジャー バージョンは、小数点の前のバージョン番号の増分 (たとえば、3.5 から 4.0 へのジャンプ) で表されます。 これらは、大きな変更がある場合にリリースされます。その一部は、下位互換性がない可能性があります。
  • フィーチャー バージョンは、小数点以下のバージョン番号の増分 (たとえば、3.4 から 3.5 へのジャンプ) で表されます。 各メジャー リリースには、複数のフィーチャー リリースが含まれています。 フィーチャー リリースは、メジャー リリース内の以前のリリースとの間に、常に下位互換性があります。

サーバーレス コンピューティングとは

サーバーレス コンピューティングでは、次の方法で生産性、コスト効率、信頼性を向上させています。

  • 生産性: クラウド リソースは Azure Databricks によって管理されます。これにより管理オーバーヘッドが削減され、ユーザーの生産性を向上させるためのインスタント コンピューティングを提供します。
  • 効率: サーバーレス コンピューティングにより、迅速な起動とスケーリング時間がもたらされ、アイドル時間を最小限に抑え、使用するコンピューティングに対してのみ課金されることが確実になります。
  • 信頼性: サーバーレス コンピューティングでは、容量処理、セキュリティ、修正プログラムの適用、アップグレードが自動的に管理されるため、セキュリティ ポリシーと容量不足に関する懸念が軽減されます。

サーバーレス SQL ウェアハウスとは

Databricks SQL により、サーバーレス SQL ウェアハウスで最適な価格とパフォーマンスが提供されます。 プロ モデルおよびクラシック モデルに対して、サーバーレス ウェアハウスには主に次のような利点があります。

  • インスタントでエラスティックなコンピューティング: インフラストラクチャ リソースに対する待機の必要がなく、使用量の急増中のリソースの過剰なプロビジョニングが回避されます。 インテリジェントなワークロード管理により、スケーリングが動的に処理されます。 インテリジェントなワークロード管理とその他のサーバーレス機能の詳細については、「SQL ウェアハウスの種類」を参照してください。
  • 最小限の管理オーバーヘッド: 容量管理、修正プログラムの適用、アップグレード、パフォーマンスの最適化はすべて Azure Databricks によって処理され、これにより運用が簡素化され、価格の予測可能性につながります。
  • 総保有コスト (TCO) の低減: 必要に応じてリソースの自動プロビジョニングとスケーリングが行われることで、過剰なプロビジョニングを回避し、アイドル時間が短縮され、TCO が削減されます。