Azure Databricks の概念

この記事では、Azure Databricks ワークスペースを効果的に使用するために理解する必要がある基本的な概念について紹介します。

アカウントとワークスペース

Azure Databricks では、"ワークスペース" はクラウド内の Azure Databricks デプロイであり、チームが Databricks 資産にアクセスするための環境として機能します。 組織は、ニーズに応じて、保持するワークスペースを複数にするか 1 つのみにするか選べます。

Azure Databricks "アカウント" は、複数のワークスペースを含めることができる 1 つのエンティティを表します。 Unity Catalog に対して有効になっているアカウントを使用すると、アカウント内のすべてのワークスペースでユーザーと各自のデータへのアクセス権を一元的に管理できます。

課金: Databricks のユニット (DBU)

Azure Databricks の課金は、VM インスタンスの種類に基づく 1 時間あたりの処理能力の単位である Databricks ユニット (DBU) に基づいています。

Azure Databricks の価格に関するページを参照してください。

認証と権限承認

このセクションでは、Azure Databricks の ID およびその Azure Databricks アセットへのアクセスを管理するために知っておく必要がある概念について説明します。

User

システムにアクセスできる一意の個人。 ユーザー ID は電子メール アドレスで表されます。 「ユーザーの管理」を参照してください。

サービス プリンシパル

ジョブ、自動化ツール、システム (スクリプト、アプリ、CI/CD プラットフォームなど) での使用を目的に作成されたサービス ID です。 サービス プリンシパルは、アプリケーション ID で表されます。 「サービス プリンシパルを管理する」を参照してください。

Group

ID のコレクション。 グループを使用すると、ID 管理が簡素化され、ワークスペース、データ、およびその他のセキュリティ保護可能なオブジェクトへのアクセスを簡単に割り当てることができます。 すべての Databricks ID は、グループのメンバーとして割り当てることができます。 「グループの管理」を参照してください。

アクセス制御リスト (ACL)

ワークスペース、クラスター、ジョブ、テーブル、または実験に関連付けられたアクセス許可の一覧。 ACL は、オブジェクトへのアクセスを許可されたユーザーまたはシステム プロセスと、アセットに対して許可される操作を指定します。 一般的な ACL の各エントリでは、サブジェクトと操作が指定されます。 「アクセス制御リスト」を参照してください。

個人用アクセス トークン (PAT)

個人用アクセス トークンは、REST API 呼び出し、テクノロジ パートナー接続、その他のツールの認証に使用される文字列です。 「Azure Databricks 個人用アクセス トークン認証」をご覧ください。

Microsoft Entra ID (旧称 Azure Active Directory) トークンを使って、REST API に対する認証を行うこともできます。

Azure Databricks のインターフェイス

このセクションでは、Azure Databricks 内の資産にアクセスするためのインターフェイスについて説明します。

UI

Azure Databricks UI は、ワークスペース フォルダーとそこに格納されているオブジェクト、データ オブジェクト、計算リソースなどの機能を操作するためグラフィカル インターフェイスです。

REST API

Databricks REST API では、Azure Databricks アカウントとワークスペース オブジェクトに関する情報を変更または要求するためのエンドポイントを提供します。 アカウント リファレンスワークスペース リファレンスに関する記事を参照してください。

SQL REST API

SQL オブジェクトに対するタスクを自動化できるようにするための SQL REST API。 SQL API に関するページを参照してください。

CLI

Databricks CLI は、GitHub でホストされています。 CLI は、Databricks REST API 上に構築されています。

データ管理

このセクションでは、機械学習アルゴリズムにフィードするデータを保存し、分析を行う論理オブジェクトについて説明します。 また、データ オブジェクトを探索および管理するためのプラットフォーム内 UI についても説明します。

Unity Catalog

Unity Catalog は Azure Databricks のデータと AI 資産の統合ガバナンス ソリューションであり、Databricks ワークスペースにわたって一元的なアクセス制御、監査、系列、データ検出の機能を提供します。 「Unity Catalog とは」を参照してください。

DBFS ルート

重要

DBFS ルートまたは DBFS マウントを使用したデータの保存とアクセスは非推奨のパターンであり、Databricks では推奨されません。 代わりに、Databricks では、Unity Catalog を使用してすべてのデータへのアクセスを管理することをお勧めします。 「Unity Catalog とは」を参照してください。

DBFS ルートは、既定ですべてのユーザーが使用できる保存場所です。 「DBFS とは」を参照してください。

カタログ エクスプローラー

カタログ エクスプローラーでは、スキーマ (データベース)、テーブル、モデル、ボリューム (表形式以外のデータ)、関数、登録済み ML モデルなどのデータと AI 資産を探索および管理できます。 データ オブジェクトや所有者の検索、テーブル間のデータ リレーションシップの把握、アクセス許可と共有の管理に使用できます。 「カタログ エクスプローラーとは」を参照してください。

データベース

テーブルやビュー、関数などのデータ オブジェクトのコレクション。簡単にアクセス、管理、更新できるように整理されています。 「データベースとは」参照してください

テーブル

構造化データの表現。 Apache Spark SQL および Apache Spark API を使用してテーブルに対してクエリを実行します。 「テーブルとは」を参照してください。

Delta テーブル

既定では、Azure Databricks で作成されたテーブルはすべて Delta テーブルです。 Delta テーブルは Delta Lake オープンソース プロジェクトに基づいており、クラウド オブジェクト ストア上のハイ パフォーマンスな ACID テーブル ストレージ用のフレームワークです。 Delta テーブルは、クラウド オブジェクト ストレージ上のファイルのディレクトリとしてデータを格納し、カタログとスキーマ内のメタストアにテーブル メタデータを登録します。

Delta としてブランド化されたテクノロジに関する詳細を確認してください。

メタストア

列と列タイプの情報、データの読み取りおよび書き込みに必要なシリアライザーと逆シリアライザー、データが保存されている対応ファイルなど、データ ウェアハウス内のさまざまなテーブルおよびパーティションのすべての構造情報を保存するコンポーネント。 「メタストアとは」を参照してください

それぞれの Azure Databricks デプロイには、テーブル メタデータを保持するためにすべてのクラスターからアクセス可能な中央の Hive メタストアがあります。 既存の外部 Hive メタストアを使用することもできます。

計算管理

このセクションでは、Azure Databricks で計算を実行するために知る必要がある概念について説明します。

クラスター

ノートブックとジョブを実行する計算リソースと構成のセット。 クラスターには、汎用とジョブの 2 種類があります。 「コンピューティング」を参照してください。

  • "汎用クラスター" は UI、CLI、または REST API を使用して作成します。 汎用クラスターは手動で終了および再起動できます。 複数のユーザーでこのようなクラスターを共有して、共同作業による対話型分析を行うことができます。
  • Azure Databricks ジョブ スケジューラーでは、ユーザーが "新しいジョブ クラスター" でジョブを実行すると "ジョブ クラスター" が作成され、ジョブが完了するとクラスターが終了します。 ジョブ クラスターを再起動することは "できません"。

プール

クラスターの開始と自動スケーリングの時間を短縮する、アイドル状態のすぐに使用できるインスタンスのセット。 プールに接続されたクラスターは、そのドライバーとワーカー ノードをプールから割り当てます。 「プール構成リファレンス」を参照してください。

プールに、クラスターの要求に対応するための十分なアイドル状態のリソースがない場合は、インスタンス プロバイダーから新しいインスタンスを割り当てることによってプールが拡張されます。 接続されたクラスターが終了すると、使用されたインスタンスがプールに返され、別のクラスターで再利用できるようになります。

Databricks ランタイム

Azure Databricks によって管理されるクラスターで実行されるコア コンポーネントのセット。 「コンピューティング」を参照してください。 Azure Databricks には次のランタイムがあります。

  • Databricks Runtime には Apache Spark が含まれていますが、ビッグ データ分析の使いやすさ、パフォーマンス、セキュリティを大幅に向上させる多くのコンポーネントと更新プログラムも追加されています。
  • Databricks Runtime for Machine Learning は Databricks Runtime 上に構築されており、Azure Databricks ワークスペースのすべての機能と統合された事前構築済みの機械学習インフラストラクチャを提供します。 TensorFlow、Keras、PyTorch、XGBoost など、複数の一般的なライブラリが含まれています。

Workflows

データ処理パイプラインを開発して実行するフレームワーク:

  • ジョブ: ノートブックまたはライブラリをすぐにまたはスケジュールに基づいて実行するための非対話型メカニズム。
  • Delta Live Tables: 信頼性が高く、保守が容易で、テスト可能なデータ処理パイプラインを構築するためのフレームワーク。

Azure Databricks ワークフローの概要」を参照してください。

ワークロード

ワークロードは、タスクまたはタスク グループを実行するために必要な処理能力の量です。 Azure Databricks では、2 種類のワークロード (Data Engineering (ジョブ) と Data Analytics (汎用)) が識別されます。

  • Data Engineering (自動化された) ワークロードは、各ワークロード用に Azure Databricks ジョブ スケジューラにより作成される "ジョブ クラスター" で実行されます。
  • Data Analytics (対話型) ワークロードは、"汎用クラスター" で実行されます。 対話型ワークロードは、通常、Azure Databricks ノートブック内でコマンドを実行します。 ただし、"既存の汎用" クラスターで "ジョブ" を実行する場合も、対話型ワークロードとして扱われます。

実行コンテキスト

サポートされている各プログラミング言語の read–eval–print loop (REPL) 環境の状態。 サポートされている言語は、Python、R、Scala、SQL です。

Data Engineering

Data Engineering ツールは、データ サイエンティスト、データ エンジニア、データ アナリスト、機械学習エンジニア間のコラボレーションを促進します。

ワークスペース

ワークスペースは、すべての Azure Databricks アセットにアクセスするための環境です。 ワークスペースでは、オブジェクト (ノートブック、ライブラリ、ダッシュボード、実験) がフォルダーに整理され、データ オブジェクトおよび計算リソースへのアクセスが提供されます。

ノートブック

実行可能なコマンド、視覚化、説明テキストを含めることができる、データ サイエンスと機械学習のワークフローを作成するための Web ベースのインターフェイス。 「Databricks ノートブックの概要」を参照してください。

ライブラリ

クラスターで実行するノートブックまたはジョブで使用できるコードのパッケージ。 Databricks ランタイムには多数のライブラリが含まれており、独自のものもアップロードできます。 ライブラリをご参照ください。

Git フォルダー (旧称 Repos)

リモート Git リポジトリに同期することでコンテンツが共同でバージョン管理されるフォルダー。 Databricks Git フォルダーは Git と統合され、プロジェクトのソースとバージョン コントロールを提供します。

AI と機械学習

Databricks は、AI および 機械学習アプリケーションの開発とデプロイのためのマネージド サービスを備えた、統合されたエンドツーエンド環境を提供します。

Mosaic AI

Databricks Mosaic AI Research の製品とサービスのブランド名。生成 AI における Databricks の最大の躍進を担った研究者およびエンジニアのチームです。 Mosaic AI 製品には、Databricks の ML および AI 機能が含まれます。 「Mosaic Research」を参照してください。

機械学習ランタイム

ML および AI モデルの開発を支援するため、Databricks には、Databricks Runtime for Machine Learning が用意されており、最も一般的な ML および DL ライブラリを含む、事前に構築された機械学習とディープ ラーニング インフラストラクチャを使用してコンピューティングの作成を自動化します。 また、ドライバーやサポート ライブラリを含む、組み込みの事前に構成された GPU サポートも提供します。 最新のランタイム リリースに関する情報については、「Databricks Runtime リリース ノートのバージョンと互換性」を参照してください。

実験

機械学習モデルをトレーニングするための MLflow 実行のコレクション。 「MLflow 実験を使用してトレーニング実行を整理する」を参照してください。

機能

特徴量は ML モデルの重要なコンポーネントです。 特徴量ストアを使用すると、組織全体で特徴の共有と検出が可能になり、またモデルのトレーニングと推論に同じ特徴計算コードが使用されるようになります。 「特徴量ストアとは」を参照してください。

GenAI モデル

Databricks には、さまざまなユース ケースで使用できるようにトレーニングされた大規模言語モデルである、事前に構成された基盤モデルのセットが含まれています。 「Azure Databricks の生成 AI と 大規模言語モデル (LLM)」を参照してください。

AI プレイグラウンド

ワーススペース内で LLM をテストしたり、プロンプト入力したり、比較したりできるチャットのような環境です。 「AI プレイグラウンドを使ってサポートされている LLM とチャットする」をご覧ください。

モデル レジストリ

Databricks は、Unity Catalog 内でホステッド バージョンの MLflow モデル レジストリを提供しています。 Unity Catalog に登録されたモデルは、一元化されたアクセスの制御、データ系列、クロスワークスペースの検出とアクセスを継承します。 「Unity Catalog 内でモデル ライフサイクルを管理する」をご覧ください。

モデルの提供

Mosaic AI Model Serving には、AI モデルのデプロイ、管理、クエリを行うための統一インターフェイスが用意されています。 提供する各モデルは、Web またはクライアント アプリケーションに統合できる REST API として使用できます。 Mosaic AI Model Serving を使用すると、独自のモデル、基盤モデル、または Databricks の外部でホストされているサードパーティ モデルをデプロイできます。 詳しくは、「Azure Databricks でのモデルの提供」をご参照ください。

データ ウェアハウス

データ ウェアハウスとは、複数のソースからデータを収集して格納し、すばやくアクセスしてビジネス上の分析情報やレポートを利用できるようにすることを指します。 Databricks SQL は、既存のデータ レイクにデータ ウェアハウス機能とパフォーマンス向上をもたらすサービスのコレクションです。 「Azure Databricks のデータ ウェアハウスとは」を参照してください。

クエリ

クエリは、ユーザーがデータを操作できるようにする有効な SQL ステートメントです。 プラットフォーム内 SQL エディターを使用してクエリを作成するか、SQL コネクタ、ドライバー、または API ツールを使用して接続できます。 クエリを操作する方法の詳細については、「保存されたクエリにアクセスして管理する」を参照してください。

SQL ウェアハウス

SQL クエリを実行する計算リソース。 SQL ウェアハウスには、クラシック、プロ、サーバーレスの 3 種類があります。 Azure Databricks では、使用可能な場合はサーバーレス ウェアハウスを使用することをお勧めします。 ウェアハウスの各種類で使用可能な機能を比較するには、「SQL ウェアハウスの種類」を参照してください。

クエリの履歴

実行されたクエリとそのパフォーマンス特性の一覧。 クエリ履歴を使用すると、クエリのパフォーマンスを監視できるため、ボトルネックを特定してクエリのランタイムを最適化することができます。 「クエリ履歴」を参照してください。

視覚化

クエリの実行結果のグラフィカルな表示。 「Azure Databricks ノートブックでの視覚化」を参照してください。

ダッシュボード​

データの可視化と解説の提示。 ダッシュボードを使用すると、Azure Databricks アカウント内のすべてのユーザーにレポートを自動的に送信できます。 Databricks Assistant を使用すると、自然言語のプロンプトに基づいて視覚化を構築できます。 「ダッシュボード」を参照してください。 ノートブックからダッシュボードを作成することもできます。 「ノートブック内のダッシュボード」を参照してください。 レガシ ダッシュボードについては、「レガシ ダッシュボード」を参照してください。