Azure Databricks の概念

[アーティクル]
06/24/2024

この記事では、Azure Databricks ワークスペースを効果的に使用するために理解する必要がある基本的な概念について紹介します。

アカウントとワークスペース

Azure Databricks では、"ワークスペース" はクラウド内の Azure Databricks デプロイであり、チームが Databricks 資産にアクセスするための環境として機能します。組織は、ニーズに応じて、保持するワークスペースを複数にするか 1 つのみにするか選べます。

Azure Databricks "アカウント" は、複数のワークスペースを含めることができる 1 つのエンティティを表します。 Unity Catalog に対して有効になっているアカウントを使用すると、アカウント内のすべてのワークスペースでユーザーと各自のデータへのアクセス権を一元的に管理できます。

課金: Databricks のユニット (DBU)

Azure Databricks の課金は、VM インスタンスの種類に基づく 1 時間あたりの処理能力の単位である Databricks ユニット (DBU) に基づいています。

Azure Databricks の価格に関するページを参照してください。

認証と権限承認

このセクションでは、Azure Databricks の ID およびその Azure Databricks アセットへのアクセスを管理するために知っておく必要がある概念について説明します。

User

システムにアクセスできる一意の個人。ユーザー ID は電子メールアドレスで表されます。「ユーザーの管理」を参照してください。

サービスプリンシパル

ジョブ、自動化ツール、システム (スクリプト、アプリ、CI/CD プラットフォームなど) での使用を目的に作成されたサービス ID です。サービスプリンシパルは、アプリケーション ID で表されます。「サービスプリンシパルを管理する」を参照してください。

Group

ID のコレクション。グループを使用すると、ID 管理が簡素化され、ワークスペース、データ、およびその他のセキュリティ保護可能なオブジェクトへのアクセスを簡単に割り当てることができます。すべての Databricks ID は、グループのメンバーとして割り当てることができます。「グループの管理」を参照してください。

アクセス制御リスト (ACL)

ワークスペース、クラスター、ジョブ、テーブル、または実験に関連付けられたアクセス許可の一覧。 ACL は、オブジェクトへのアクセスを許可されたユーザーまたはシステムプロセスと、アセットに対して許可される操作を指定します。一般的な ACL の各エントリでは、サブジェクトと操作が指定されます。「アクセス制御リスト」を参照してください。

個人用アクセストークン (PAT)

個人用アクセストークンは、REST API 呼び出し、テクノロジパートナー接続、その他のツールの認証に使用される文字列です。「Azure Databricks 個人用アクセストークン認証」をご覧ください。

Microsoft Entra ID (旧称 Azure Active Directory) トークンを使って、REST API に対する認証を行うこともできます。

Azure Databricks のインターフェイス

このセクションでは、Azure Databricks 内の資産にアクセスするためのインターフェイスについて説明します。

UI

Azure Databricks UI は、ワークスペースフォルダーとそこに格納されているオブジェクト、データオブジェクト、計算リソースなどの機能を操作するためグラフィカルインターフェイスです。

REST API

Databricks REST API では、Azure Databricks アカウントとワークスペースオブジェクトに関する情報を変更または要求するためのエンドポイントを提供します。アカウントリファレンスとワークスペースリファレンスに関する記事を参照してください。

SQL REST API

SQL オブジェクトに対するタスクを自動化できるようにするための SQL REST API。 SQL API に関するページを参照してください。

CLI

Databricks CLI は、GitHub でホストされています。 CLI は、Databricks REST API 上に構築されています。

データ管理

このセクションでは、機械学習アルゴリズムにフィードするデータを保存し、分析を行う論理オブジェクトについて説明します。また、データオブジェクトを探索および管理するためのプラットフォーム内 UI についても説明します。

Unity Catalog

Unity Catalog は Azure Databricks のデータと AI 資産の統合ガバナンスソリューションであり、Databricks ワークスペースにわたって一元的なアクセス制御、監査、系列、データ検出の機能を提供します。「Unity Catalog とは」を参照してください。

DBFS ルート

重要

DBFS ルートまたは DBFS マウントを使用したデータの保存とアクセスは非推奨のパターンであり、Databricks では推奨されません。代わりに、Databricks では、Unity Catalog を使用してすべてのデータへのアクセスを管理することをお勧めします。「Unity Catalog とは」を参照してください。

DBFS ルートは、既定ですべてのユーザーが使用できる保存場所です。「DBFS とは」を参照してください。

カタログエクスプローラー

カタログエクスプローラーでは、スキーマ (データベース)、テーブル、モデル、ボリューム (表形式以外のデータ)、関数、登録済み ML モデルなどのデータと AI 資産を探索および管理できます。データオブジェクトや所有者の検索、テーブル間のデータリレーションシップの把握、アクセス許可と共有の管理に使用できます。「カタログエクスプローラーとは」を参照してください。

データベース

テーブルやビュー、関数などのデータオブジェクトのコレクション。簡単にアクセス、管理、更新できるように整理されています。「データベースとは」参照してください

テーブル

構造化データの表現。 Apache Spark SQL および Apache Spark API を使用してテーブルに対してクエリを実行します。「テーブルとは」を参照してください。

Delta テーブル

既定では、Azure Databricks で作成されたテーブルはすべて Delta テーブルです。 Delta テーブルは Delta Lake オープンソースプロジェクトに基づいており、クラウドオブジェクトストア上のハイパフォーマンスな ACID テーブルストレージ用のフレームワークです。 Delta テーブルは、クラウドオブジェクトストレージ上のファイルのディレクトリとしてデータを格納し、カタログとスキーマ内のメタストアにテーブルメタデータを登録します。

Delta としてブランド化されたテクノロジに関する詳細を確認してください。

メタストア

列と列タイプの情報、データの読み取りおよび書き込みに必要なシリアライザーと逆シリアライザー、データが保存されている対応ファイルなど、データウェアハウス内のさまざまなテーブルおよびパーティションのすべての構造情報を保存するコンポーネント。「メタストアとは」を参照してください

それぞれの Azure Databricks デプロイには、テーブルメタデータを保持するためにすべてのクラスターからアクセス可能な中央の Hive メタストアがあります。既存の外部 Hive メタストアを使用することもできます。

計算管理

このセクションでは、Azure Databricks で計算を実行するために知る必要がある概念について説明します。

クラスター

ノートブックとジョブを実行する計算リソースと構成のセット。クラスターには、汎用とジョブの 2 種類があります。「コンピューティング」を参照してください。

"汎用クラスター" は UI、CLI、または REST API を使用して作成します。汎用クラスターは手動で終了および再起動できます。複数のユーザーでこのようなクラスターを共有して、共同作業による対話型分析を行うことができます。
Azure Databricks ジョブスケジューラーでは、ユーザーが "新しいジョブクラスター" でジョブを実行すると "ジョブクラスター" が作成され、ジョブが完了するとクラスターが終了します。ジョブクラスターを再起動することは "できません"。

プール

クラスターの開始と自動スケーリングの時間を短縮する、アイドル状態のすぐに使用できるインスタンスのセット。プールに接続されたクラスターは、そのドライバーとワーカーノードをプールから割り当てます。「プール構成リファレンス」を参照してください。

プールに、クラスターの要求に対応するための十分なアイドル状態のリソースがない場合は、インスタンスプロバイダーから新しいインスタンスを割り当てることによってプールが拡張されます。接続されたクラスターが終了すると、使用されたインスタンスがプールに返され、別のクラスターで再利用できるようになります。

Databricks ランタイム

Azure Databricks によって管理されるクラスターで実行されるコアコンポーネントのセット。「コンピューティング」を参照してください。 Azure Databricks には次のランタイムがあります。

Databricks Runtime には Apache Spark が含まれていますが、ビッグデータ分析の使いやすさ、パフォーマンス、セキュリティを大幅に向上させる多くのコンポーネントと更新プログラムも追加されています。
Databricks Runtime for Machine Learning は Databricks Runtime 上に構築されており、Azure Databricks ワークスペースのすべての機能と統合された事前構築済みの機械学習インフラストラクチャを提供します。 TensorFlow、Keras、PyTorch、XGBoost など、複数の一般的なライブラリが含まれています。

Workflows

データ処理パイプラインを開発して実行するフレームワーク:

ジョブ: ノートブックまたはライブラリをすぐにまたはスケジュールに基づいて実行するための非対話型メカニズム。
Delta Live Tables: 信頼性が高く、保守が容易で、テスト可能なデータ処理パイプラインを構築するためのフレームワーク。

「Azure Databricks ワークフローの概要」を参照してください。

ワークロード

ワークロードは、タスクまたはタスクグループを実行するために必要な処理能力の量です。 Azure Databricks では、2 種類のワークロード (Data Engineering (ジョブ) と Data Analytics (汎用)) が識別されます。

Data Engineering (自動化された) ワークロードは、各ワークロード用に Azure Databricks ジョブスケジューラにより作成される "ジョブクラスター" で実行されます。
Data Analytics (対話型) ワークロードは、"汎用クラスター" で実行されます。対話型ワークロードは、通常、Azure Databricks ノートブック内でコマンドを実行します。ただし、"既存の汎用" クラスターで "ジョブ" を実行する場合も、対話型ワークロードとして扱われます。

実行コンテキスト

サポートされている各プログラミング言語の read–eval–print loop (REPL) 環境の状態。サポートされている言語は、Python、R、Scala、SQL です。

Data Engineering

Data Engineering ツールは、データサイエンティスト、データエンジニア、データアナリスト、機械学習エンジニア間のコラボレーションを促進します。

ワークスペース

ワークスペースは、すべての Azure Databricks アセットにアクセスするための環境です。ワークスペースでは、オブジェクト (ノートブック、ライブラリ、ダッシュボード、実験) がフォルダーに整理され、データオブジェクトおよび計算リソースへのアクセスが提供されます。

ノートブック

実行可能なコマンド、視覚化、説明テキストを含めることができる、データサイエンスと機械学習のワークフローを作成するための Web ベースのインターフェイス。「Databricks ノートブックの概要」を参照してください。

ライブラリ

クラスターで実行するノートブックまたはジョブで使用できるコードのパッケージ。 Databricks ランタイムには多数のライブラリが含まれており、独自のものもアップロードできます。ライブラリをご参照ください。

Git フォルダー (旧称 Repos)

リモート Git リポジトリに同期することでコンテンツが共同でバージョン管理されるフォルダー。 Databricks Git フォルダーは Git と統合され、プロジェクトのソースとバージョンコントロールを提供します。

AI と機械学習

Databricks は、AI および機械学習アプリケーションの開発とデプロイのためのマネージドサービスを備えた、統合されたエンドツーエンド環境を提供します。

Mosaic AI

Databricks Mosaic AI Research の製品とサービスのブランド名。生成 AI における Databricks の最大の躍進を担った研究者およびエンジニアのチームです。 Mosaic AI 製品には、Databricks の ML および AI 機能が含まれます。「Mosaic Research」を参照してください。

機械学習ランタイム

ML および AI モデルの開発を支援するため、Databricks には、Databricks Runtime for Machine Learning が用意されており、最も一般的な ML および DL ライブラリを含む、事前に構築された機械学習とディープラーニングインフラストラクチャを使用してコンピューティングの作成を自動化します。また、ドライバーやサポートライブラリを含む、組み込みの事前に構成された GPU サポートも提供します。最新のランタイムリリースに関する情報については、「Databricks Runtime リリースノートのバージョンと互換性」を参照してください。

実験

機械学習モデルをトレーニングするための MLflow 実行のコレクション。「MLflow 実験を使用してトレーニング実行を整理する」を参照してください。

機能

特徴量は ML モデルの重要なコンポーネントです。特徴量ストアを使用すると、組織全体で特徴の共有と検出が可能になり、またモデルのトレーニングと推論に同じ特徴計算コードが使用されるようになります。「特徴量ストアとは」を参照してください。

GenAI モデル

Databricks には、さまざまなユースケースで使用できるようにトレーニングされた大規模言語モデルである、事前に構成された基盤モデルのセットが含まれています。「Azure Databricks の生成 AI と大規模言語モデル (LLM)」を参照してください。

AI プレイグラウンド

ワーススペース内で LLM をテストしたり、プロンプト入力したり、比較したりできるチャットのような環境です。「AI プレイグラウンドを使ってサポートされている LLM とチャットする」をご覧ください。

モデルレジストリ

Databricks は、Unity Catalog 内でホステッドバージョンの MLflow モデルレジストリを提供しています。 Unity Catalog に登録されたモデルは、一元化されたアクセスの制御、データ系列、クロスワークスペースの検出とアクセスを継承します。「Unity Catalog 内でモデルライフサイクルを管理する」をご覧ください。

モデルの提供

Mosaic AI Model Serving には、AI モデルのデプロイ、管理、クエリを行うための統一インターフェイスが用意されています。提供する各モデルは、Web またはクライアントアプリケーションに統合できる REST API として使用できます。 Mosaic AI Model Serving を使用すると、独自のモデル、基盤モデル、または Databricks の外部でホストされているサードパーティモデルをデプロイできます。詳しくは、「Azure Databricks でのモデルの提供」をご参照ください。

データウェアハウス

データウェアハウスとは、複数のソースからデータを収集して格納し、すばやくアクセスしてビジネス上の分析情報やレポートを利用できるようにすることを指します。 Databricks SQL は、既存のデータレイクにデータウェアハウス機能とパフォーマンス向上をもたらすサービスのコレクションです。「Azure Databricks のデータウェアハウスとは」を参照してください。

クエリ

クエリは、ユーザーがデータを操作できるようにする有効な SQL ステートメントです。プラットフォーム内 SQL エディターを使用してクエリを作成するか、SQL コネクタ、ドライバー、または API ツールを使用して接続できます。クエリを操作する方法の詳細については、「保存されたクエリにアクセスして管理する」を参照してください。

SQL ウェアハウス

SQL クエリを実行する計算リソース。 SQL ウェアハウスには、クラシック、プロ、サーバーレスの 3 種類があります。 Azure Databricks では、使用可能な場合はサーバーレスウェアハウスを使用することをお勧めします。ウェアハウスの各種類で使用可能な機能を比較するには、「SQL ウェアハウスの種類」を参照してください。

クエリの履歴

実行されたクエリとそのパフォーマンス特性の一覧。クエリ履歴を使用すると、クエリのパフォーマンスを監視できるため、ボトルネックを特定してクエリのランタイムを最適化することができます。「クエリ履歴」を参照してください。

視覚化

クエリの実行結果のグラフィカルな表示。「Azure Databricks ノートブックでの視覚化」を参照してください。

ダッシュボード

データの可視化と解説の提示。ダッシュボードを使用すると、Azure Databricks アカウント内のすべてのユーザーにレポートを自動的に送信できます。 Databricks Assistant を使用すると、自然言語のプロンプトに基づいて視覚化を構築できます。「ダッシュボード」を参照してください。ノートブックからダッシュボードを作成することもできます。「ノートブック内のダッシュボード」を参照してください。レガシダッシュボードについては、「レガシダッシュボード」を参照してください。

次の方法で共有