Azure Databricks の CI/CD とは

[アーティクル]
08/12/2024

この記事では、Databricks の CI/CD の概要について説明します。継続的インテグレーションと継続的デリバリー (CI/CD) とは、自動化パイプラインを使用して短時間のサイクルを頻繁に実行することで、ソフトウェアを開発および配布するプロセスのことです。 CI/CD はソフトウェア開発に共通しており、データエンジニアリングとデータサイエンスでは、そのニーズはますます高まっています。開発チームは、コードのビルド、テスト、デプロイを自動化することにより、多くのデータエンジニアリングチームとデータサイエンスチームでいまだに広く用いられている手動プロセスよりも確実にリリースを配布できます。

Azure Databricks では、CI/CD に Databricks アセットバンドルを使用することをお勧めします。これを使用すると、Azure Databricks プラットフォーム用の複雑なデータ、分析、ML プロジェクトの開発とデプロイが可能になります。バンドルを使用すると、多くのカスタム構成を簡単に管理し、プロジェクトの Azure Databricks の開発、ステージング、運用ワークスペースへのビルド、テスト、デプロイを自動化できます。

Azure Databricks の機械学習プロジェクトにおける CI/CD の概要については、「Databricks が機械学習の CI/CD をサポートする方法」を参照してください。

Azure Databricks の CI/CD パイプラインの内容

Databricks アセットバンドルを使用して、Azure Databricks CI/CD の実装を定義し、プログラムで管理できます。これには、通常、次のものが含まれます。

ノートブック： Azure Databricks ノートブックは、多くの場合、データエンジニアリングとデータサイエンスのワークフローの重要な要素です。ノートブックのバージョン管理を使用できるほか、CI/CD パイプラインの一部としてそれらを検証したりテストしたりすることもできます。ノートブックを対象に自動テストを実行して、想定どおりに機能しているかどうかを確かめることができます。
ライブラリ: デプロイされたコードを実行するために必要なライブラリの依存関係を管理します。ライブラリにはバージョン管理を使用し、自動テストと検証にそれらを含めます。
ワークフロー: Databricks ジョブは、ノートブックまたは Spark ジョブを使用して自動タスクをスケジュールし、実行することを可能にするジョブで構成されます。
データパイプライン: データパイプラインを宣言するための Databricks のフレームワークである Delta Live Tables を使用して、CI/CD オートメーションにデータパイプラインを含めることもできます。
インフラストラクチャ: インフラストラクチャの構成には、ターゲット環境のクラスター、ワークスペース、ストレージの定義とプロビジョニング情報が含まれます。インフラストラクチャの変更は、CI/CD パイプラインの中で検証およびテストできるため、一貫性があってエラーがないことが保証されます。

Azure Databricks の CI/CD ステップ

Azure Databricks CI/CD パイプラインの一般的なフローには、次のステップが含まれます。

保存: Azure Databricks コードとノートブックを Git などのバージョン管理システムに格納します。これにより、長期にわたって変更を追跡すると共に、他のチームメンバーと共同作業を行うことができます。「Git と Databricks Git フォルダー (Repos) を使用した CI/CD 手法」と「バンドル Git の設定」を参照してください。
コード: ワークスペース内の Azure Databricks ノートブックで、または外部 IDE を使用してローカルでコードと単体テストを開発します。 Azure Databricks には、Azure Databricks ワークスペースへの変更の開発とデプロイを容易にする Visual Studio Code 拡張機能が用意されています。
ビルド: Databricks アセットバンドルの設定を使用して、デプロイ中に特定の成果物を自動的にビルドします。成果物を参照してください。
デプロイ: Databricks アセットバンドルを、Azure DevOps、Jenkins、GitHub Actions などのツールと組み合わせて使用して、Azure Databricks ワークスペースに変更をデプロイします。「Databricks アセットバンドルのデプロイモード」を参照してください。
テスト: pytest などのツールを使用してコードの変更を検証する自動テストを開発して実行します。
実行: Databricks CLI を Databricks アセットバンドルと組み合わせて使用して、Azure Databricks ワークスペースでの実行を自動化します。「バンドルを実行する」を参照してください。
監視: Azure Monitor や Datadog などのツールを使用して、Azure Databricks のコードとワークフローのパフォーマンスを監視します。運用環境で発生した問題の特定と解決に役立てることができます。
反復: 小さな反復を高頻度で行うことにより、データエンジニアリングまたはデータサイエンスプロジェクトを改善および更新します。小さな変更は、大きな変更よりもロールバックが容易です。

Azure Databricks の資産とデータのライフサイクルの管理の詳細については、CI/CD およびデータパイプラインツールに関する次のドキュメントを参照してください。

領域	次が目的の場合は、これらのツールを使用します。
Databricks アセットバンドル	CI/CD のベストプラクティスとワークフローを使用して、Azure Databricks ジョブ、Delta Live Tables パイプライン、MLOps スタックをプログラムによって定義、デプロイ、実行します。
Git と Databricks Git フォルダーを使用した CI/CD ワークフロー	ソース管理と CI/CD ワークフローには、GitHub と Databricks Git フォルダーを使用します。
Databricks で Azure DevOps を使用して認証する	Azure DevOps で認証します。
Microsoft Entra サービスプリンシパルを使用して Azure Databricks Git フォルダーへのアクセスを認証する	MS Entra サービスプリンシパルを使用して、Databricks Git フォルダーへのアクセスを認証します。
Azure DevOps を使用した Azure Databricks での継続的インテグレーションとデリバリー	Azure DevOps を使用する Azure Databricks の CI/CD パイプラインを開発します。
GitHub Actions を使用した継続的インテグレーションと継続的デリバリー	Azure Databricks 用に開発された GitHub Actions を使用するGitHubでの CI/CD ワークフローを開発します。
Jenkins を使用する Azure Databricks の CI/CD	Jenkins を使用する Azure Databricks の CI/CD パイプラインを開発します。
Apache Airflow を使用して Azure Databricks ジョブを調整する	Apache Airflow を使用するデータパイプラインの管理およびスケジュール設定を行います。
CI/CD のサービスプリンシパル	CI/CD システムでは、ユーザーではなくサービスプリンシパルを使用します。

次の方法で共有

Azure Databricks の CI/CD とは

Azure Databricks の CI/CD パイプラインの内容

Azure Databricks の CI/CD ステップ

フィードバック

その他のリソース

次の方法で共有

Azure Databricks の CI/CD とは

Azure Databricks の CI/CD パイプラインの内容

Azure Databricks の CI/CD ステップ

関連リンク

フィードバック

その他のリソース