Azure CI/CD データ パイプライン

Azure DevOps Services

この記事では、Azure の継続的インテグレーションと継続的デリバリー (CI/CD) データ パイプラインとそのデータ サイエンスの重要性について説明します。

データ パイプラインを使用すると、次のことができます。

  • さまざまなデータ ソースからデータを取り込みます。
  • データを処理して変換します。
  • 他のユーザーが使用できるように、処理されたデータをステージングの場所に保存します。

データ パイプラインの概要を示す図。

エンタープライズ データ パイプラインは、複数のソース システムと、サポートされているさまざまなダウンストリーム アプリケーションを使用して、より複雑なシナリオに進化する可能性があります。

データ パイプラインから次の情報が得られます。

  • ユーザーが使用できる一貫性のある形式にデータを変換することで、一貫性を確保します。
  • 自動化されたデータ パイプラインを使用して、データを操作する際のヒューマン エラーを排除することで、エラーを削減します。
  • データ処理変換に費やす時間を短縮することで、効率を高める。

データ パイプラインを使用すると、データの専門家は、主要な職務機能に集中し、データから分析情報を取得し、企業がより良い意思決定を行うのに役立ちます。

継続的インテグレーションと継続的デリバリー (CI/CD)

継続的インテグレーションと継続的デリバリー (CI/CD) は、すべての開発者がコードの共有コード リポジトリで連携するソフトウェア開発アプローチです。 開発者が変更を加えた場合、自動化されたプロセスによってコードの問題が検出されます。 CI/CD を使用すると、開発ライフサイクルが短縮され、エラー率が低くなります。

データ サイエンスの CI/CD データ パイプライン

機械学習モデルの構築は、データ サイエンティストが機械学習モデルをトレーニングしてスコア付けするためのコードを記述するという点で、従来のソフトウェア開発に似ています。 ただし、コードに基づく従来のソフトウェアとは異なり、データ サイエンス機械学習モデルは、アルゴリズムやハイパーパラメーターなどのコードと、モデルのトレーニングに使用されるデータの両方に基づいています。 ほとんどのデータ サイエンティストは、データの準備、クリーニング、特徴エンジニアリングに 80% の時間を費やしていると言います。

機械学習モデルの品質を確保するために、A/B テストなどの手法を使用して、モデルのパフォーマンスを比較および維持します。 A/B テストでは、通常、1 つの制御モデルと 1 つ以上の治療モデルが使用されます。

複数の機械学習モデルを同時に使用して、機械学習モデルの CI/CD に別の複雑さのレイヤーを追加できます。 CI/CD データ パイプラインは、データ サイエンス チームがビジネスに質の高い機械学習モデルをタイムリーに提供するために不可欠です。

次のステップ