AI/ML ドメイン駆動型の特徴エンジニアリング用のデータメッシュを運用化する

[アーティクル]
07/11/2023

データメッシュは、一元化されたデータレイクまたはデータウェアハウスから、分析データのドメイン駆動型の分散化に組織が移行するのに役立ちます。これは、4 つの原則 (ドメイン所有権、製品としてのデータ、セルフサービスデータプラットフォーム、フェデレーション計算ガバナンス) によって明確に示されます。データメッシュは、分散データ所有権の利点と、組織のビジネスおよび価値実現までの時間短縮を促進するデータ品質およびガバナンスの向上をもたらします。

データメッシュの実装

一般的なデータメッシュの実装には、データパイプラインを構築するデータエンジニアがいるドメインチームが含まれます。チームは、データレイク、データウェアハウス、データレイクハウスなどの運用および分析データストアを維持します。パイプラインは、他のドメインチームやデータサイエンスチームが使用するデータ製品としてリリースされます。他のチームは、次の図に示すように、中央データガバナンスプラットフォームを利用してデータ製品を使用します。

データメッシュの実装を示すアーキテクチャ図。

データメッシュでは、データ製品がビジネスインテリジェンスのために変換および集計されたデータセットを処理する方法については明確です。一方で、AI/ML モデルを構築するために組織が取るべきアプローチについては明確ではありません。また、データサイエンスチームを構築する方法、AI/ML モデルガバナンス、およびドメインチーム間で AI/ML モデルまたは特徴を共有する方法に関するガイダンスもありません。

次のセクションでは、データメッシュ内で AI/ML 機能を開発するために組織で使用できるいくつかの戦略について説明します。また、ドメイン駆動型特徴エンジニアリングまたは特徴メッシュに関する戦略について提案します。

データメッシュの AI/ML 戦略

一般的な戦略の 1 つは、組織がデータコンシューマーとしてデータサイエンスチームを採用することです。これらのチームは、ユースケースに従って、データメッシュ内のさまざまなドメインデータ製品を利用します。データ探索と特徴エンジニアリングを実行して、AI/ML モデルを開発および構築します。場合によっては、ドメインチームは、データや他のチームのデータ製品を使用して新しい特徴を拡張および派生させることで、独自の AI/ML モデルも開発します。

特徴エンジニアリングはモデル構築の中核であり、複雑になりがちで、ドメインの専門知識が求められます。データサイエンスチームがさまざまなデータ製品を分析する必要があるため、上記の戦略には時間がかかる場合があります。高品質の特徴を構築するためのドメインに関する専門知識がない場合もあります。ドメインの専門知識が不足すると、ドメインチーム間で特徴エンジニアリングの作業が重複する恐れがあります。また、チーム間の特徴セットに一貫性がなくなるため、AI/ML モデルの再現性などの問題も発生します。データサイエンスまたはドメインチームは、新しいバージョンのデータ製品がリリースされると、継続的に特徴を更新する必要があります。

もう 1 つの戦略は、ドメインチームが Open Neural Network Exchange (ONNX) のような形式で AI/ML モデルをリリースすることですが、その結果はブラックボックスであり、ドメイン間で AI/モデルまたは特徴を組み合わせるのは困難です。

課題に対処するために、ドメインおよびデータサイエンスのチーム全体で AI/ML モデル構築を分散化する方法はありますか? 提案されたドメイン駆動型の特徴エンジニアリングまたは特徴メッシュ戦略が 1 つの選択肢です。

ドメイン駆動型の特徴エンジニアリングまたは特徴メッシュ

ドメイン駆動型の特徴エンジニアリングまたは特徴メッシュ戦略では、データメッシュ設定において AI/ML モデル構築に対する分散型アプローチが提供されます。次の図では、この戦略と、それによってデータメッシュの 4 つの主要な原則にどのように対処するかを示しています。

ドメイン駆動型の特徴エンジニアリングと特徴メッシュ戦略を示すアーキテクチャ図。

ドメインチームによるドメイン所有権の特徴エンジニアリング

この戦略では、組織はドメインチームのデータサイエンティストとデータエンジニアをペアにして、クリーンで変換されたデータ (データレイクなど) でデータ探索を実行します。エンジニアリングでは、特徴ストアに格納される特徴が生成されます。特徴ストアは、トレーニングと推論のための特徴を提供し、特徴のバージョン、メタデータ、統計を追跡するのに役立つデータリポジトリです。この機能により、ドメインチームのデータサイエンティストはドメインエキスパートと緊密に連携し、ドメイン内のデータ変更に応じて特徴を最新の状態に保つことができます。

製品としてのデータ: 特徴セット

ドメインチームによって生成された特徴は、ドメインまたはローカルの特徴と呼ばれ、データガバナンスプラットフォームのデータカタログに特徴セットとして発行されます。これらの特徴セットは、データサイエンスチームや他のドメインチームが AI/ML モデルを構築するために使用できます。 AI/ML モデルの開発中、データサイエンスまたはドメインチームは、ドメインの特徴を組み合わせて、共有またはグローバルの特徴と呼ばれる新しい特徴を生成できます。これらの共有された特徴は、使用するために特徴セットカタログに発行されます。

セルフサービスデータプラットフォームとフェデレーション計算ガバナンス: 特徴の標準化と品質

この戦略により、特徴エンジニアリングパイプラインごとに異なるテクノロジスタックが採用され、ドメインチーム間で一貫性のない特徴定義が採用される場合があります。セルフサービスデータプラットフォームの原則により、ドメインチームは共通のインフラストラクチャとツールを使用して、特徴エンジニアリングパイプラインを構築し、アクセス制御を適用します。フェデレーション計算ガバナンスの原則により、グローバルな標準化と特徴品質のチェックを通じて、特徴セットの相互運用性が保証されます。

ドメイン駆動型の特徴エンジニアリングまたは特徴メッシュ戦略を使用すると、組織が AI/ML モデルを開発する時間を短縮するのに役立つ分散型 AI/ML モデル構築アプローチが提供されます。この戦略は、ドメインチーム間で特徴の一貫性を維持するのに役立ちます。これにより、作業の重複が回避され、より正確な AI/ML モデルの高品質な特徴が得られ、ビジネスの価値が向上します。

Azure でのデータメッシュの実装

この記事では、データメッシュでの AI/ML の運用に関する概念について説明しますが、これらの戦略を構築するためのツールやアーキテクチャについては説明しません。 Azure には、Azure Databricks 特徴ストアや LinkedIn の Feathr などの特徴ストアオファリングがあります。 Microsoft Purview カスタムコネクタを開発して、特徴ストアを管理および統制できます。

次のステップ

データメッシュチェックリスト

次の方法で共有

AI/ML ドメイン駆動型の特徴エンジニアリング用のデータメッシュを運用化する

データメッシュの実装

データメッシュの AI/ML 戦略

ドメイン駆動型の特徴エンジニアリングまたは特徴メッシュ

ドメインチームによるドメイン所有権の特徴エンジニアリング

製品としてのデータ: 特徴セット

セルフサービスデータプラットフォームとフェデレーション計算ガバナンス: 特徴の標準化と品質

Azure でのデータメッシュの実装

次のステップ

その他のリソース

次の方法で共有

AI/ML ドメイン駆動型の特徴エンジニアリング用のデータ メッシュを運用化する

データ メッシュの実装

データ メッシュの AI/ML 戦略

ドメイン駆動型の特徴エンジニアリングまたは特徴メッシュ

ドメイン チームによるドメイン所有権の特徴エンジニアリング

製品としてのデータ: 特徴セット

セルフサービス データ プラットフォームとフェデレーション計算ガバナンス: 特徴の標準化と品質

Azure でのデータ メッシュの実装

次のステップ

その他のリソース

AI/ML ドメイン駆動型の特徴エンジニアリング用のデータメッシュを運用化する

データメッシュの実装

データメッシュの AI/ML 戦略

ドメインチームによるドメイン所有権の特徴エンジニアリング

セルフサービスデータプラットフォームとフェデレーション計算ガバナンス: 特徴の標準化と品質

Azure でのデータメッシュの実装