ベースライン OpenAI エンドツーエンドチャットリファレンスアーキテクチャ

Azure OpenAI Service

Azure Machine Learning

Azure App Service

Azure Key Vault

Azure Monitor

エンタープライズチャットアプリケーションは、会話による対話を通じて従業員を支援することができます。これは、OpenAI の GPT モデルや Meta の LLaMA モデルなどの言語モデルが継続的に進歩しているため、特に当てはまります。これらのチャットアプリケーションを構成しているのは、チャットユーザーインターフェイス、ユーザーのクエリに関連するドメイン固有の情報を含むデータリポジトリ、ドメイン固有のデータについて推論して関連性の高い応答を生成する言語モデル、そしてこれらのコンポーネント間の相互作用を監視するオーケストレーターです。

この記事では、Azure OpenAI Service の言語モデルを使用するエンタープライズチャットアプリケーションを構築およびデプロイするためのベースラインアーキテクチャについて説明します。このアーキテクチャでは、Azure Machine Learning プロンプトフローを使用して実行可能なフローを作成します。これらの実行可能フローは、受信プロンプトからデータストアへのワークフローを調整して、言語モデル用にグラウンディングするデータを他の必要な Python ロジックと共にフェッチします。実行可能フローは、マネージドオンラインエンドポイントの背後にある Machine Learning コンピューティングクラスターにデプロイされます。

カスタムチャットユーザーインターフェイス (UI) のホスティングは、ゾーン冗長で高可用性のセキュアな Web アプリケーションを Azure APP Services でデプロイするためのベースラインアプリサービス Web アプリケーションのガイダンスに従います。そのアーキテクチャでは、App Service は、プライベートエンドポイントを介した仮想ネットワーク統合を通じて Azure PaaS (サービスとしてのプラットフォーム) ソリューションと通信を行います。チャット UI App Service は、プライベートエンドポイント経由でフローのマネージドオンラインエンドポイントと通信を行います。 Machine Learning ワークスペースへのパブリックアクセスは無効になっています。

重要

この記事では、ベースライン App Service Web アプリケーションのコンポーネントやアーキテクチャの決定については説明しません。チャット UI をホストする方法に関するアーキテクチャガイダンスについては、その記事をお読みください。

Machine Learning ワークスペースはマネージド仮想ネットワーク分離を用いて構成されており、送信接続はすべて承認を受ける必要があります。この構成では、マネージド仮想ネットワークが、プライベートリソース (職場の Azure Storage、Azure Container Registry、Azure OpenAI など) への接続を可能にするマネージドプライベートエンドポイントと共に作成されます。これらのプライベート接続は、フローの作成とテスト中に使用され、また Machine Learning コンピューティングにデプロイされたフローによっても使用されます。

ヒント

GitHub ロゴ。この記事は、Azure でのベースラインのエンドツーエンドのチャット実装を紹介する参照実装によって裏付けられます。この実装は、実稼働に向けた最初のステップとして、カスタムソリューション開発の基盤として使用できます。

Architecture

このアーキテクチャの Visio ファイルをダウンロードします。

コンポーネント

このアーキテクチャのコンポーネントの多くは、ベースライン App Service Web アプリケーションアーキテクチャのリソースと同じです。これは、チャット UI をホストするために使用されるメソッドが、両方のアーキテクチャで同じであるためです。このセクションで強調表示されているコンポーネントは、チャットフローの構築と調整に使用されるコンポーネント、データサービス、および言語モデルを公開するサービスに焦点を当てています。

Machine Learning は、機械学習モデルのトレーニング、デプロイ、管理に使用できるマネージドクラウドサービスです。このアーキテクチャでは、言語モデルを利用した AI アプリケーションの実行可能フローの開発とデプロイに使用される Machine Learning の他の機能をいくつか使用します。
- Machine Learning プロンプトフローは開発ツールの 1 つで、これを使用することで、ユーザープロンプト、Python コードによるアクション、言語学習モデルへの呼び出しをリンクするフローを構築、評価、デプロイすることができます。このアーキテクチャーのプロンプトフローは、プロンプト、異なるデータストア、言語モデルとの間でフローを調整する層として使用されます。
- マネージドオンラインエンドポイントを使用すると、リアルタイム推論用のフローをデプロイできます。このアーキテクチャでは、マネージドオンラインエンドポイントは、Machine Learning でホストされているプロンプトフローを呼び出すために、チャット UI の PaaS エンドポイントとして使用されます。
Storage は、プロンプトフロー開発のプロンプトフローソースファイルを保持するために使用されます。
Container Registry を使用すると、あらゆる種類のコンテナーデプロイ用のプライベートレジストリにコンテナーイメージや成果物をビルド、格納、管理できるようになります。このアーキテクチャでは、フローはコンテナーイメージとしてパッケージ化され、Container Registry に格納されます。
Azure OpenAI は、GPT-4、GPT-3.5-Turbo、埋め込みのモデルセットなど、Azure OpenAI の言語モデルへの REST API アクセスを提供するフルマネージドサービスです。このアーキテクチャでは、モデルアクセスに加えて、仮想ネットワークとプライベートリンク、マネージド ID のサポート、コンテンツフィルタリングなどの一般的なエンタープライズ機能を追加するために使用されます。
Azure AI Search は、フルテキスト検索、セマンティック検索、ベクトル検索、ハイブリッド検索をサポートするクラウド検索サービスです。 AI Search は、チャットアプリケーションの背後にあるフローで使用される一般的なサービスであるため、アーキテクチャに含まれています。 AI Search を使用すると、ユーザークエリに関連するデータを取得してインデックスを作成することができます。プロンプトフローは、RAG (検索拡張生成) パターンを実装して、プロンプトから適切なクエリを抽出し、AI Search にクエリを実行して、その結果を Azure OpenAI モデルのグランディングデータとして使用します。

Machine Learning プロンプトフロー

エンタープライズチャットアプリケーションのバックエンドは、通常、次のフローのようなパターンに従います。

ユーザーがカスタムチャットユーザーインターフェイス (UI) にプロンプトを入力します。
そのプロンプトがインターフェイスコードによってバックエンドに送信されます。
ユーザーの意図である質問か指示のいずれかが、バックエンドによってプロンプトから抽出されます。
必要に応じて、バックエンドが、ユーザープロンプトに関連するデータを保持するデータストアを決定します。
バックエンドは関連するデータストアにクエリを実行します。
意図、関連する基礎データ、およびプロンプトで提供された履歴が、バックエンドによって言語モデルに送信されます。
バックエンドは、UI に表示できるように結果を返します。

バックエンドは、任意の数の言語で実装でき、さまざまな Azure サービスにデプロイできます。このアーキテクチャでは、Machine Learning プロンプトフローが使用されています。これは、このプロンプトフローを使用することで、プロンプト、バックエンドデータストア、言語モデルの間で調整されるフローをより効率的に構築、テスト、デプロイできるためです。

プロンプトフローのランタイム

Machine Learning では、2 種類のプロンプトフローランタイムを直接ホストすることができます。

自動ランタイム: コンピューティングのライフサイクルとパフォーマンス特性を管理し、環境のフロー駆動型カスタマイズを可能にするサーバーレスコンピューティングオプション。
コンピューティングインスタンスランタイム: ワークロードチームがパフォーマンス特性を選択する必要がある常時稼働コンピューティングオプション。このランタイムは、より多くのカスタマイズと環境のコントロールを提供します。

プロンプトフローは、ホストコンテナーホストプラットフォームで上 Machine Learning コンピューティングの外部でホストすることもできます。このアーキテクチャでは、App Service を使用して外部ホスティングを実証しています。

ネットワーク

ネットワークセキュリティは ID ベースのアクセスと共に、OpenAI を使用するベースラインのエンドツーエンドのチャットアーキテクチャの中核となっています。ネットワークアーキテクチャでは、大まかに次のことが保証されます。

チャット UI トラフィックのための単一の安全なエントリーポイントに限定します。
ネットワークトラフィックがフィルター処理されます。
データは、トランスポート層セキュリティ (TLS) を使用してエンドツーエンドで暗号化されます。
プライベートリンクによってデータ流出を最小限に抑え、Azure でのトラフィックを維持します。
ネットワークリソースは論理的にグループ化され、ネットワークのセグメント化によって互いに分離されます。

ネットワークフロー

この図の 2 つのフローは、ベースライン App Service Web アプリケーションアーキテクチャで説明されている、エンドユーザーからチャット UI への受信フロー (1) と、App Service から Azure PaaS サービスへのフロー (2) です。このセクションでは、Machine Learning オンラインエンドポイントフローに焦点を当てます。以下のフローでは、ベースライン App Service Web アプリケーションで実行されるチャット UI から Machine Learning コンピューティングにデプロイされたフローへ流れていきます。

App Service でホストされているチャット UI からの呼び出しは、プライベートエンドポイントを経由して Machine Learning オンラインエンドポイントにルーティングされます。
オンラインエンドポイントは、デプロイされたフローを実行しているサーバーに呼び出しをルーティングします。オンラインエンドポイントは、Load Balancer とルーターの両方として機能します。
デプロイされたフローで必要な Azure PaaS サービスへの呼び出しは、マネージドプライベートエンドポイント経由でルーティングされます。

Machine Learning へのイングレス

このアーキテクチャでは、Machine Learning ワークスペースへのパブリックアクセスが無効になっています。このアーキテクチャは Machine Learning ワークスペースの構成のプライベートエンドポイントに従うため、ユーザーはプライベートアクセスを介してワークスペースにアクセスすることができます。実際、ID ベースセキュリティを補完するために、このアーキテクチャ全体でプライベートエンドポイントが使用されています。たとえば、App Service でホストされているチャット UI は、Machine Learning エンドポイントなど、パブリックインターネットに公開されていない PaaS サービスに接続することができます。

プライベートエンドポイントアクセスは、フロー作成のために Machine Learning ワークスペースに接続するためにも必要です。

この図は、プロンプトフロー作成者が Azure Bastion 経由で仮想マシンジャンプボックスに接続していることを示しています。そのジャンプボックスから、作成者はジャンプボックスと同じネットワーク内のプライベートエンドポイント経由で Machine Learning ワークスペースに接続できます。仮想ネットワークへの接続は、ExpressRoute または VPN ゲートウェイと仮想ネットワークピアリング経由で実現することもできます。

Machine Learning マネージド仮想ネットワークから Azure PaaS サービスへのフロー

Machine Learning ワークスペースは、すべての送信接続が承認を受ける必要があるマネージド仮想ネットワーク分離に対応するように構成することをお勧めします。このアーキテクチャは、その推奨事項に従います。承認済みのアウトバウンド規則は 2 種類あります。 必要なアウトバウンド規則は、ソリューションが機能するために必要なリソース (Container Registry や Storage など) が対象になります。 ユーザー定義のアウトバウンド規則は、ワークフローで使用されるカスタムリソース (Azure OpenAI や AI Search など) が対象です。ユーザー定義のアウトバウンド規則を構成する必要があります。必須のアウトバウンド規則は、マネージド仮想ネットワークの作成時に構成されます。

アウトバウンド規則には、プライベートエンドポイント、サービスタグ、または外部パブリックエンドポイントの完全修飾ドメイン名 (FQDN) を使用できます。このアーキテクチャでは、Container Registry、Storage、Azure Key Vault、Azure OpenAI、AI Search などの Azure サービスへの接続は、プライベートリンク経由で接続されます。このアーキテクチャにはありませんが、FQDN アウトバウンド規則の構成が必要な場合がある一般的な操作の中には、pip パッケージのダウンロード、GitHub リポジトリの複製、外部リポジトリからのベースコンテナーイメージのダウンロードがあります。

仮想ネットワークのセグメント化とセキュリティ

このアーキテクチャのネットワークには、次の目的に対応する別個のサブネットがあります。

Application Gateway
App Service 統合コンポーネント
プライベートエンドポイント
Azure Bastion
ジャンプボックス仮想マシン
トレーニング - このアーキテクチャのモデルトレーニングでは使用されません
ポイントの計算

各サブネットにはネットワークセキュリティグループ (NSG) があり、これらのサブネットの受信と送信の両方のトラフィックを必要なトラフィックのみに制限します。次の表では、ベースラインによって各サブネットに追加される NSG 規則を簡単に示しています。表では、規則名と機能を示しています。

Subnet	受信	送信
snet-appGateway	チャット UI ユーザーのソース IP (パブリックインターネットなど) に対する許容値と、サービスに必要な項目。	App Service のプライベートエンドポイントへのアクセスと、サービスに必要な項目。
snet-PrivateEndpoints	仮想ネットワークからのトラフィックのみが許可されます。	仮想ネットワークへのトラフィックのみが許可されます。
snet-AppService	仮想ネットワークからのトラフィックのみが許可されます。	プライベートエンドポイントと Azure Monitor へのアクセスが許可されます。
AzureBastionSubnet	NSG アクセスと Azure Bastion の使用のガイダンスを参照してください。	NSG アクセスと Azure Bastion の使用のガイダンスを参照してください。
snet-jumpbox	Azure Bastion ホストサブネットからの受信リモートデスクトッププロトコル (RDP) と SSH を許可します。	プライベートエンドポイントへのアクセスを許可する
snet-agents	仮想ネットワークからのトラフィックのみが許可されます。	仮想ネットワークへのトラフィックのみが許可されます。
snet-training	仮想ネットワークからのトラフィックのみが許可されます。	仮想ネットワークへのトラフィックのみが許可されます。
snet-scoring	仮想ネットワークからのトラフィックのみが許可されます。	仮想ネットワークへのトラフィックのみが許可されます。

その他のトラフィックはすべて明示的に拒否されます。

仮想ネットワークのセグメント化とセキュリティを実装する場合は、次の点を考慮してください。

パブリック IP アドレスを持つアプリケーションゲートウェイの一部であるサブネットを持つ仮想ネットワークに対して DDoS Protection を有効にします。
可能であれば、すべてのサブネットに NSG を追加します。ソリューションの全機能を有効にする最も厳密な規則を使用します。
アプリケーションセキュリティグループを使用して NSG をグループ化します。 NSG をグループ化すると、複雑な環境向けのルールを簡単に作成できるようになります。

コンテンツのフィルタリングと不正使用の監視

Azure OpenAI には、分類モデルのアンサンブルを使用して、入力プロンプトと出力完了の両方において特定のカテゴリの潜在的に有害なコンテンツを検出して防止する、コンテンツフィルタリングシステムが含まれています。この有害な可能性のあるコンテンツのカテゴリには、ヘイト、性的、自傷行為、暴力、冒涜、および脱獄 (言語モデルの制約を回避するように設計されたコンテンツ) が含まれます。カテゴリごとにコンテンツをフィルタリングする厳密さを、低、中、または高のオプションで構成できます。このリファレンスアーキテクチャは厳格なアプローチを採用しています。要件に応じて設定を調整します。

Azure OpenAI では、コンテンツフィルタリングに加えて、不正使用の監視機能が実装されています。不正使用の監視は、Azure OpenAI の行動規範に違反する可能性のある方法でサービスを使用することを示唆する、繰り返し表示されるコンテンツや繰り返し行われる動作のインスタンスを検出して軽減できるように設計された非同期操作です。機密性の高いデータの場合や、不正使用の検出のためにデータの処理を防止する内部ポリシーまたは適用される法律や規制がある場合は、不正使用の監視と人間によるレビューの除外を要求することができます。

信頼性

ベースラインの App Service Web アプリケーションアーキテクチャでは、主要なリージョンサービスのゾーン冗長に重点を置いています。可用性ゾーンは、リージョン内の物理的に分離された場所です。 2 つ以上のインスタンスがリージョン全体にデプロイされている場合、リージョン内にサポートサービスに対する冗長が提供されます。 1 つのゾーンでダウンタイムが発生しても、リージョン内の他のゾーンは影響を受けない場合もあります。このアーキテクチャを使用すると、Azure サービスの十分なインスタンスとそれらのサービスの構成が可用性ゾーンに確実に分散されるようになります。詳細については、ベースラインを参照して、ガイダンスを確認してください。

このセクションでは、Machine Learning、Azure OpenAI、AI Search など、App Service ベースラインで扱われていないこのアーキテクチャのコンポーネントの観点から信頼性について説明します。

フローデプロイのゾーン冗長

通常、エンタープライズデプロイには、ゾーン冗長が必要です。 Azure でゾーン冗長を実現するには、リソースが可用性ゾーンをサポートしている必要があり、リソースのインスタンスを少なくとも 3 つデプロイするか、インスタンス制御が利用できない場合にはプラットフォームサポートを有効にする必要があります。現在、Machine Learning コンピューティングは、可用性ゾーンのサポートを提供していません。データセンターレベルの大災害による Machine Learning コンポーネントへの潜在的な影響を軽減するには、さまざまなリージョンにクラスターを確立すると共に、Load Balancer をデプロイしてこれらのクラスター間で呼び出しを分散する必要があります。ヘルスチェックを使用すると、呼び出しが適切に機能しているクラスターにのみルーティングされるのを確実にすることができます。

プロンプトフローのデプロイは、Machine Learning コンピューティングクラスターに限定されません。実行可能フローはコンテナ化されたアプリケーションであるため、コンテナーと互換性のある任意の Azure サービスにデプロイできます。これらのオプションには、Azure Kubernetes Service (AKS)、Azure Functions、Azure Container Apps、App Service などのサービスが含まれます。これらの各サービスでは、可用性ゾーンがサポートされています。マルチリージョンデプロイをさらに複雑化させることなく、プロンプトフロー実行のゾーン冗長を実現するには、これらのサービスのいずれかにフローをデプロイする必要があります。

次の図では、プロンプトフローが Azure App Service にデプロイされる代替アーキテクチャを示しています。このアーキテクチャで App Service が使用されるのは、ワークロードがすでにチャット UI に App Service を使用しており、ワークロードに新しいテクノロジを導入してもメリットが得られないためです。 AKS の使用経験があるワークロードチームは、特に AKS がワークロード内の他のコンポーネントに使用されている場合は、その環境へのデプロイを検討する必要があります。

この図では、このアーキテクチャで注目すべき領域に番号が付けられています。

フローは引き続き Machine Learning プロンプトフローで作成され、Machine Learning ネットワークアーキテクチャは変更されません。フロー作成者は引き続きプライベートエンドポイント経由でワークスペース作成エクスペリエンスに接続し、フローのテスト時に Azure サービスに接続するためにマネージドプライベートエンドポイントが使用されます。
この点線は、コンテナー化された実行可能フローが Container Registry にプッシュされることを示しています。この図には、フローをコンテナ化して Container Registry にプッシュするパイプラインは示されていません。
同じ App Service プランにデプロイされ、すでにチャット UI をホストしている別の Web アプリがあります。新しい Web アプリは、コンテナー化されたプロンプトフローをホストし、可用性ゾーン全体に分散された少なくとも 3 つのインスタンスですでに実行されている、同じ App Service プラン上に配置されます。これらの App Service インスタンスは、プロンプトフローコンテナーイメージを読み込むときに、プライベートエンドポイント経由で Container Registry に接続します。
プロンプトフローコンテナーは、フローを実行するためにすべての依存サービスに接続する必要があります。このアーキテクチャでは、プロンプトフローコンテナーは AI Search と Azure OpenAI に接続します。 Machine Learning マネージドプライベートエンドポイントサブネットにのみ公開されていた PaaS サービスも、App Service から通信経路を確立できるようにするために、現在では仮想ネットワークで公開することが必要となっています。

Azure OpenAI - 信頼性

Azure OpenAI では現在、可用性ゾーンはサポートされていません。データセンターレベルの大災害による Azure OpenAI のモデルのデプロイへの潜在的な影響を軽減するには、ロードバランサーをデプロイしてリージョン間で呼び出しを分散すると共に、Azure OpenAI をさまざまなリージョンにデプロイする必要があります。ヘルスチェックを使用すると、呼び出しが適切に機能しているクラスターにのみルーティングされるのを確実にすることができます。

複数のインスタンスを効果的にサポートするには、チューニングファイルを geo 冗長ストレージアカウントなどに外部化することをお勧めします。この方法では、リージョンごとに Azure OpenAI に格納されている状態が最小限に抑えられます。モデルデプロイをホストするには、各インスタンスのファイルを引き続き微調整する必要があります。

1 分あたりのトークン数 (TPM) と 1 分あたりの要求数 (RPM) の観点から、必要なスループットを監視することが重要です。デプロイの需要を満たすのに十分な TPM がクォータから割り当てられていることを確認し、デプロイされたモデルの呼び出しがスロットリングされないようにします。 Azure API Management などのゲートウェイは、1 つ以上の OpenAI サービスの前にデプロイでき、一時的なエラーや制限が発生した場合に再試行するように構成できます。 API Management は、サービスが呼び出しで一杯になり、クォータを超過するのを防止するためのブレーカー (遮断機) としても使用できます。

AI Search - 信頼性

可用性ゾーンをサポートするリージョンに Standard 価格レベル以上の AI Search をデプロイし、3 つ以上のレプリカをデプロイします。レプリカは、可用性ゾーン全体に自動的に均等に分散されます。

レプリカとパーティションの適切な数を決定するために、次のガイダンスを考慮してください。

AI Search を監視します。
クエリベースのスロットリングやパーティションを回避し、インデックスベースのスロットリングを回避するために、監視メトリックやログおよびパフォーマンス分析を使って適切なレプリカ数を決定します。

Machine Learning - 信頼性

Machine Learning マネージドオンラインエンドポイントの背後にあるコンピューティングクラスターにデプロイする場合は、スケーリングに関する次のガイダンスを考慮してください。

オンラインエンドポイントを自動的にスケールして、需要を満たすのに十分な容量を確保します。バーストの使用が原因で使用シグナルの適時性が十分とは言えない場合は、オーバープロビジョニングを検討して、使用できるインスタンスが少なすぎることによる信頼性への影響を防ぐようにしてください。
CPU 負荷などのデプロイメトリックと、要求の待機時間などのエンドポイントメトリックに基づいたスケーリング規則の作成を検討してください。
アクティブな運用デプロイには、3 つ以上のインスタンスをデプロイする必要があります。
使用中のインスタンスに対するデプロイは避けてください。代わりに、新しいデプロイにデプロイし、デプロイでトラフィックの受信準備ができたら、トラフィックをシフトします。

Note

フローを APP Service にデプロイする場合は、ベースラインアーキテクチャから同じ App Service スケーラビリティに関するガイダンスが適用されます。

セキュリティ

このアーキテクチャは、ネットワークと ID セキュリティ境界の両方を実装します。ネットワークの観点から見ると、インターネットからアクセスできる必要があるのは、Application Gateway を介したチャット UI のみです。 ID の観点から見ると、チャット UI は要求を認証し、承認する必要があります。可能な場合は、マネージド ID を使用して、アプリケーションを Azure サービスに対して認証します。

このセクションでは、ID およびアクセス管理、ならびにキーのローテーションと Azure OpenAI モデルのチューニングに関するセキュリティ上の考慮事項について説明します。

ID 管理とアクセス管理

次のガイダンスは、App Service ベースラインの ID およびアクセス管理に関するガイダンスを拡張するものです。

必要に応じて、次の Machine Learning リソースに対して個別のマネージド ID を作成します。
- フローの作成と管理のためのワークスペース
- フローをテストするためのコンピューティングインスタンス
- フローがマネージドオンラインエンドポイントにデプロイされている場合の、デプロイされたフローのオンラインエンドポイント
Microsoft Entra ID を使用することで、チャット UI の ID アクセス制御を実装します。

Machine Learning のロールベースのアクセスロール

Machine Learning ワークスペースへのアクセスを管理するために使用できる既定のロールは、AzureML データ科学者、AzureML コンピューティングオペレーター、閲覧者、共同作成者、所有者の 5 つです。これらの既定のロールに加えて、ワークスペースシークレットやレジストリなどのワークスペースリソースへのアクセスを許可することができる、AzureML Learning ワークスペース接続のシークレット閲覧者と AzureML レジストリユーザーがあります。

このアーキテクチャは、必要な場合に前述の ID にのみロールを割り当てることで、最小限の特権の原則に従います。次のロールの割り当てを検討してください。

マネージド ID	範囲	ロールの割り当て
ワークスペースのマネージド ID	リソースグループ	Contributor
ワークスペースのマネージド ID	ワークスペースストレージアカウント	ストレージ BLOB データ共同作成者
ワークスペースのマネージド ID	ワークスペースストレージアカウント	ストレージファイルデータ権限付き共同作成者
ワークスペースのマネージド ID	ワークスペース Key Vault	Key Vault Administrator
ワークスペースのマネージド ID	ワークスペースコンテナーレジストリ	AcrPush
オンラインエンドポイントのマネージド ID	ワークスペースコンテナーレジストリ	AcrPull
オンラインエンドポイントのマネージド ID	ワークスペースストレージアカウント	ストレージ BLOB データ閲覧者
オンラインエンドポイントのマネージド ID	Machine Learning ワークスペース	AzureML ワークスペース接続シークレット閲覧者
コンピューティングインスタンスのマネージド ID	ワークスペースコンテナーレジストリ	AcrPull
コンピューティングインスタンスのマネージド ID	ワークスペースストレージアカウント	ストレージ BLOB データ閲覧者

キーの交換

このアーキテクチャには、キーベースの認証を使用する 2 つのサービス、Azure OpenAI と Machine Learning マネージドオンラインエンドポイントがあります。これらのサービスではキーベースの認証を使用するため、次のことが重要です。

プロンプトフローコンテナーをホストする Azure Web アプリなど、許可されているクライアントからのオンデマンドアクセス用に、Key Vault などの安全な保管場所にキーを格納します。
キーローテーション戦略を実装します。キーを手動でローテーションする場合は、キーの有効期限ポリシーを作成し、Azure Policy を使用してキーがローテーションされたかどうかを監視します。

OpenAI モデルのチューニング

実装時に OpenAI モデルのチューニングを行う場合は、次のガイダンスを考慮してください。

チューニング用にトレーニングデータをアップロードする場合は、カスタマーマネージドキーを使用してそのデータを暗号化することを検討してください。
Azure Blob Storage などのストアにトレーニングデータを格納する場合は、データ暗号化のためのカスタマーマネージドキー、データへのアクセスを制御するためのマネージド ID、およびデータに接続するためのプライベートエンドポイントの使用を検討してください。

ポリシーによるガバナンス

セキュリティとの整合性を確保するために、デプロイがワークロードの要件に沿うよう、Azure Policy とネットワークポリシーの使用を検討します。ポリシーを使用したプラットフォームの自動化は、手動の検証手順による負担を軽減し、パイプラインがバイパスされた場合でもガバナンスが確保されます。次のセキュリティポリシーを検討してください。

Azure AI サービスや Key Vault などのサービスで、キーまたはその他のローカル認証アクセスを無効にする。
ネットワークアクセス規則または NSG の特定の構成を要求する。
カスタマーマネージドキーの使用など、暗号化を要求する。

コストの最適化

コストの最適化とは、不要な費用を削減し、運用効率を向上させる方法を検討することです。詳細については、「コスト最適化の設計レビューチェックリスト」を参照してください。

このシナリオの価格例を確認するには、Azure 料金計算ツールを使用します。この例ではアーキテクチャに含まれるコンポーネントが含まれているだけなので、使用率に合わせて例をカスタマイズする必要があります。このシナリオで最もコストの高いコンポーネントは、チャット UI、プロンプトフローコンピューティング、および AI Search です。最大限コストを削減するには、これらのリソースの最適化を行います。

Compute

Machine Learning プロンプトフローは、実行可能フローをホストする複数のオプションをサポートしています。オプションには、Machine Learning、AKS、App Services、Azure Kubernetes Service の管理されたオンラインエンドポイントが含まれます。これらのオプションにはそれぞれ独自の課金モデルがあります。コンピューティングの選択は、ソリューションの全体的なコストに影響を及ぼします。

Azure OpenAI

Azure OpenAI は従量課金ベースのサービスであり、あらゆる消費ベースのサービスと同様に、供給に対して需要を制御することが一番のコスト管理になります。これを特に Azure OpenAI で行うには、以下に挙げるアプローチを組み合わせて使用する必要があります。

クライアントを制御する。 クライアント要求は従量課金モデルの主なコスト源になるため、クライアントの動作を制御することは極めて重要です。すべてのクライアントは次のことを行う必要があります。
- 承認を受けます。制限のないアクセスをサポートするような方法でサービスを公開することを避けます。ネットワーク制御と、キーやロールベースのアクセス制御 (RBAC) などの ID 制御の、両方を使用してアクセスを制限します。
- 自己管理する。 max_tokens や max_completions などの API 呼び出しによって提供されるトークン制限制約を使用するようクライアントに要求します。
- 実用的であればバッチ処理を使用します。クライアントを確認して、プロンプトが適切にバッチ処理されるようにします。
- プロンプトの入力と応答の長さを最適化します。プロンプトが長いほど消費されるトークンが増えるため、コストは上がりますが、十分なコンテキストが不足しているプロンプトでは、モデルで良い結果を引き出すことはできません。モデルが有用な応答を生成できるようにするのに十分なコンテキストを提供する簡潔なプロンプトを作成します。同様に、確実に応答の長さの制限を最適化するようにします。
Azure OpenAI プレイグラウンドの使用は、これらのアクティビティで運用コストが発生しないように、必要に応じて、運用前環境のインスタンスで行う必要があります。
適切な AI モデルを選択します。 モデルの選択も、Azure OpenAI の全体的なコストで大きな役割を果たします。すべてのモデルには長所と短所があり、個別に価格が設定されています。ユースケースに適したモデルを使用して、より安価なモデルで許容できる結果が得られた場合に、より高価なモデルに対する過剰な支出を確実に抑えるようにします。このチャットリファレンス実装では GPT-4 よりも GPT 3.5-turbo を選択したことで、十分な結果を得ながらも、モデルデプロイのコストを 1 桁ほど削減しました。
課金ブレークポイントを理解します。 チューニングは 1 時間単位で課金されます。最も効率的にするには、次の請求期間に入ってしまうことを避けながら、1 時間あたりに使用可能な時間をできるだけ多く利用して、微調整の結果を改善する必要があります。同様に、イメージ生成による 100 個のイメージにかかるコストは、1 個のイメージにかかるコストと同じです。プラスの効果が得られるように価格のブレークポイントを最大限に活用します。
課金モデルを理解します。 Azure OpenAI は、プロビジョニングされたスループットオファリングを通じて、コミットメントベースの課金モデルでも利用できます。予測可能な使用パターンが用意できたら、現在の使用量でコスト効率が改善される場合は、この事前購入課金モデルへの切り替えを検討します。
プロビジョニングの制限を設定します。 すべてのプロビジョニングクォータが、モデルごとに、ワークロードの一部となることが予想されるモデルにのみ割り当てられるようにします。動的クォータが有効になっている間、すでにデプロイされたモデルのスループットは、このプロビジョニングされたクォータに制限されません。クォータはコストに直接マップされないため、コストは異なる場合があります。
CPU 使用率による従量課金制を監視します。 従量課金制の価格を使用する場合は、TPM と RPM の使用状況を監視します。その情報を使用して、どのモデルを使用するかなどのアーキテクチャの設計上の決定に関する情報を提供したり、プロンプトサイズを最適化したりします。
プロビジョニングされたスループットの使用状況を監視します。 プロビジョニング済みスループットを使用する場合は、プロビジョニングマネージド使用率を監視して、購入したプロビジョニング済みスループットが十分に活用されていない状況が生じないことを確認します。
コスト管理。 OpenAI でコスト管理機能を使用してコストの監視、コストを管理するための予算の設定、リスクや異常を利害関係者に通知するアラートの作成について、ガイダンスに従います。

オペレーショナルエクセレンス

オペレーショナルエクセレンスは、アプリケーションをデプロイし、それを運用環境で実行し続ける運用プロセスを概説するものです。詳細については、「オペレーショナルエクセレンスのデザインレビューチェック一覧」を参照してください。

Machine Learning - 組み込みのプロンプトフローランタイム

自動ランタイムは、運用上の負担を最小限に抑えるための、Machine Learning 内のサーバーレスコンピューティングオプションで、これにより、コンピューティング管理が簡素化され、プロンプトフロー構成の大部分が実行中のアプリケーションの requirements.txt ファイルと flow.dag.yaml 構成に委任されます。メンテナンスに手がかからず、一時的に使用でき、アプリケーション駆動型のオプションとなっています。 コンピューティングインスタンスランタイムまたはこのアーキテクチャなどの外部化されたコンピューティングを使用するには、より多くをワークロードチームが管理するコンピューティングのライフサイクルが必要です。これは、ワークロード要件が自動ランタイムオプションの構成機能を超える場合に選択する必要があります。

監視

すべてのサービスに対して診断が構成されます。 Machine Learning と App Service 以外のすべてのサービスは、ログをすべてキャプチャするように構成されています。 Machine Learning 診断は、顧客とデータのやり取りやサービスの設定を記録するすべてのリソースログである監査ログをキャプチャするように構成されています。 App Service は、AppServiceHTTPLogs、AppServiceConsoleLogs、AppServiceAppLogs、AppServicePlatformLogs をキャプチャするように構成されています。

Azure Monitor ベースラインアラートに含まれるものなど、このアーキテクチャ内のリソースのカスタムアラートの構築を評価します。次に例を示します。

言語モデルの操作

このアーキテクチャのような Azure OpenAI ベースのチャットソリューションのデプロイは、Azure DevOps を使用したプロンプトフローによる GenAIOps と GitHub を使用したプロンプトフローによる GenAIOps のガイダンスに従う必要があります。また、継続的インテグレーションと継続的デリバリー (CI/CD)、およびネットワークで保護されたアーキテクチャのベストプラクティスを考慮する必要があります。次のガイダンスでは、GenAIOps のレコメンデーションに基づいたフローとそれに関連するインフラストラクチャの実装について説明します。このデプロイに関するガイダンスには、ベースラインの高可用性ゾーン冗長 Web アプリケーションアーキテクチャと同じフロントエンドアプリケーション要素は含まれていません。

開発

Machine Learning プロンプトフローでは、Machine Learning スタジオで、および Visual Studio Code 拡張機能経由の両方で、ブラウザーベースの作成エクスペリエンスが提供されます。どちらのオプションも、フローコードをファイルとして保存します。 Machine Learning スタジオを使用する場合、ファイルは Strage アカウントに格納されます。 Microsoft Visual Studio Code で作業する場合、ファイルはローカルファイルシステムに保存されます。

コラボレーション開発のベストプラクティスに従うには、ソースファイルを GitHub などのオンラインソースコードリポジトリに保持する必要があります。このアプローチにより、すべてのコード変更の追跡、フロー作成者間のコラボレーション、すべてのコード変更をテストおよび検証するデプロイフローとの統合が促進されます。

エンタープライズ開発の場合、開発には Microsoft Visual Studio Code 拡張機能とプロンプトフロー SDK/CLI を使用します。プロンプトフローの作成者は、Microsoft Visual Studio Code からフローを構築およびテストし、ローカルに保存されたファイルをオンラインソース管理システムおよびパイプラインと統合できます。ブラウザーベースのエクスペリエンスは探索的な開発に適していますが、何らかの作業を行うことで、ソース管理システムと統合できます。フローフォルダーは、Filesパネルのフローページからダウンロードして解凍し、ソース管理システムにプッシュできます。

評価

他のソフトウェア成果物をテストする場合と同様に、チャットアプリケーションで使用されるフローをテストします。言語モデルの出力に対する唯一の「正しい」答えを指定して断言することは困難ですが、言語モデル自体を使用することで応答を評価することができます。言語モデルフローの次の自動評価を実装することを検討してください。

分類の精度: 言語モデルが「正しい」スコアを与えているか「正しくない」スコアを与えるいるかを評価し、結果を集計して精度グレードを生成します。
コヒーレンス: モデルで予測した回答の文章がどのように書かれているか、および文章が一貫性をもってどのように相互につながっているかを評価します。
流暢性: モデルで予測した回答を、文法と言語の精度の点で評価します。
コンテキストに対する根拠: モデルで予測した回答が、事前構成されたコンテキストにどれだけ適切に基づいているかを評価します。言語モデルの応答が正しい場合でも、指定されたコンテキストに対して検証できない場合、その応答は根拠のないものになります。
関連性: モデルで予測した回答がどれだけ質問と一致しているかを評価します。

自動評価を実装する場合は、次のガイダンスを考慮してください。

評価からスコアを生成し、事前定義された成功しきい値と比較してスコアを測定します。これらのスコアを使用して、パイプラインでのテストの合格/不合格を報告します。
これらのテストの一部では、質問、コンテキスト、およびグラウンドトゥルースの事前構成されたデータ入力が必要です。
テスト結果の信頼性を確保するために、十分な数の質問と回答のペア、少なくとも 100 ~ 150 のペアを含めることをお勧めします。これらの質問と回答のペアは、"ゴールデンデータセット" と呼ばれます。データセットのサイズとドメインによっては、より大きな母集団が必要になる場合があります。
ゴールデンデータセットのデータの生成に言語モデルを使用することは避けます。

デプロイフロー

プロンプトエンジニア/データ科学者は、特定のタスクまたは機能に取り組む機能ブランチを開きます。プロンプトエンジニア/データサイエンティストは、Microsoft Visual Studio Code のプロンプトフローを使用してフローを反復し、定期的に変更をコミットして、その変更を機能ブランチにプッシュします。
ローカルでの開発と実験が完了すると、プロンプトエンジニア/データ科学者は機能ブランチからメインブランチへのプル要求を開きます。プル要求 (PR) は PR パイプラインをトリガーします。このパイプラインでは、次の内容を含む高速の品質チェックが実行されます。
- 実験フローの実行
- 構成された単体テストの実行
- コードベースのコンパイル
- スタティックコード分析
パイプラインには、マージする前に少なくとも 1 人のチームメンバーが PR を手動で承認する必要があるステップを含めることができます。承認者はコミッターにはなれず、プロンプトフローの専門知識があり、プロジェクト要件に精通している必要があります。 PR が承認されない場合、マージはブロックされます。 PR が承認されている場合、または承認手順がない場合、機能ブランチはメインブランチにマージされます。
メインへのマージによって、開発環境のビルドとリリースのプロセスがトリガーされます。具体的には、次のように使用します。
1. CI パイプラインは、マージからメインにトリガーされます。 CI パイプラインでは、PR パイプラインで実行されるすべての手順と、次の手順が実行されます。
- 実験フロー
- 評価フロー
- 変更が検出されると、Machine Learning Registry にフローを登録します
1. CD パイプラインは、CI パイプラインの完了後にトリガーされます。このフローでは次の手順が実行されます。
- Machine Learning レジストリから Machine Learning オンラインエンドポイントにフローをデプロイする
- オンラインエンドポイントを対象とする統合テストを実行する
- オンラインエンドポイントを対象とするスモークテストを実行する
承認プロセスは、リリースプロモーションプロセスに組み込まれています。承認後、手順 4.a & 4.b.で説明されている CI & CD プロセスが、テスト環境を対象に繰り返されます。手順 a. と b. は同じですが、テスト環境のスモークテストの後にユーザー受け入れテストが実行される点が異なります。
手順 4.a & 4.b で説明されている CI & CD プロセスは、テスト環境が検証および承認された後に、リリースを運用環境にレベル上げするために実行されます。
ライブ環境へのリリース後、パフォーマンスメトリックを監視し、デプロイされた言語モデルを評価する運用タスクが実行されます。たとえば、次のようなものが挙げられます。
- データドリフトの検出
- インフラストラクチャの観察
- コストの管理
- モデルのパフォーマンスに関する利害関係者への伝達

展開ガイダンス

Machine Learning エンドポイントを使用すると、運用環境へのリリース時に柔軟な方法でモデルをデプロイできます。最高のモデルのパフォーマンスと品質を確保するには、次の戦略を検討してください。

ブルーグリーンデプロイ: この戦略では、すべてのトラフィックを新しいデプロイに転送する前に、Web サービスの新しいバージョンを一部のユーザーまたは要求のグループに安全にデプロイできます。
A/B テスト: ブルーグリーンデプロイは、変更を安全にロールアウトするのに効果的なだけでなく、一部のユーザーが変更の影響を評価できるようにする新しい動作をデプロイするためにも使用できます。
パイプラインのプロンプトフローの一部である Python ファイルのリンティングを含めます。リンティングは、スタイル標準への準拠、エラー、コードの複雑さ、未使用のインポート、変数の名前付けをチェックします。
ネットワーク分離された Machine Learning ワークスペースにフローをデプロイする場合は、セルフホステッドエージェントを使用してアーティファクトを Azure リソースにデプロイします。
Machine Learning モデルレジストリは、モデルに変更があった場合にのみ更新する必要があります。
言語モデル、フロー、クライアント UI は疎結合である必要があります。フローとクライアント UI の更新は、モデルに影響を与えることなく行うことができ、また、その逆も同様です。
複数のフローを開発してデプロイする場合、各フローには独自のライフサイクルを設定する必要があります。これを行うことで、実験から運用環境にフローのフェーズを移行するときに、疎結合エクスペリエンスを実現できます。

インフラストラクチャ

ベースラインの Azure OpenAI エンドツーエンドチャットコンポーネントをデプロイすると、プロビジョニングされたサービスの一部はアーキテクチャ内で基本的かつ永続的なものになりますが、一部のコンポーネントは本質的に一時的なものであり、その存在はデプロイに結び付いています。

基礎コンポーネント

このアーキテクチャの一部のコンポーネントは、個々のプロンプトフローやモデルデプロイの枠を超えたライフサイクルを持って存在します。通常、これらのリソースはワークロードチームによる基本的なデプロイの一部として一度デプロイされ、プロンプトフローまたはモデルデプロイの新規、削除、更新とは別に保持されます。

Machine Learning ワークスペース
Machine Learning ワークスペース用の Storage アカウント
Container Registry
AI Search
Azure OpenAI
Azure Application Insights
Azure Bastion
ジャンプボックス用の Azure 仮想マシン

エフェメラルコンポーネント

一部の Azure リソースは、特定のプロンプトフローの設計に、より緊密に結合されています。このアプローチにより、これらのリソースをコンポーネントのライフサイクルにバインドし、このアーキテクチャで一時的なものにすることができます。 Azure リソースは、フローの追加や削除、新しいモデルの導入など、ワークロードが進化するときに影響を受けます。これらのリソースは再作成され、以前のインスタンスは削除されます。これらのリソースの一部は直接 Azure リソースであり、一部は、そのリソースが含まれるサービス内のデータプレーンマニフェストです。

Machine Learning モデルレジストリのモデルは、変更された場合、CD パイプラインの一部として更新する必要があります。
コンテナーイメージは、CD パイプラインの一部としてコンテナーレジストリで更新する必要があります。
Machine Learning エンドポイントは、存在しないエンドポイントをデプロイが参照している場合にプロンプトフローがデプロイされると作成されます。パブリックアクセスを無効にするには、そのエンドポイントを更新する必要があります。
Machine Learning エンドポイントのデプロイは、フローがデプロイまたは削除されると更新されます。
新しいエンドポイントが作成されるとき、クライアント UI のキーコンテナーはエンドポイントへのキーで更新される必要があります。

パフォーマンス効率

パフォーマンス効率とは、ユーザーによる需要を満たすために効率的にスケーリングするワークロードの能力です。詳細については、「パフォーマンス効率の設計レビューチェックリスト」を参照してください。

このセクションでは、Azure Search、Azure OpenAI、Machine Learning の観点からパフォーマンス効率について説明します。

Azure Search - パフォーマンス効率

AI Search のパフォーマンスを分析するための、ガイダンスに従ってください。

Azure OpenAI - パフォーマンス効率

アプリケーションで、プロビジョニングされたスループット、または共有ホスティング、または従量課金モデルのどれを要求するかを決定します。プロビジョニングされたスループットは、OpenAI モデルデプロイの予約済み処理機能を保証し、モデルに予測可能なパフォーマンスとスループットを提供します。この課金モデルは、共有ホスティングや従量課金モデルとは異なります。従量課金モデルはベストエフォート型であり、プラットフォーム上の近隣ノイズやその他のストレス要因の影響を受ける可能性があります。
プロビジョニングされたスループットの場合は、プロビジョニングマネージド使用率を監視します。

Machine Learning - パフォーマンス効率

Machine Learning オンラインエンドポイントにデプロイする場合:

オンラインエンドポイントをオートスケールする方法に関するガイダンスに従ってください。これは、特に使用率が低い期間に過剰なオーバープロビジョニングを行わずに、需要に的確に沿うようにするためです。
パフォーマンスの目標を達成するために、オンラインエンドポイントに適切な仮想マシン SKU を選択してください。最適な構成を見つけるには、少ないインスタンス数と大きな SKU の組み合わせ、および多くのインスタンス数と小さな SKU の組み合わせの両方のパフォーマンスをテストします。

このシナリオのデプロイ

参照実装をデプロイして実行するには、OpenAI のエンドツーエンドのベースライン参照実装の手順に沿って対応してください。

共同作成者

この記事は、Microsoft によって保守されています。当初の寄稿者は以下のとおりです。

Rob Bagby | パターン & プラクティス - Microsoft
Freddy Ayala | クラウドソリューションアーキテクト - Microsoft
Prabal Deb | シニアソフトウェアエンジニア - Microsoft
Raouf Aliouat | ソフトウェアエンジニア II - マイクロソフト
Ritesh Modi | プリンシパルソフトウェアエンジニア - Microsoft
Ryan Pfalz | シニアソリューションアーキテクト - Microsoft

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次のステップ

Azure OpenAI

次の方法で共有

ベースライン OpenAI エンドツーエンド チャット リファレンス アーキテクチャ

Architecture

コンポーネント

Machine Learning プロンプト フロー

プロンプト フローのランタイム

ネットワーク

ネットワーク フロー

Machine Learning へのイングレス

Machine Learning マネージド仮想ネットワークから Azure PaaS サービスへのフロー

仮想ネットワークのセグメント化とセキュリティ

コンテンツのフィルタリングと不正使用の監視

信頼性

フロー デプロイのゾーン冗長

Azure OpenAI - 信頼性

AI Search - 信頼性

Machine Learning - 信頼性

セキュリティ

ID 管理とアクセス管理

Machine Learning のロールベースのアクセス ロール

キーの交換

OpenAI モデルのチューニング

ポリシーによるガバナンス

コストの最適化

Compute

Azure OpenAI

オペレーショナルエクセレンス

Machine Learning - 組み込みのプロンプト フロー ランタイム

監視

言語モデルの操作

開発

評価

デプロイ フロー

展開ガイダンス

インフラストラクチャ

基礎コンポーネント

エフェメラル コンポーネント

パフォーマンス効率

Azure Search - パフォーマンス効率

Azure OpenAI - パフォーマンス効率

Machine Learning - パフォーマンス効率

このシナリオのデプロイ

共同作成者

次のステップ

関連リソース

フィードバック

その他のリソース

ベースライン OpenAI エンドツーエンドチャットリファレンスアーキテクチャ

Machine Learning プロンプトフロー

プロンプトフローのランタイム

ネットワークフロー

フローデプロイのゾーン冗長

Machine Learning のロールベースのアクセスロール

Machine Learning - 組み込みのプロンプトフローランタイム

デプロイフロー

エフェメラルコンポーネント