概要: Azure AI Studio を使用してモデル、フロー、Web アプリをデプロイする

Azure AI Studio では、大規模な言語モデル (LLM)、フロー、Web アプリのデプロイがサポートされています。 LLM またはフローをデプロイすると、Web サイト、アプリケーション、またはその他の運用環境で使用できるようになります。 この作業には通常、サーバーまたはクラウドでモデルをホストし、ユーザーがモデルと対話するための API またはその他のインターフェイスを作成することが含まれます。

デプロイされたモデルとの対話のプロセスは、"推論" と呼ばれます。 推論では、モデルに新しい入力データを適用して出力を生成します。

推論は、さまざまなアプリケーションで使用できます。 たとえば、チャット補完モデルを使用して、ユーザーが入力している単語や語句をリアルタイムで自動的に完了させることができます。 また、チャット モデルを使用して、"シアトルでの 1 日の訪問スケジュールを作成できますか?" という質問に対する応答を生成することもできます。可能性は無限です。

モデルのデプロイ

まずは、次のような疑問があるかもしれません。

  • "どのようなモデルをデプロイできますか?"

    Azure AI Studio では、Microsoft、Hugging Face、Meta などによってキュレーションされた、最も一般的な大規模言語およびビジョン基盤モデルのデプロイがサポートされています。

  • "適切なモデルを選択するにはどうすればよいですか?"

    Azure AI Studio には、ユース ケースに基づいてモデルを検索およびフィルター処理できるモデルカタログが用意されています。 また、プロジェクトにデプロイする前に、サンプル プレイグラウンドでモデルをテストすることもできます。

  • "Azure AI Studio のどこからモデルをデプロイできますか?"

    モデルは、モデル カタログまたはプロジェクトのデプロイ ページからデプロイできます。

Azure AI Studio によりデプロイが簡略化されます。 単純な選択またはコード行によってモデルがデプロイされ、アプリケーションが使用する API エンドポイントが生成されます。

Azure OpenAI のモデル

Azure OpenAI Service を使用すると、Azure から、エンタープライズ機能を持つ最新の OpenAI モデルにアクセスできます。 AI Studio で Azure OpenAI モデルをデプロイする方法の詳細を確認してください

オープン モデル

モデルカタログでは、モダリティ全体でさまざまなモデルにアクセスできます。 モデルカタログ内のモデルの中には、従量課金制で課金されるサービスとしてデプロイできるものがあります。 この機能では、組織が必要とするエンタープライズ セキュリティとコンプライアンスを維持しながら、サブスクリプションでホストすることなくモデルを API として利用する方法が提供されます。

モデルをサーバーレス API としてデプロイする

サーバーレス API としてのモデル デプロイでは、サブスクリプションからのクォータは必要ありません。 このオプションを使用すると、サービスとしてのモデル (MaaS) をデプロイできます。 サーバーレス API デプロイを使用して、従量課金制でトークンごとに課金が行われます。 サーバーレス API としてのモデルのデプロイについて詳しくは、「モデルをサーバーレス API としてデプロイする」を参照してください。

ホストされたマネージド インフラストラクチャを使用してモデルをデプロイする

マネージド インフラストラクチャ、仮想マシン、容量管理用の多数のインスタンスを使用して、独自のサブスクリプションでオープン モデルをホストできます。 Azure OpenAI、Hugging Face、NVIDIA の幅広いモデルがあります。 オープン モデルをリアルタイム エンドポイントにデプロイする方法に関する詳細を確認してください

Azure AI Studio での LLM のデプロイと推論に関する課金

次の表では、Azure AI Studio での LLM のデプロイと推論に対する課金について説明します。 コストを追跡する方法の詳細については、「Azure Marketplace を通じて提供されるモデルのコストを監視する」を参照してください。

ユース ケース Azure OpenAI のモデル サーバーレス API としてデプロイされたモデル (従量課金制) マネージド コンピューティングを使用してデプロイされたモデル
モデル カタログからプロジェクトへのモデルのデプロイ いいえ。Azure OpenAI モデルをプロジェクトにデプロイしても課金されません。 はい。エンドポイントのインフラストラクチャに従って課金されます。1 はい。モデルをホストするインフラストラクチャに対して課金されます。2
プロジェクトにモデルをデプロイした後のプレイグラウンドでのチャット モードのテスト はい。トークンの使用量に基づいて課金されます。 はい。トークンの使用量に基づいて課金されます。 なし
モデルカタログのサンプル プレイグラウンドでのモデルのテスト (該当する場合) 適用なし なし なし
プロジェクトのプレイグラウンド (該当する場合) またはプロジェクトのデプロイ詳細ページの [テスト] タブでのモデルのテスト。 はい。トークンの使用量に基づいて課金されます。 はい。トークンの使用量に基づいて課金されます。 なし

1 最小エンドポイント インフラストラクチャは 1 分単位で課金されます。 従量課金制でモデルをホストするインフラストラクチャに対しては課金されません。 エンドポイントを削除したら、それ以上の料金は発生しません。

2 課金は、製品層と、作成時以降にデプロイで使用されたインスタンスの数に応じて分単位で行われます。 エンドポイントを削除したら、それ以上の料金は発生しません。

フローのデプロイ

フローとは何ですか。また、デプロイする理由は何ですか? フローとは、生成 AI アプリケーションの構築に使用できるツールのシーケンスです。 フローのデプロイは、独自のデータや埋め込み、ベクター データベース参照、カスタム接続などの他のコンポーネントを使用してフローをカスタマイズできる点で、モデルのデプロイとは異なります。 攻略ガイドについては、「リアルタイム推論のフローをデプロイする」を参照してください。

たとえば、データを使用して、ユーザーの問い合わせに対する情報に基づいた応答を生成するチャットボットを構築できます。 プレイグラウンドにデータを追加すると、プロンプト フローが自動的に生成されます。 フローはそのままデプロイすることも、カスタマイズすることもできます。 Azure AI Studio では、独自のフローを一から作成することもできます。

Azure AI Studio でフローを作成するどの方法を選択するかにかかわらず、それを迅速にデプロイし、アプリケーションが使用する API エンドポイントを生成できます。

Web アプリのデプロイ

デプロイするモデルまたはフローは、Azure でホストされている Web アプリケーションで使用できます。 Azure AI Studio には、Web アプリを簡単にデプロイする方法が用意されています。 詳細については、Azure AI Studio Enterprise Chat に関するチュートリアルを参照してください。

デプロイされたモデルの AI の安全性の計画

GPT-4 などの Azure OpenAI モデルの場合、Azure AI Studio では、AI の責任ある使用を保証するために、デプロイ中に安全性フィルターが提供されます。 安全性フィルターを使用すると、有害および機密性の高いコンテンツをモデレートして、AI 強化アプリケーションの安全性を促進できます。

Azure AI Studio では、デプロイされたモデルのモデルモニタリングも提供されます。 LLM のモデルモニタリングでは、最新の GPT 言語モデルを使用して監視し、モデルの出力が生成の安全性と品質の設定されたしきい値に対してパフォーマンスが低い場合にアラートを生成します。 たとえば、モデルで生成された回答が入力ソースからの情報にどの程度一致しているか ("現実性")、および実測値の文章やドキュメントにどの程度適合しているか ("類似性") を評価するモニターを構成できます。

デプロイされたモデルのパフォーマンスの最適化

LLM を最適化するには、運用メトリック (待機時間など)、品質メトリック (精度など)、コストなど、いくつかの要因を慎重に検討する必要があります。 経験豊富なデータ サイエンティストやエンジニアと協力して、モデルが特定のユース ケースに合わせて最適化されるようにすることが重要です。