リアルタイム推論のためのオンラインエンドポイントのデプロイ

[アーティクル]
09/23/2024

適用対象:Azure CLI ml extension v2 (現行)Python SDK azure-ai-ml v2 (現行)

この記事では、Azure Machine Learning でのリアルタイム推論のためのオンラインエンドポイントについて説明します。推論とは、機械学習モデルに新しい入力データを適用して出力を生成するプロセスです。 Azure Machine Learning では、"オンラインエンドポイント" にデプロイされたモデルを使って、データに対してリアルタイムの推論を実行できます。通常、これらの出力は "予測" と呼ばれますが、推論を使うと、分類やクラスタリングなどの他の機械学習タスク用の出力を生成できます。

オンラインエンドポイント

オンラインエンドポイントを使うと、HTTP プロトコルの下で予測を返すことができるモデルが Web サーバーにデプロイされます。オンラインエンドポイントは、同期された低遅延要求のリアルタイム推論用のモデルを運用化することができ、次の場合に最適です。

低遅延の要件がある。
モデルが比較的短時間で要求に応答できる。
モデルの入力が要求の HTTP ペイロードに適合する。
要求の数をスケールアップする必要がある。

エンドポイントを定義するには、以下を指定する必要があります。

エンドポイント名。この名前は Azure リージョン内で一意である必要があります。その他の名前付け要件については、「Azure Machine Learning オンラインエンドポイントとバッチエンドポイント」を参照してください。
認証モード。エンドポイントに対して、キーベースの認証モード、Azure Machine Learning トークンベースの認証モード、または Microsoft Entra トークンベースの認証の中から選ぶことができます。認証の詳細については、オンラインエンドポイントのクライアントを認証するに関する記事を参照してください。

マネージドオンラインエンドポイント

マネージドオンラインエンドポイントを使用すると、便利なターンキー方式で機械学習モデルがデプロイされます。これは、Azure Machine Learning オンラインエンドポイントを使用するための推奨される方法です。マネージドオンラインエンドポイントは、スケーラブルでフルマネージドの方法で Azure の強力な CPU および GPU マシンと動作します。

基になるインフラストラクチャの設定と管理のオーバーヘッドをなくすために、モデルの提供、スケーリング、セキュリティ保護、監視もこれらのエンドポイントで行われます。マネージドオンラインエンドポイントを定義する方法については、「エンドポイントを定義する」を参照してください。

マネージドオンラインエンドポイントと Azure Container Instances または Azure Kubernetes Service (AKS) v1

マネージドオンラインエンドポイントは、Azure Machine Learning でオンラインエンドポイントを使うためのお勧めの方法です。次の表は、Azure Container Instances および Azure Kubernetes Service (AKS) v1 ソリューションと比較した、マネージドオンラインエンドポイントの主な属性を示しています。

属性	マネージドオンラインエンドポイント (v2)	Container Instances または AKS (v1)
ネットワークのセキュリティと分離	クイックトグルを使った受信/送信制御が簡単	仮想ネットワークがサポートされていないか、複雑な手動構成が必要
管理されたサービス	• フルマネージドのコンピューティングのプロビジョニングとスケーリング • データ流出防止のためのネットワーク構成 • ホスト OS のアップグレード、インプレース更新の制御されたロールアウト	• スケーリングが制限される • ユーザーがネットワーク構成またはアップグレードを管理する必要がある
エンドポイントとデプロイの概念	エンドポイントとデプロイの区別があるため、モデルの安全なロールアウトなど、複雑なシナリオに対応可能	エンドポイントの概念なし
診断および監視	• Docker と Visual Studio Code でローカルエンドポイントのデバッグが可能 • デプロイ間で比較するための、グラフやクエリを使った高度なメトリックとログ分析 • コストの内訳はデプロイレベルまで可能	ローカルデバッグが複雑
スケーラビリティ	エラスティックスケーリングと自動スケーリング (既定のクラスターサイズにバインドされない)	• Container Instances はスケーラブルでない • AKS v1 はクラスター内スケーリングのみをサポートし、スケーラビリティ構成が必要
エンタープライズ対応	プライベートリンク、カスタマーマネージドキー、Microsoft Entra ID、クォータ管理、課金の統合、サービスレベルアグリーメント (SLA)	サポートされていません
高度な ML 機能	• モデルデータ収集 • モデルの監視 • チャンピオンチャレンジャーモデル、安全なロールアウト、トラフィックミラーリング • 責任ある AI の拡張性	サポートされていません

マネージドオンラインエンドポイントと Kubernetes オンラインエンドポイント

モデルのデプロイやエンドポイントの提供に Kubernetes を利用しており、インフラストラクチャ要件の管理に慣れている場合は、"Kubernetes オンラインエンドポイント" を使うことができます。これらのエンドポイントでは、CPU や GPU を使って、完全に構成されたマネージド Kubernetes クラスターでどこでもモデルのデプロイやオンラインエンドポイントの提供を行うことができます。

マネージドオンラインエンドポイントを使うと、デプロイプロセスを効率化し、Kubernetes オンラインエンドポイントに対して次の利点を得ることができます。

自動インフラストラクチャ管理
- コンピューティングをプロビジョニングし、モデルをホストします。仮想マシン (VM) の種類とスケール設定を指定するだけです。
- 基になるホスト OS イメージを更新し、パッチを適用します。
- システム障害が発生した場合にノードの回復を実行します。
監視とログ
- Azure Monitor とのネイティブ統合を使用して、モデルの可用性、パフォーマンス、SLA を監視できます。
- ログと、Log Analytics とのネイティブ統合を使用した、デプロイのデバッグの容易さ。
コスト分析ビューでは、エンドポイントとデプロイのレベルでコストを監視できます。

注意

マネージドオンラインエンドポイントは、Azure Machine Learning コンピューティングに基づいています。マネージドオンラインエンドポイントを使用する場合は、コンピューティングとネットワークの料金を支払います。追加料金は発生しません。価格の詳細については、Azure の料金計算ツールに関するページを参照してください。

Azure Machine Learning 仮想ネットワークを使ってマネージドオンラインエンドポイントからの送信トラフィックをセキュリティで保護する場合は、マネージド仮想ネットワークで使う Azure プライベートリンクと完全修飾ドメイン名 (FQDN) アウトバウンド規則について課金されます。詳細については、マネージド仮想ネットワークの価格に関する記事を参照してください。

次の表は、マネージドオンラインエンドポイントトと Kubernetes オンラインエンドポイントの主な違いを示しています。

	マネージドオンラインエンドポイント	Kubernetes オンラインエンドポイント (AKS v2)
推奨されるユーザー	マネージドモデルデプロイおよび拡張された MLOps エクスペリエンスを必要とするユーザー	Kubernetes を使用し、インフラストラクチャの要件を自己管理できるユーザー
ノードプロビジョニング	マネージドコンピューティングのプロビジョニング、更新、削除	ユーザーの責任での対応
ノードメンテナンス	マネージドホスト OS イメージの更新とセキュリティ強化	ユーザーの責任での対応
クラスターのサイズ設定 (スケーリング)	マネージド手動および自動スケーリング、追加のノードプロビジョニングをサポート	手動と自動スケーリング、固定クラスター境界内のレプリカ数のスケーリングをサポート
コンピューティングの種類	サービスによって管理	カスタマーマネージド Kubernetes クラスター
マネージド ID	サポートされています	サポートされています
仮想ネットワーク	マネージドネットワーク分離を介してサポート	ユーザーの責任での対応
追加設定なしの監視およびログ	Azure Monitor と Log Analytics を利用 (エンドポイントとデプロイの主要なメトリックとログテーブルを含む)	ユーザーの責任での対応
Application Insights のログ (レガシ)	サポートされています	サポートされています
コストビュー	エンドポイントまたはデプロイレベルに関する詳細	クラスターレベル
コスト適用対象	デプロイに割り当てられた仮想マシン (VM)	クラスターに割り当てられた VM
ミラー化されたトラフィック	サポートされています	サポートされていない
コードなしのデプロイ	MLflow と Triton の各モデルをサポート	MLflow と Triton の各モデルをサポート

オンラインデプロイ

"デプロイ" は、推論を行うモデルをホストするのに必要な一連のリソースとコンピューティングです。 1 つのエンドポイントに、異なる構成を持つ複数のデプロイを含めることができます。このセットアップを使うと、デプロイに提示されている "実装の詳細" から、エンドポイントによって提示されている "インターフェイスを切り離す" ことができます。オンラインエンドポイントには、エンドポイント内の特定のデプロイに要求を転送できるルーティングメカニズムがあります。

次の図は、"blue" と "green" の 2 つのデプロイを持つオンラインエンドポイントを示しています。 Blue デプロイでは、CPU SKU を持つ VM が使用され、モデルのバージョン 1 が実行されます。 green デプロイでは、GPU SKU を持つ VM が使用され、モデルのバージョン 2 が実行されます。エンドポイントは着信トラフィックの 90% を blue デプロイにルーティングするように構成されていますが、残りの 10% は green デプロイが受け取ります。

2 つのデプロイへトラフィックを分割するエンドポイントを示す図。

モデルをデプロイするには、次が必要です。

モデルファイル (または、ワークスペースに既に登録されているモデルの名前とバージョン)。
特定の入力要求でモデルを実行するスコアリングスクリプト コード。

スコアリングスクリプトは、デプロイされた Web サービスに送信されたデータを受け取り、それをモデルに渡します。その後、スクリプトはモデルを実行して、その応答をクライアントに返します。スコアリングスクリプトはモデルに固有のものであり、モデルが入力として期待し、出力として返すデータを理解する必要があります。
モデルを実行するための環境。この環境には、Conda 依存関係がある Docker イメージか、または Dockerfile のいずれかを使用できます。
インスタンスの種類とスケーリングキャパシティを指定するための設定。

Azure CLI、Python SDK、Azure Machine Learning スタジオ、または ARM テンプレートを使用してオンラインエンドポイントをデプロイする方法については、オンラインエンドポイントを使用した機械学習モデルのデプロイに関するページを参照してください。

デプロイの主な属性

次の表は、デプロイの主な属性について説明しています。

属性	内容
名前	デプロイの名前。
エンドポイント名	デプロイを作成するエンドポイントの名前。
モデル	デプロイに使用するモデル。この値は、ワークスペース内の既存のバージョン管理されたモデルへの参照またはインラインモデルの仕様のいずれかです。モデルへのパスを追跡および指定する方法について詳しくは、「オンラインエンドポイントで使用するためにデプロイするモデルを指定する」をご覧ください。
コードパス	モデルのスコアリングに使用されるすべての Python ソースコードが格納されている、ローカル開発環境上のディレクトリへのパス。入れ子になったディレクトリとパッケージを使用できます。
スコアリングスクリプト	ソースコードディレクトリ内のスコアリングファイルへの相対パス。この Python コードには、`init()` 関数と `run()` 関数が含まれている必要があります。 `init()` 関数は、モデルが作成または更新された後に呼び出され、たとえばモデルをメモリにキャッシュします。 `run()` 関数は、実際のスコアリングおよび予測を実行するために、エンドポイントが呼び出されるたびに呼び出されます。
環境	モデルとコードをホスティングする環境。この値は、ワークスペース内の既存のバージョン管理された環境への参照、またはインライン環境仕様のいずれかになります。
インスタンスの種類	デプロイに使用する VM サイズ。サポートされているサイズの一覧については、マネージドオンラインエンドポイント SKU の一覧に関するページを参照してください。
インスタンス数	デプロイに使用するインスタンスの数。想定されるワークロードに基づく値を指定します。高可用性を実現するために、この値を少なくとも `3` に設定します。システムは、アップグレードを実行するために 20% 余分に予約されています。詳細については、「デプロイのための VM クォータの割り当て」を参照してください。

オンラインデプロイに関する注意

デプロイは、環境に定義されているモデルとコンテナーイメージをいつでも参照できます。たとえば、デプロイインスタンスにセキュリティ修正プログラムやその他の復旧操作を実施するときなどです。 Azure Container Registry で登録済みのモデルまたはコンテナーイメージをデプロイに使用し、後からそのモデルまたはコンテナーイメージを削除した場合、再イメージ化が行われると、これらの資産に依存するデプロイが失敗する可能性があります。モデルまたはコンテナーイメージを削除した場合は必ず、依存するデプロイを代替モデルまたはコンテナーイメージで再作成または更新してください。
環境で参照されるコンテナーレジストリは、エンドポイント ID に Microsoft Entra 認証と Azure ロールベースのアクセス制御 (RBAC) を介してアクセスする権限がある場合にのみ、プライベートにすることができます。同じ理由から、Container Registry 以外のプライベート Docker レジストリはサポートされていません。
Microsoft は、既知のセキュリティ脆弱性に対して、定期的にベースイメージにパッチを適用しています。パッチが適用されたイメージを使うには、エンドポイントを再デプロイする必要があります。独自のイメージを指定する場合は、その更新も行う必要があります。詳細については、「イメージの修正」を参照してください。

デプロイのための VM クォータの割り当て

マネージドオンラインエンドポイントの場合、Azure Machine Learning では、一部の VM SKU でアップグレードを実行するためにコンピューティングリソースの 20% が予約されます。デプロイ内のそれらの VM SKU に対して特定の数のインスタンスを要求する場合は、使用可能な ceil(1.2 * number of instances requested for deployment) * number of cores for the VM SKU のクォータを確保して、エラーが発生しないようにする必要があります。たとえば、デプロイで Standard_DS3_v2 VM (4 コアを搭載) の 10 個のインスタンスを要求する場合は、使用可能な 48 コア (12 instances * 4 cores) のクォータが必要です。この追加のクォータは、OS のアップグレードや VM の復旧などのシステムによって開始される操作用に予約されており、そのような操作が実行されない限りコストは発生しません。

追加のクォータ予約から除外される特定の VM SKU があります。完全な一覧を表示するには、マネージドオンラインエンドポイント SKU の一覧を参照してください。使用状況を確認してクォータの増加を要求するには、「Azure portal で使用状況とクォータを表示する」を参照してください。マネージドオンラインエンドポイントの実行コストを表示するには、「マネージドオンラインエンドポイントのコストを表示する」を参照してください。

共有クォータプール

Azure Machine Learning には共有クォータプールが用意されており、さまざまなリージョンのユーザーが、可用性に応じて、そのクォータにアクセスして限られた時間だけテストを実行できます。スタジオを使ってモデルカタログから Llama-2、Phi、Nemotron、Mistral、Dolly、Deci-DeciLM モデルをマネージドオンラインエンドポイントにデプロイした場合、Azure Machine Learning では、テストを実行できるように、少しの間、その共有クォータプールにアクセスできます。共有クォータプールについて詳しくは、「Azure Machine Learning の共有クォータ」をご覧ください。

共有クォータを使用してモデルカタログから Llama-2、Phi、Nemotron、Mistral、Dolly、Deci-DeciLM の各モデルをデプロイするには、Enterprise Agreement サブスクリプションを持っている必要があります。オンラインエンドポイントのデプロイに共有クォータを使用する方法の詳細については、「スタジオを使用して基礎モデルをデプロイする方法」を参照してください。

Azure Machine Learning のリソースのクォータと制限の詳細については、「Azure Machine Learning を使用するリソースのクォータと制限の管理と引き上げ」を参照してください。

プログラマーと非プログラマーに対応したデプロイ

Azure Machine Learning は、"コードなしのデプロイ"、"ローコードデプロイ"、"Bring Your Own Container (BYOC) デプロイ" のオプションを提供しており、プログラマーと非プログラマーのいずれに対しても、オンラインエンドポイントへのモデルデプロイをサポートしています。

コードなしのデプロイでは、一般的なフレームワーク (scikit-learn、TensorFlow、PyTorch、Open Neural Network Exchange (ONNX) など) に対する推論を、MLflow や Triton を使って追加設定なしで行うことができます。
ローコードデプロイでは、デプロイに対して、機械学習モデルと併せて最小限のコードを指定できます。
BYOC デプロイでは、事実上あらゆるコンテナーを使ってオンラインエンドポイントを実行できます。自動スケーリング、GitOps、デバッグ、安全なロールアウトなど、Azure Machine Learning プラットフォームのあらゆる機能を使って、MLOps パイプラインを管理できます。

次の表は、オンラインデプロイのオプションの主な側面を示しています。

	コードなし	ローコード	BYOC
まとめ	scikit-learn、TensorFlow、PyTorch、ONNX などの一般的なフレームワークに対して MLflow や Triton を使って追加設定なしで行うことができる推論を使います。詳細については、「MLflow モデルのオンラインエンドポイントへのデプロイ」を参照してください。	一般的なフレームワークには、安全で公開済みのキュレーションされたイメージを使います。脆弱性に対処するために、2 週間ごとに更新プログラムが実行されます。ユーザーは、スコアリングスクリプトや Python の依存関係を指定します。詳細については、「Azure Machine Learning のキュレーションされた環境」を参照してください。	カスタムイメージに対する Azure Machine Learning のサポートを使って、完全なスタックを指定します。詳細については、「カスタムコンテナーを使用してモデルをオンラインエンドポイントにデプロイする」を参照してください。
カスタム基本イメージ	なし。キュレーションされた環境では、デプロイを容易にするためのベースイメージが提供されます。	キュレーションされたイメージを使用することも、カスタマイズしたイメージを使用することもできます。	docker.io、Container Registry、Microsoft アーティファクトレジストリなどのアクセス可能なコンテナーイメージの場所、またはコンテナーの Container Registry でビルドまたはプッシュできる Dockerfile のいずれかを使用します。
カスタムの依存関係	なし。キュレーションされた環境では、デプロイを容易にするための依存関係が提供されます。	モデルが実行されている Azure Machine Learning 環境を使います (Conda 依存関係を含む Docker イメージ、または dockerfile)。	カスタム依存関係はコンテナーイメージに含まれています。
カスタムコード	なし。簡単にデプロイできるように、スコアリングスクリプトが自動生成されます。	独自のスコアリングスクリプトをお使いください。	スコアリングスクリプトはコンテナーイメージに含まれています。

Note

AutoML 実行では、スコアリングスクリプトと依存関係がユーザーに代わって自動的に作成されます。コードなしのデプロイでは、他のコードを作成しなくても、任意の AutoML モデルをデプロイできます。ローコードデプロイでは、自動生成されたスクリプトをビジネスニーズに合わせて変更できます。 AutoML モデルを使用してデプロイする方法については、「AutoML モデルをオンラインエンドポイントにデプロイする方法」を参照してください。

オンラインエンドポイントのデバッグ

可能であれば、Azure にデプロイする前にローカルでエンドポイントをテスト実行してコードと構成を検証し、デバッグします。 Azure CLI と Python SDK ではローカルのエンドポイントとデプロイがサポートされていますが、Azure Machine Learning スタジオと ARM テンプレートではローカルのエンドポイントまたはデプロイはサポートされていません。

Azure Machine Learning には、オンラインエンドポイントをローカルで、およびコンテナーログを使ってデバッグするために、次の方法が用意されています。

Azure Machine Learning 推論 HTTP サーバーを使用したローカルデバッグ
ローカルエンドポイントを使用したローカルデバッグ
ローカルエンドポイントと Visual Studio Code を使用したローカルデバッグ
コンテナーログを使用したデバッグ

Azure Machine Learning 推論 HTTP サーバーを使用したローカルデバッグ

Azure Machine Learning 推論 HTTP サーバーを使うと、スコアリングスクリプトをローカルでデバッグできます。この HTTP サーバーは、スコアリング関数を HTTP エンドポイントとして公開し、Flask サーバーコードと依存関係を単一のパッケージにラップしている Python パッケージです。

Azure Machine Learning では、モデルをデプロイするために使用する推論用の事前構築済み Docker イメージに HTTP サーバーが含まれています。このパッケージだけを使って、運用環境用にローカルにモデルをデプロイすることができ、ローカル開発環境でエントリスコアリングスクリプトを簡単に検証することもできます。スコアリングスクリプトに問題がある場合、サーバーからエラーとそのエラーが発生した場所が返されます。 Visual Studio Code を使って、Azure Machine Learning 推論 HTTP サーバーでデバッグすることもできます。

ヒント

Azure Machine Learning 推論 HTTP サーバー Python パッケージを使用して、Docker エンジンなしでスコアリングスクリプトをローカルでデバッグできます。推論サーバーを使用したデバッグは、ローカルエンドポイントにデプロイする前にスコアリングスクリプトをデバッグするのに役立ちます。これにより、デプロイコンテナーの構成の影響を受けることなくデバッグできます。

HTTP サーバーを使ったデバッグの詳細については、「Azure Machine Learning 推論 HTTP サーバーを使用してスコアリングスクリプトをデバッグする」を参照してください。

ローカルエンドポイントを使用したローカルデバッグ

ローカルデバッグの場合は、ローカル Docker 環境にデプロイされたモデルが必要です。このローカルデプロイは、クラウドにデプロイする前のテストやデバッグに使うことができます。

ローカルにデプロイするには、Docker エンジンをインストールして実行している必要があります。そうすると、Azure Machine Learning によって、オンラインイメージを模倣するローカル Docker イメージが作成されます。 Azure Machine Learning は、自動的にローカルでデプロイを構築して実行し、迅速な反復処理用にイメージをキャッシュします。

ヒント

コンピューターの起動時に Docker エンジンが起動しない場合は、Docker エンジンのトラブルシューティングを行うことができます。 Docker Desktop などのクライアント側ツールを使用し、コンテナーで起こることをデバッグできます。

ローカルデバッグには、通常、次の手順が含まれます。

最初に、ローカルデプロイが成功したことを確認します。
次に、推論のためにローカルエンドポイントを呼び出します。
最後に、invoke 操作の出力ログを確認します。

ローカルエンドポイントには、次の制限があります。

トラフィックルール、認証、プローブ設定はサポートされていません。
エンドポイントごとにサポートされるデプロイは 1 つのみです。
ローカルモデルファイル、およびローカルの conda ファイルのみの環境をサポートします。
- 登録済みのモデルをテストするには、最初にそれらを CLI または SDK を使用してダウンロードしてから、デプロイ定義で path を使用して親フォルダーを参照します。
- 登録された環境をテストするには、Azure Machine Learning スタジオで環境のコンテキストを確認し、使用するローカル conda ファイルを準備します。

ローカルデバッグの詳細については、「ローカルエンドポイントを使ってデプロイしローカルでデバッグする」を参照してください。

ローカルエンドポイントと Visual Studio Code を使用したローカルデバッグ (プレビュー)

重要

現在、この機能はパブリックプレビュー段階にあります。このプレビューバージョンはサービスレベルアグリーメントなしで提供されており、運用環境のワークロードに使用することは推奨されません。特定の機能はサポート対象ではなく、機能が制限されることがあります。

詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

ローカルデバッグと同様に、Docker エンジンをインストールして実行してから、ローカル Docker 環境にモデルをデプロイする必要があります。ローカルデプロイを実行すると、Azure Machine Learning のローカルエンドポイントでは、Docker と Visual Studio Code の開発コンテナーを使ったローカルのデバッグ環境の構築と構成が行われます。

開発コンテナーでは、Docker コンテナー内から、対話型デバッグなど、Visual Studio Code の機能を使用できます。 VS Code でのオンラインエンドポイントの対話型デバッグの詳細については、「Visual Studio Code を使用してオンラインエンドポイントをローカルでデバッグする」を参照してください。

コンテナーログを使用したデバッグ

モデルがデプロイされる VM に直接アクセスすることはできませんが、VM で実行されている次のコンテナーからログを取得できます。

推論サーバーコンソールログには、スコアリングスクリプト score.py コードからの出力またはログ関数の出力が含まれます。
ストレージ初期化子ログには、コードとモデルデータがコンテナーに正常にダウンロードされたかどうかに関する情報が含まれます。推論サーバーコンテナーの実行が開始される前に、コンテナーが実行されます。

コンテナーログを使ったデバッグの詳細については、「コンテナーログを取得する」を参照してください。

オンラインデプロイへのトラフィックルーティングとミラーリング

1 つのオンラインエンドポイントに複数のデプロイを含めることができます。エンドポイントで受信トラフィック要求を受け取ると、ネイティブのブルー/グリーンデプロイ戦略の場合と同様に、トラフィックの割合を各デプロイにルーティングできます。エンドポイントでは、あるデプロイから別のデプロイへのトラフィックをミラーリングまたはコピーすることもできます。これは、トラフィックミラーリングまたはシャドウイングともいいます。

blue/green デプロイのトラフィックルーティング

ブルー/グリーンデプロイは、新しいグリーンデプロイを完全にロールアウトする前に、小さなサブセットのユーザーまたは要求にロールアウトできるデプロイ戦略です。エンドポイントでは、負荷分散を実装して、特定の割合のトラフィックを各デプロイに割り当てることができます。すべてのデプロイに対して、合計最大 100% が割り当てられます。

ヒント

要求では、azureml-model-deployment の HTTP ヘッダーを含めることによって、構成されたトラフィックの負荷分散をバイパスできます。ヘッダーの値を、要求のルーティング先のデプロイの名前に設定します。

次の図は、blue デプロイと green デプロイの間のトラフィックの割り当てに対する Azure Machine Learning スタジオでの設定を示しています。

デプロイ間のトラフィック割り当てを設定するためのスライダーインターフェイスを示すスクリーンショット。

上記のトラフィック割り当てでは、次の図に示すように、トラフィックの 10% がグリーンデプロイに、トラフィックの 90% がブルーデプロイにルーティングされます。

2 つのデプロイへトラフィックを分割するエンドポイントを示す図。

オンラインデプロイへのトラフィックミラーリング

エンドポイントでは、あるデプロイから別のデプロイへのトラフィックをミラーリングまたはコピーすることもできます。トラフィックミラーリング (シャドウテストともいいます) は、顧客が既存のデプロイから受け取る結果に影響を与えることなく、実稼働トラフィックで新しいデプロイをテストする場合に使用できます。

たとえば、トラフィックの 100% がブルーにルーティングされ、10% がグリーンデプロイにミラーリングされるブルー/グリーンデプロイを実装できます。グリーンデプロイにミラーリングされたトラフィックの結果はクライアントに返されませんが、メトリックとログが記録されます。

デプロイへのトラフィックをミラーリングするエンドポイントを示す図。

トラフィックミラーリングを使用する方法の詳細については、「リアルタイム推論のために新しいデプロイの安全なロールアウトを実行する」を参照してください。

その他のオンラインエンドポイント機能

以降のセクションでは、Azure Machine Learning オンラインエンドポイントのその他の機能について説明します。

認証と暗号化

認証: キーと Azure Machine Learning トークン
マネージド ID: ユーザー割り当ておよびシステム割り当て
エンドポイント呼び出し用の既定の Secure Socket Layer (SSL)

自動スケール

自動スケールでは、アプリケーションの負荷を処理するために適切な量のリソースが自動的に実行されます。マネージドエンドポイントは、Azure Monitor 自動スケーリング機能との統合によって、自動スケールをサポートします。 CPU 使用率 >70% などのメトリックベースのスケーリング、ピーク営業時間ルールなどのスケジュールベースのスケーリング、またはその両方を構成できます。

ルールに応じて、最小インスタンスと最大インスタンスの間で自動スケールが柔軟に提供することを示すスクリーンショット。

詳細については、「Azure Machine Learning でのオンラインエンドポイントの自動スケーリング」を参照してください。

マネージドネットワーク分離

機械学習モデルをマネージドオンラインエンドポイントにデプロイするときに、プライベートエンドポイントを使ってオンラインエンドポイントとの通信をセキュリティ保護できます。受信スコアリング要求と送信通信のセキュリティを個別に構成できます。

受信通信では Azure Machine Learning ワークスペースのプライベートエンドポイントが使用され、送信通信ではワークスペースのマネージド仮想ネットワーク用に作成されたプライベートエンドポイントが使用されます。詳細については、マネージドオンラインエンドポイントによるネットワーク分離に関するページを参照してください。

オンラインエンドポイントとデプロイの監視

Azure Machine Learning エンドポイントは、 Azure Monitor と統合されます。 Azure Monitor 統合により、グラフでのメトリックの表示、アラートの構成、ログテーブルのクエリを行うことができ、Application Insights を使ってユーザーコンテナーからイベントを分析することができます。詳しくは、「オンラインエンドポイントを監視する」をご覧ください。

オンラインデプロイでのシークレットの挿入 (プレビュー)

オンラインデプロイのシークレット挿入は、シークレットストアから API キーなどのシークレットを取得し、デプロイ内で実行されるユーザーコンテナーにそれを挿入することです。 BYOC デプロイでスコアリングスクリプトまたは推論スタックを実行する推論サーバーに対して、セキュリティで保護されたシークレットの使用を実現するには、環境変数を使用してシークレットにアクセスできます。

マネージド ID を使用してシークレットを自分で挿入するか、シークレット挿入機能を使用することができます。シークレットの挿入について詳しくは、「オンラインエンドポイントでのシークレット挿入 (プレビュー)」を参照してください。

次の方法で共有

リアルタイム推論のためのオンラインエンドポイントのデプロイ

オンラインエンドポイント

マネージドオンラインエンドポイント

マネージドオンラインエンドポイントと Azure Container Instances または Azure Kubernetes Service (AKS) v1

マネージドオンラインエンドポイントと Kubernetes オンラインエンドポイント