プロビジョニング スループット ユニットのオンボード

この記事では、プロビジョニング スループット ユニット (PTU) にオンボードするプロセスについて説明します。 最初のオンボードを完了したら、PTU の概要ガイドを参照することをお勧めします。

プロビジョニングされたスループット ユニット (PTU) を使用する場合

明確に定義され、予測可能なスループット要件がある場合は、従量課金制からプロビジョニングされたスループットへの切り替えを検討する必要があります。 通常、これは、アプリケーションが本格運用するための準備ができている場合、または運用環境に既にデプロイされていて、予想されるトラフィックを理解している場合に発生します。 これにより、ユーザーは必要な容量を正確に予測し、予想外の課金を回避できます。

一般的な PTU シナリオ

  • 本格運用するための準備ができている、または実稼働中のアプリケーション。
  • 予測可能な容量や使用量の想定があるアプリケーション。
  • アプリケーションにリアルタイムの要件または待ち時間の影響を受けやすい要件がある。

Note

関数呼び出しとエージェントのユース ケースでは、トークンの使用法が変わる可能性があります。 ワークロードを PTU に移行する前に、予想される 1 分あたりのトークン数 (TPM) の使用について詳しく理解しておく必要があります。

サイズ設定と見積もり: プロビジョニング済みおよびグローバル プロビジョニング済み

ワークロードに必要なプロビジョニング スループット (PTU) の適切な量を決定することは、パフォーマンスとコストを最適化するために不可欠な手順です。 このセクションでは、Azure OpenAI 容量計画ツールの使用方法について説明します。 このツールを使うと、ワークロードのニーズを満たすために必要な PTU の見積もりがわかります。

プロビジョニング スループットとコストを見積もる

ワークロードの見積もりを簡単に取得するには、Azure OpenAI Studio で Capacity Planner を開きます。 Capacity Planner は、[共有リソース]>[クォータ]>[Azure OpenAI Provisioned] の下にあります。

[準備済み] オプションと Capacity Planner は、特定のリージョンの場合にのみ、[クォータ] ペイン内で使用できます。このオプション設定が表示されない場合、クォータのリージョンを [スウェーデン中部] に設定すると、このオプションを使用できるようになります。 ワークロードに基づいて次のパラメーターを入力します。

入力 説明
モデル 使う予定の OpenAI モデル。 例: GPT-4
バージョン 使う予定のモデルのバージョン (例: 0614)
1 分あたりのピーク呼び出し数 モデルに送信されると予想される 1 分あたりの呼び出し数
プロンプト呼び出しのトークン数 モデルへの各呼び出しのプロンプト内のトークンの数。 呼び出しのプロンプトが大きいほど、利用する PTU のデプロイが多くなります。 現在、この計算ツールは単一のプロンプト値を想定しているため、分散が大きなワークロードに対するものです。 実際のトラフィックでデプロイのベンチマークを行って、デプロイに必要な PTU の最も正確な見積もりを決定することをお勧めします。
モデル応答のトークン数 モデルへの各呼び出しから生成されるトークンの数。 呼び出しの生成サイズが大きいほど、利用する PTU のデプロイが多くなります。 現在、この計算ツールは単一のプロンプト値を想定しているため、分散が大きなワークロードに対するものです。 実際のトラフィックでデプロイのベンチマークを行って、デプロイに必要な PTU の最も正確な見積もりを決定することをお勧めします。

必須の詳細を入力したら、出力列の [計算] ボタンを選びます。

出力列の値は、指定されたワークロード入力に必要な PTU ユニット数の推定値です。 最初の出力値は、ワークロードに必要な推定 PTU ユニット数を表し、最も近い PTU スケールの増分に丸められています。 2 番目の出力値は、ワークロードに必要な生の推定 PTU ユニット数を表します。 トークンの合計は、次の式を使って計算されます: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response)

Azure OpenAI Studio のランディング ページのスクリーンショット。

Note

容量計算ツールは、単純な入力条件に基づいて推定値を提供します。 容量を判断する最も正確な方法は、実際のユース ケースを代表するワークロードを使ってデプロイをベンチマークすることです。

プロビジョニングされたスループット購入モデルの概要

Azure OpenAI Provisioned および Global Provisioned は、デプロイされた PTU の数に基づいて時間単位のオンデマンドで購入され、Azure 予約の購入を通じた大幅な期間割引が適用されます。

時間単位モデルは、新しいモデルの検証やハッカソン用の容量の取得など、短期的なデプロイのニーズに便利です。  ただし、Azure OpenAI Provisioned および Global Provisioned 向けの Azure 予約によって提供される割引は相当なものであり、一貫した長期的な使用を行うほとんどのお客様にとっては、予約済みモデルがより優れた価値提案となります。

Note

8 月のセルフサービス更新プログラムの前にオンボードされた Azure OpenAI Provisioned のお客様は、コミットメント モデルと呼ばれる購入モデルを使用します。 これらの顧客は、時間単位の予約購入モデルと共に、この以前の購入モデルを引き続き使用できます。 新しいお客様はコミットメント モデルを使用できません。 コミットメント購入モデルおよび共存と移行のオプションについて詳しくは、Azure OpenAI Provisioned の 8 月の更新に関する記事をご覧ください。

時間単位の使用量

Provisioned および Global Provisioned デプロイに対する課金は、デプロイされた PTU の数に対する時間単位レート (ドル/PTU/時間) で行われます。  たとえば、300 PTU のデプロイでは、時間単位料金の 300 倍が課金されます。  Azure OpenAI のすべての価格は、Azure 料金計算ツールで入手できます。

ある 1 時間についてデプロイが存在する場合、その時間内にデプロイされた分数に基づいて日割り料金が発生します。  たとえば、1 時間のうち 15 分間存在したデプロイには、時間単位の料金の 1/4 がかかります。 

デプロイのサイズが変更された場合、デプロイのコストは、新しい PTU の数に合わせて調整されます。

時間単位の課金を示す図。

プロビジョニング済みおよびグローバル プロビジョニング済みデプロイに対する時間単位の支払いは、短期的なデプロイのシナリオに最適です。  たとえば、新しいモデルの品質とパフォーマンスのベンチマークや、ハッカソンなどのイベントに対応するための PTU 容量の一時的な増量などです。 

しかし、プロビジョニング済みおよびグローバル プロビジョニング済みデプロイの長期間の使用を必要とするお客様は、次のセクションで説明するように、Azure 予約を通した期間割引を購入することで、1 か月あたりの支払い額を大幅に減らすことができる場合があります。

Note

着信トラフィックに応じて運用環境のデプロイをスケーリングし、時間単位の料金をそのまま支払うことはお勧めしません。 これには 2 つの理由があります:

  • Azure OpenAI Provisioned 向けの Azure 予約を購入すると実現するコスト削減は大きく、多くの場合、完全な運用ボリューム用にサイズ設定されたデプロイを予約で支払う方が、着信トラフィックでデプロイをスケーリングするよりもコストが低くなります。
  • 未使用のプロビジョニング済みクォータ (PTU) があっても、必要なときにデプロイのサイズを増やすために容量を利用できる保証はありません。 クォータは、デプロイできる PTU の最大数を制限しますが、容量の保証ではありません。 リージョンとモーダルごとのプロビジョニングされた容量は、1 日を通して動的に変化し、必要なときに利用できない場合があります。 結果として、トラフィックのニーズを満たすには永続的なデプロイを維持することをお勧めします (予約での支払い)。
  • 削除されたリソース上のデプロイにかかる料金は、リソースが消去されるまで継続されます。 これを回避するには、リソースを削除する前に、リソースのデプロイを削除します。 詳細については、「削除された Azure AI サービス リソースの復旧または消去」を参照してください。

Azure OpenAI Provisioned および Global Provisioned 向けの Azure 予約

時間単位の使用価格に対する割引は、Azure OpenAI Provisioned および Global Provisioned 向けの Azure 予約を購入することで受けられます。 Azure 予約は、多くの Azure 製品で共有される期間割引メカニズムです。 たとえば、コンピューティングや Cosmos DB などです。 Azure OpenAI Provisioned および Global Provisioned に対する予約では、1 か月間または 1 年間の一定数の PTU の支払いを行うことで割引が提供されます。 

  • Azure 予約は、Azure OpenAI Studio から Azure 予約ポータルへのリンクではなく、Azure portal で購入します。

  • 予約はリージョンごとに購入し、柔軟にスコープを設定してデプロイのグループからの使用をカバーできます。 予約のスコープは次のとおりです。

    • 個別のリソース グループまたはサブスクリプション

    • 管理グループ内のサブスクリプションのグループ

    • 課金アカウント内のすべてのサブスクリプション

  • 新しい予約を購入して、既存の予約と同じスコープをカバーし、新しいプロビジョニングされたデプロイの割引を受けることができます。 いつでも既存の予約のスコープをペナルティなしで更新でき、新しいサブスクリプションをカバーする、といったことができます。

  • 予約は購入後にキャンセルできますが、クレジットは限られます。

  • 予約のスコープ内のプロビジョニングされたデプロイのサイズが予約の量を超えた場合、超過分は時間単位の料金で課金されます。 たとえば、200 PTU の予約のスコープ内に 250 PTU のデプロイが存在する場合、デプロイ サイズが 200 PTU に減るまで、または残りの 50 をカバーする新しい予約が作成されるまで、50 PTU は時間単位で課金されます。

  • 予約では、選んだ期間に対して割引価格が保証されます。  サービスの容量は予約されず、デプロイが作成される時点で利用できることは保証されません。 お客様には、予約の過剰購入を防ぐため、予約を購入する前にデプロイを作成することを強くお勧めします。

重要

  • モデルのデプロイに使用できる容量の可用性は動的であり、リージョンやモデルによって頻繁に変化します。 使用する PTU 以上の予約を購入しないようにするには、最初にデプロイを作成してから、デプロイした PTU をカバーする Azure 予約を購入します。 このベスト プラクティスにより、予約割引を最大限に活用し、使用できない期間コミットメントを購入することを防ぐことができます。

  • 予約を購入するための Azure ロールとテナント ポリシーの要件は、デプロイまたは Azure OpenAI リソースの作成に必要なものとは異なります。 必要になる前に、予約を購入できる権限を確認しておいてください。 詳しくは、Azure OpenAI のプロビジョニング済み予約のドキュメントをご覧ください。

重要: Azure OpenAI Provisioned および Global Provisioned の予約のサイズ設定

予約購入での PTU の量は、クォータで割り当てられる PTU またはデプロイで使われる PTU とは無関係です。 クォータより多くの PTU の予約を購入したり、目的のリージョン、モデル、またはバージョンにデプロイすしたりできます。 予約な過剰な購入に対するクレジットは限られており、お客様は予約サイズとデプロイされる PTU の一致を維持するための手順を実行する必要があります。

ベスト プラクティスは、常にデプロイの作成後に予約を購入することです。 このようにすると、予約を購入した後で、目的のリージョンまたはモデルで必要な容量を使用できないことがわかる、ということがなくなります。

お客様が正しい予約量を購入するのを支援するため。 予約でカバーできるサブスクリプションとリージョン内の総 PTU 数は、Azure OpenAI Studio の [クォータ] ページの一覧で示されています。 "予約に使用可能な PTU" というメッセージを参照してください。

使用可能な PTU クォータを示すスクリーンショット。

Azure の予約を管理する

予約を作成した後は、その予約が想定した使用量に達しているかどうかを監視するのがベストプラクティスです。 これは、Azure 予約ポータルまたは Azure Monitor を使用して行うことができます。 これらのトピックとその他の詳細については、以下を参照してください。

次のステップ