Azure openAI 上のmax_tokensとクォータ制限(x-ratelimit-remaining-tokensなど)の関係についての質問

Nguyen Thuy, Lien 20 評価のポイント
2024-02-26T06:47:41.9+00:00

以前のお問い合わせで教えていただいた内容は下記です

「"実際に API を呼び出した時に消費される TPM のトークン数は、API のパラメータに指定する max_tokens に大きく影響を受けます。
例えば、下記 JSON 例では、パラメーターとして max_tokens を 800 と設定しております。さらに、例のような入力プロンプトの場合、応答として 「こんにちは!何かお手伝いできることがありますか?」 といった内容が得られることが一般的です。しかし、TPM における消費トークン数は max_tokens に指定した 800 となり、もしクォータを 40K としていた場合、レスポンスヘッダー内の x-ratelimit-remaining-tokens は 40,000 - 800 = 39,200 となる見込みです。"」

下記のリンク参照で、消費トークン数は、プロンプトテキストとカウント、およびmax_tokensおよびbest_ofの三つの設定に依存します。
https://video2.skills-academy.com/en-us/azure/ai-services/openai/how-to/quota?tabs=rest
確認頂内容によると、max_tokensを設定する場合は、消費トークン数はmax_tokensのみ依存になるという意味でしょうか?
しかし、消費トークン数は設定したmax_tokens値とならいことを実施で確認しました。
例えば、GTP-4-0125 previewはmax_tokensを500に設定しましたが、クォータが80Kの場合、レスポンスヘッダー内のx-ratelimit-remaining-tokensは(80,000-1,026) 、または(80,000-4,104) 、または(80,000-513)などとなります。 テストの例:User's image

また、同じmax_tokens設定値や同じ入力テキストでも、消費トークン数が固定されていないようです。 ご確認いただけないでしょうか

Azure
Azure
Microsoft が管理する世界のデータ センター ネットワークを介してアプリケーションとサービスを構築、配置、および管理するインフラストラクチャおよびクラウド コンピューティング プラットフォーム。
365 件の質問
0 件のコメント コメントはありません
{count} 件の投票

お客様の回答

回答は、質問作成者が [承諾された回答] としてマークできます。これは、ユーザーが回答が作成者の問題を解決したことを知るのに役立ちます。