Azure openAI 上のmax_tokensとクォータ制限(x-ratelimit-remaining-tokensなど)の関係についての質問
以前のお問い合わせで教えていただいた内容は下記です
「"実際に API を呼び出した時に消費される TPM のトークン数は、API のパラメータに指定する max_tokens に大きく影響を受けます。
例えば、下記 JSON 例では、パラメーターとして max_tokens を 800 と設定しております。さらに、例のような入力プロンプトの場合、応答として 「こんにちは!何かお手伝いできることがありますか?」 といった内容が得られることが一般的です。しかし、TPM における消費トークン数は max_tokens に指定した 800 となり、もしクォータを 40K としていた場合、レスポンスヘッダー内の x-ratelimit-remaining-tokens は 40,000 - 800 = 39,200 となる見込みです。"」
下記のリンク参照で、消費トークン数は、プロンプトテキストとカウント、およびmax_tokensおよびbest_ofの三つの設定に依存します。
https://video2.skills-academy.com/en-us/azure/ai-services/openai/how-to/quota?tabs=rest
確認頂内容によると、max_tokensを設定する場合は、消費トークン数はmax_tokensのみ依存になるという意味でしょうか?
しかし、消費トークン数は設定したmax_tokens値とならいことを実施で確認しました。
例えば、GTP-4-0125 previewはmax_tokensを500に設定しましたが、クォータが80Kの場合、レスポンスヘッダー内のx-ratelimit-remaining-tokensは(80,000-1,026) 、または(80,000-4,104) 、または(80,000-513)などとなります。 テストの例:
また、同じmax_tokens設定値や同じ入力テキストでも、消費トークン数が固定されていないようです。 ご確認いただけないでしょうか