Azure openAI 上のmax_tokensとクォータ制限（x-ratelimit-remaining-tokensなど）の関係についての質問

Question

以前のお問い合わせで教えていただいた内容は下記です

「"実際に API を呼び出した時に消費される TPM のトークン数は、API のパラメータに指定する max_tokens に大きく影響を受けます。
例えば、下記 JSON 例では、パラメーターとして max_tokens を 800 と設定しております。さらに、例のような入力プロンプトの場合、応答として「こんにちは！何かお手伝いできることがありますか？」といった内容が得られることが一般的です。しかし、TPM における消費トークン数は max_tokens に指定した 800 となり、もしクォータを 40K としていた場合、レスポンスヘッダー内の x-ratelimit-remaining-tokens は 40,000 - 800 = 39,200 となる見込みです。"」

下記のリンク参照で、消費トークン数は、プロンプトテキストとカウント、およびmax_tokensおよびbest_ofの三つの設定に依存します。
https://video2.skills-academy.com/en-us/azure/ai-services/openai/how-to/quota?tabs=rest
確認頂内容によると、max_tokensを設定する場合は、消費トークン数はmax_tokensのみ依存になるという意味でしょうか？
しかし、消費トークン数は設定したmax_tokens値とならいことを実施で確認しました。
例えば、GTP-4-0125 previewはmax_tokensを500に設定しましたが、クォータが80Kの場合、レスポンスヘッダー内のx-ratelimit-remaining-tokensは(80,000-1,026) 、または(80,000-4,104) 、または(80,000-513)などとなります。テストの例： User's image

また、同じmax_tokens設定値や同じ入力テキストでも、消費トークン数が固定されていないようです。ご確認いただけないでしょうか

次の方法で共有

Azure openAI 上のmax_tokensとクォータ制限（x-ratelimit-remaining-tokensなど）の関係についての質問

お客様の回答