Azure OpenAI 動態配額 (預覽)

動態配額是一種 Azure OpenAI 功能,可在有額外的可用容量時啟用標準 (隨用隨付) 部署,讓您可以找機會使用更多配額。 動態配額設定為關閉時,您的部署將能處理每分鐘權杖數 (TPM) 設定所建立的最大輸送量。 超過預設的 TPM 時,要求會傳回 HTTP 429 回應。 啟用動態配額時,部署能夠在傳回 429 回應之前存取更高的輸送量,讓您可以更早執行更多呼叫。 額外的要求仍會按一般定價費率計費。

動態配額只能暫時增加可用的配額:永遠不會降低到您所設定的值以下。

使用動態配額的時機

動態配額在大部分案例中都很有用,特別是當您的應用程式能夠抓住機會使用額外的容量,或應用程式本身正在提升 Azure OpenAI API 呼叫的速率時。

一般而言,在下列情況下,您可能會偏好避免使用動態配額:如果配額變動或增加會造成應用程式提供不良體驗。

使用動態配額時,請考慮一些情況,例如:

  • 大量處理、
  • 建立擷取擴增生成 (RAG) 的摘要或內嵌、
  • 針對計量和評估的產生記錄進行離線分析、
  • 低優先順序研究、
  • 配置少量配額的應用程式。

動態配額何時生效?

Azure OpenAI 後端可決定在不同部署中新增或移除額外動態配額的條件、時機和數量。 不會事先預測或宣告,且無法預測。 若要利用動態配額,您的應用程式程式碼必須能夠在 HTTP 429 回應變得不頻繁時發出更多要求。 Azure OpenAI 可讓您的應用程式藉由回應 HTTP 429 而知道何時達到配額上限,不讓更多 API 呼叫通過。

動態配額如何變更成本?

  • 執行的呼叫數若超過基本配額,則成本與一般呼叫相同。

  • 在部署中啟用動態配額不會產生額外成本,不過增加的輸送量最終可能還是會導致成本增加 (視部署收到的流量而定)。

注意

使用動態配額,呼叫就不需要強制執行「向上取整」配額或輸送量。 Azure OpenAI 會處理超過基準配額的所有要求。 如果即便在配額限制較少的情況下,您依然需要控制支出率,則應用程式程式碼也必須據以限制要求數。

如何使用動態配額

若要使用動態配額,您必須:

  • 在您的 Azure OpenAI 部署中啟用動態配額屬性。
  • 確定您的應用程式可以使用動態配額。

啟用動態配額

若要在部署中啟用動態配額,您可以前往資源設定中的進階屬性,然後開啟此設定:

部署的進階設定 UI 螢幕擷取畫面。

或者,您也可以使用 Azure CLI 的 az rest,以程式設計方式啟用此設定:

{subscriptionId}{resourceGroupName}{accountName}{deploymentName} 取代為您資源的相關值。 在此情況下,accountName 等於 Azure OpenAI 資源名稱。

az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'

如何知道要在我的應用程式中增加多少輸送量動態配額?

若要監視其運作方式,您可以在 Azure 監視器中追蹤應用程式的輸送量。 在動態配額預覽期間,沒有任何特定計量或記錄指出配額是否已動態增加或減少。 如果是在大量使用區域中執行部署,且正逢這些區域的尖峰使用時段,則較不太可能使用動態配額。

下一步