Quota dinâmica do Azure OpenAI (Pré-visualização)

A cota dinâmica é um recurso do Azure OpenAI que permite uma implantação padrão (paga conforme o uso) para aproveitar oportunisticamente mais cota quando a capacidade extra estiver disponível. Quando a cota dinâmica estiver desativada, sua implantação poderá processar uma taxa de transferência máxima estabelecida pela configuração TPM (Tokens por Minuto). Quando você exceder o TPM predefinido, as solicitações retornarão respostas HTTP 429. Quando a cota dinâmica está habilitada, a implantação tem a capacidade de acessar uma taxa de transferência mais alta antes de retornar 429 respostas, permitindo que você execute mais chamadas mais cedo. Os pedidos extras ainda são cobrados de acordo com as taxas de preços normais.

A cota dinâmica só pode aumentar temporariamente sua cota disponível: ela nunca diminuirá abaixo do valor configurado.

Quando usar a cota dinâmica

A cota dinâmica é útil na maioria dos cenários, particularmente quando seu aplicativo pode usar capacidade extra oportunisticamente ou o próprio aplicativo está impulsionando a taxa na qual a API OpenAI do Azure é chamada.

Normalmente, a situação em que você pode preferir evitar a cota dinâmica é quando seu aplicativo proporcionaria uma experiência adversa se a cota for volátil ou aumentada.

Para cotas dinâmicas, considere cenários como:

  • Processamento a granel,
  • Criação de resumos ou incorporações para Geração Aumentada de Recuperação (RAG),
  • Análise offline de logs para geração de métricas e avaliações,
  • Investigação de baixa prioridade,
  • Aplicativos que têm uma pequena quantidade de cota alocada.

Quando entra em vigor a quota dinâmica?

O back-end do Azure OpenAI decide se, quando e quanta cota dinâmica extra é adicionada ou removida de implantações diferentes. Não é previsto ou anunciado com antecedência e não é previsível. Para aproveitar a cota dinâmica, o código do aplicativo deve ser capaz de emitir mais solicitações à medida que as respostas HTTP 429 se tornam pouco frequentes. O Azure OpenAI permite que seu aplicativo saiba quando você atingiu seu limite de cota respondendo com um HTTP 429 e não permitindo mais chamadas de API.

Como custa a alteração dinâmica das quotas?

  • As chamadas que são feitas acima da sua quota base têm os mesmos custos que as chamadas normais.

  • Não há custo extra para ativar a cota dinâmica em uma implantação, embora o aumento da taxa de transferência possa, em última análise, resultar em maior custo, dependendo da quantidade de tráfego que sua implantação recebe.

Nota

Com a cota dinâmica, não há imposição de chamada de uma cota ou taxa de transferência "teto". O Azure OpenAI processará o maior número possível de solicitações acima da sua cota de linha de base. Se você precisar controlar a taxa de gastos mesmo quando a cota estiver menos restrita, o código do aplicativo precisará reter as solicitações de acordo.

Como usar a cota dinâmica

Para usar a cota dinâmica, você deve:

  • Ative a propriedade de cota dinâmica em sua implantação do Azure OpenAI.
  • Certifique-se de que seu aplicativo pode aproveitar a cota dinâmica.

Habilitar cota dinâmica

Para ativar a cota dinâmica para sua implantação, você pode ir para as propriedades avançadas na configuração de recursos e ativá-la:

Captura de tela da interface do usuário de configuração avançada para implantações.

Como alternativa, você pode habilitá-lo programaticamente com a CLI do az restAzure:

Substitua o {subscriptionId}, {resourceGroupName}, {accountName}e {deploymentName} pelos valores relevantes para o seu recurso. Nesse caso, accountName é igual ao nome do recurso do Azure OpenAI.

az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'

Como sei quanta cota dinâmica de taxa de transferência está adicionando ao meu aplicativo?

Para monitorar como ele está funcionando, você pode acompanhar a taxa de transferência do seu aplicativo no Azure Monitor. Durante a visualização da cota dinâmica, não há nenhuma métrica ou log específico para indicar se a cota foi aumentada ou diminuída dinamicamente. É menos provável que a cota dinâmica seja contratada para sua implantação se for executada em regiões muito utilizadas e durante os horários de pico de uso para essas regiões.

Próximos passos