Cotas e limites do Serviço OpenAI do Azure

Este artigo contém uma referência rápida e uma descrição detalhada das cotas e dos limites do OpenAI do Azure nos serviços de IA do Azure.

Referência de cotas e limites

As seções a seguir fornecem um guia rápido para as cotas e os limites padrão que se aplicam ao OpenAI do Azure:

Nome do limite Valor do limite
Recursos do OpenAI por região na assinatura do Azure 30
Limites de cota DALL-E 2 padrão 2 solicitações simultâneas
Limites de cota DALL-E 3 padrão Duas unidades de capacidade (seis solicitações por minuto)
Limites de cota padrão do Whisper 3 solicitações por minuto
Máximo de tokens de prompt por solicitação Varia de acordo com o modelo. Para saber mais, confira Modelos do Serviço OpenAI do Azure
Máximo de implantações Standard por recurso 32
Máximo de ajuste de implantações de modelo 5
Número total de trabalhos de treinamento por recurso 100
Máximo de trabalhos de treinamento simultâneos em execução por recurso 1
Máximo de trabalhos de treinamento na fila 20
Máximo de arquivos por recurso (ajuste fino) 50
Tamanho total de todos os arquivos por recurso (ajuste fino) 1 GB
Tempo máximo do trabalho de treinamento (o trabalho falhará se ele for excedido) 720 horas
Tamanho máximo do trabalho de treinamento (tokens no arquivo de treinamento) x (nº de épocas) 2 bilhões
Tamanho máximo de todos os arquivos por upload (OpenAI do Azure em seus dados) 16 MB
Número máximo ou entradas na matriz com /embeddings 2048
Número máximo de mensagens de /chat/completions 2048
Número máximo de funções de /chat/completions 128
Número máximo de ferramentas de /chat completions 128
Número máximo de unidades de taxa de transferência Provisionadas por implantação 100.000
Máximo de arquivos por Assistente/thread 10.000 ao usar a API ou AI Studio. 20 ao usar o Azure OpenAI Studio.
Tamanho máximo do arquivo para Assistentes e ajuste fino 512 MB
Tamanho máximo para todos os arquivos carregados para Assistentes 100 GB
Limite de token de assistentes Limite de token de 2.000.000
Máximo de imagens por solicitação do GPT-4o (n. de imagens no histórico da conversa/matriz de mensagens) 10
Tokens máximos padrão do GPT-4 vision-preview e do GPT-4 turbo-2024-04-09 16

Aumente o valor do parâmetro max_tokens para evitar respostas truncadas. Os tokens máximos de GPT-4o são padrão para 4096.
Número máximo de cabeçalhos personalizados nas solicitações de API1 10

1 Nossas APIs atuais permitem até 10 cabeçalhos personalizados, que são passados pelo pipeline e retornados. Notamos que alguns clientes já excedem essa contagem de cabeçalhos, resultando em erros HTTP 431. Não há solução para esse erro, além de reduzir o volume do cabeçalho. Nas futuro versões da API, não passaremos mais por cabeçalhos personalizados. Recomendamos que os clientes não dependam de cabeçalhos personalizados nas futuras arquiteturas do sistema.

Limites de cota regional

Region o1-mini o1 GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o-mini GPT-35-Turbo GPT-35-Turbo-Instruct o1-mini – GlobalStandard o1 – GlobalStandard gpt-4o - GlobalStandard gpt-4o-mini - GlobalStandard GPT-4-Turbo - GlobalStandard GPT-4o – Global-Batch GPT-4o-mini - Global-Batch GPT-4 – Global-Batch GPT-4-Turbo – Global-Batch gpt-35-turbo – Global-Batch Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large GPT-4o – ajuste fino GPT-4o-mini – finetune GPT-4 - finetune Babbage-002 Babbage-002 – ajuste fino Davinci-002 Davinci-002 – ajuste fino GPT-35-Turbo – ajuste fino GPT-35-Turbo-1106 – ajuste fino GPT-35-Turbo-0125 – ajuste fino
australiaeast - - 40 mil 80 mil 80 mil 30 K - - 300 mil - - - 30 M 50 M 2 M - - - - - 350 mil - - - - - - - - - - - -
brazilsouth - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350 mil - - - - - - - - - - - -
canadaeast - - 40 mil 80 mil 80 mil - - - 300 mil - - - 30 M 50 M 2 M - - - - - 350 mil 350 mil 350 mil - - - - - - - - - -
eastus 1 M 600 K - - 80 mil - 1 M 2 M 240 mil 240 mil 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 mi 300 mi 10 bi 240 mil 350 mil 350 mil - - - - - - - - - -
eastus2 1 M 600 K - - 80 mil - 1 M 2 M 300 mil - 50 M 30 M 30 M 50 M 2 M - - - - - 350 mil 350 mil 350 mil 250 mil - - - - - - 250 mil 250 mil 250 mil
francecentral - - 20 mil 60 K 80 mil - - - 240 mil - - - 30 M 50 M 2 M - - - - - 240 mil - 350 mil - - - - - - - - - -
germanywestcentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
japaneast - - - - - 30 K - - 300 mil - - - 30 M 50 M 2 M - - - - - 350 mil 350 mil 350 mil - - - - - - - - - -
koreacentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
northcentralus 1 M 600 K - - 80 mil - 1 M 2 M 300 mil - 50 M 30 M 30 M 50 M 2 M - - - - - 350 mil - - 250 mil 500 K 100 mil 240 mil 250 mil 240 mil 250 mil 250 mil 250 mil 250 mil
norwayeast - - - - 150 mil - - - - - - - 30 M 50 M 2 M - - - - - 350 mil - 350 mil - - - - - - - - - -
polandcentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
southafricanorth - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350 mil - - - - - - - - - - - -
southcentralus 1 M 600 K - - 80 mil - 1 M 2 M 240 mil - 50 M 30 M 30 M 50 M 2 M - - - - - 240 mil - - - - - - - - - - - -
southindia - - - - 150 mil - - - 300 mil - - - 30 M 50 M 2 M - - - - - 350 mil - 350 mil - - - - - - - - - -
spaincentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
swedencentral 1 M 600 K 40 mil 80 mil 150 mil 30 K 1 M 2 M 300 mil 240 mil 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 mi 300 mi 10 bi 350 mil - 350 mil 250 mil 500 K 100 mil 240 mil 250 mil 240 mil 250 mil 250 mil 250 mil 250 mil
switzerlandnorth - - 40 mil 80 mil - 30 K - - 300 mil - - - 30 M 50 M 2 M - - - - - 350 mil - - - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - - - - - - - - - - - - - - - - 250 mil - 250 mil 250 mil 250 mil 250 mil
uksouth - - - - 80 mil - - - 240 mil - - - 30 M 50 M 2 M - - - - - 350 mil - 350 mil - - - - - - - - - -
westeurope - - - - - - - - 240 mil - - - 30 M 50 M 2 M - - - - - 240 mil - - - - - - - - - - - -
westus 1 M 600 K - - 80 mil 30 K 1 M 2 M 300 mil - 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 mi 300 mi 10 bi 350 mil - - - - - - - - - - - -
westus3 1 M 600 K - - 80 mil - 1 M 2 M 300 mil - 50 M 30 M 30 M 50 M 2 M - - - - - 350 mil - 350 mil - - - - - - - - - -

Limites do lote global

Nome do limite Valor do limite
Máximo de arquivos por recurso 500
Tamanho máximo do arquivo de entrada 200 MB
Máximo de solicitações por arquivo 100.000

Cota do lote global

A tabela mostra o limite de cota do lote. Os valores de cota para o lote global são representados em termos de tokens enfileirados. Ao enviar um arquivo para processamento em lote, o número de tokens presentes no arquivo é contado. Até que o trabalho em lote atinja um estado de terminal, esses tokens contarão com o limite total de tokens enfileirados.

Modelar Contrato Enterprise Padrão Assinaturas mensais baseadas em cartão de crédito Assinaturas MSDN Azure for Students, avaliações gratuitas
gpt-4o 5 B 200 M 50 M 90 mil N/D
gpt-4o-mini 15 B 1 B 50 M 90 mil N/D
gpt-4-turbo 300 mi 80 M 40 mi 90 mil N/D
gpt-4 150 mi 30 M 5 mi 100 mil N/D
gpt-35-turbo 10 bi 1 B 100 mi 2 M 50 mil

B = bilhões | M = milhões | K = mil

o1-preview &o1-mini rate limits

Importante

A taxa de RPM/TPM para cota com modelos da série o1 funciona de forma diferente dos modelos de conclusão de chat mais antigos:

  • Modelos de chat mais antigos: 1 unidade de capacidade = 6 RPM e 1.000 TPM.
  • o1-preview: 1 unidade de capacidade = 1 RPM e 6.000 TPM.
  • o1-mini: 1 unidade de capacidade = 1 RPM por 10.000 TPM.

Isso é particularmente importante para a implantação de modelo programático, pois essa alteração na taxa de RPM/TPM pode resultar em acidental sob alocação de cota se ainda estiver assumindo a taxa de 1:1.000 seguida por modelos de conclusão de chat mais antigos.

Há um problema conhecido com a API de cota/usos em que ela pressupõe que a taxa antiga se aplica aos novos modelos da série o1. A API retorna o número de capacidade base correto, mas não aplica a taxa correta para o cálculo preciso do TPM.

o1-preview &o1-mini global standard

Modelar Camada Limite de cota em tokens por minuto (TPM) Solicitações por minuto
o1-preview Contrato Enterprise 30 M 5 mil
o1-mini Contrato Enterprise 50 M 5 mil
o1-preview Padrão 3 M 500
o1-mini Padrão 5 mi 500

o1-preview &o1-mini standard

Modelar Camada Limite de cota em tokens por minuto (TPM) Solicitações por minuto
o1-preview Contrato Enterprise 600 K 100
o1-mini Contrato Enterprise 1 M 100
o1-preview Padrão 300 mil 50
o1-mini Padrão 500 K 50

Limites de taxa do gpt-4o &GPT-4 Turbo

gpt-4o e gpt-4o-mini, e gpt-4 (turbo-2024-04-09) têm níveis de limite de taxa com limites mais altos para alguns tipos de cliente.

Padrão global do gpt-4o &GPT-4 Turbo

Modelar Camada Limite de cota em tokens por minuto (TPM) Solicitações por minuto
gpt-4o Contrato Enterprise 30 M 180 mil
gpt-4o-mini Contrato Enterprise 50 M 300 mil
gpt-4 (turbo-2024-04-09) Contrato Enterprise 2 M 12 mil
gpt-4o Padrão 450 K 2,7 K
gpt-4o-mini Padrão 2 M 12 mil
gpt-4 (turbo-2024-04-09) Padrão 450 K 2,7 K

M = milhão | K = mil

padrão de zona de dados gpt-4o

Modelar Camada Limite de cota em tokens por minuto (TPM) Solicitações por minuto
gpt-4o Contrato Enterprise 10 M 60 K
gpt-4o-mini Contrato Enterprise 20 milhões 120 mil
gpt-4o Padrão 300 mil 1,8 mil
gpt-4o-mini Padrão 1 M 6 mil

M = milhão | K = mil

padrão gpt-4o

Modelar Camada Limite de cota em tokens por minuto (TPM) Solicitações por minuto
gpt-4o Contrato Enterprise 1 M 6 mil
gpt-4o-mini Contrato Enterprise 2 M 12 mil
gpt-4o Padrão 150 mil 900
gpt-4o-mini Padrão 450 K 2,7 K

M = milhão | K = mil

Camadas de uso

As implantações de padrão global usam a infraestrutura global do Azure, roteando dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. De forma semelhante, as implantações padrão de zona de dados permitem aproveitar a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center dentro da zona de dados definida pela Microsoft com a melhor disponibilidade para cada solicitação. Isso permite latência mais consistente para clientes com níveis baixos a médios de tráfego. Os clientes com altos níveis sustentados de uso poderão observar mais variabilidade na latência de resposta.

O limite de uso determina o nível de uso acima do qual os clientes podem obter maior variabilidade na latência de resposta. O uso de um cliente é definido por modelo e é o total de tokens consumidos em todas as implantações em todas as assinaturas e em todas as regiões para um determinado locatário.

Observação

As camadas de uso se aplicam somente aos tipos de implantação padrão, padrão de zona de dados e padrão global. Os níveis de uso não se aplicam a implantações globais de lote e taxa de transferência provisionada.

Padrão, padrão global do GPT-4o e padrão de zona de dados

Modelar Camadas de serviço por mês
gpt-4o 12 bilhões de tokens
gpt-4o-mini 85 bilhões de tokens

Padrão GPT-4

Modelar Camadas de serviço por mês
gpt-4 + gpt-4-32k (todas as versões) 6 bilhões

Outros tipos de ofertas

Se sua assinatura do Azure estiver vinculada a determinados tipos de oferta, seus valores máximos de cota serão menores do que os valores indicados nas tabelas acima.

Camada Limite de cota em tokens por minuto (TPM)
Azure for Students, avaliações gratuitas 1 K (todos os modelos)
Assinaturas MSDN GPT 3.5 Turbo Series: 30 K
Série GPT-4: 8 K
Assinaturas mensais baseadas em cartão de crédito 1 GPT 3.5 Turbo Series: 30 K
Série GPT-4: 8 K

1 Isso se aplica atualmente ao tipo de oferta 0003P

No portal do Azure, você pode exibir qual tipo de oferta está associado à sua assinatura navegando até sua assinatura e verificando o painel de visão geral das assinaturas. O tipo de oferta corresponde ao campo de plano na visão geral da assinatura.

Práticas recomendadas gerais para permanecer dentro dos limites da taxa

Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as técnicas a seguir:

  • Implemente a lógica de repetição no seu aplicativo.
  • Evite alterações bruscas na carga de trabalho. Aumente a carga de trabalho gradualmente.
  • Teste padrões distintos de aumento de carga.
  • Aumente a cota atribuída à sua implantação. Mova a cota de outra implantação, se necessário.

Como solicitar aumentos para as cotas e limites padrão

As solicitações de aumento de cota podem ser enviadas na página Cotas do Estúdio de IA do Azure. Observe que devido à grande demanda, os pedidos de aumento de cota estão sendo aceitos e serão atendidos na ordem em que forem recebidos. Será dada prioridade aos clientes que geram tráfego que consome a alocação de cota existente, e sua solicitação poderá ser negada se essa condição não for atendida.

Para outros limites de tarifas, envie uma solicitação de serviço.

Próximas etapas

Explore como gerenciar cotas para suas implantações do OpenAI do Azure. Saiba mais sobre os modelos subjacentes que alimentam o OpenAI do Azure.