Cotas e limites do Serviço OpenAI do Azure

Artigo
11/04/2024

Este artigo contém uma referência rápida e uma descrição detalhada das cotas e dos limites do OpenAI do Azure nos serviços de IA do Azure.

Referência de cotas e limites

As seções a seguir fornecem um guia rápido para as cotas e os limites padrão que se aplicam ao OpenAI do Azure:

Nome do limite	Valor do limite
Recursos do OpenAI por região na assinatura do Azure	30
Limites de cota DALL-E 2 padrão	2 solicitações simultâneas
Limites de cota DALL-E 3 padrão	Duas unidades de capacidade (seis solicitações por minuto)
Limites de cota padrão do Whisper	3 solicitações por minuto
Máximo de tokens de prompt por solicitação	Varia de acordo com o modelo. Para saber mais, confira Modelos do Serviço OpenAI do Azure
Máximo de implantações Standard por recurso	32
Máximo de ajuste de implantações de modelo	5
Número total de trabalhos de treinamento por recurso	100
Máximo de trabalhos de treinamento simultâneos em execução por recurso	1
Máximo de trabalhos de treinamento na fila	20
Máximo de arquivos por recurso (ajuste fino)	50
Tamanho total de todos os arquivos por recurso (ajuste fino)	1 GB
Tempo máximo do trabalho de treinamento (o trabalho falhará se ele for excedido)	720 horas
Tamanho máximo do trabalho de treinamento (tokens no arquivo de treinamento) x (nº de épocas)	2 bilhões
Tamanho máximo de todos os arquivos por upload (OpenAI do Azure em seus dados)	16 MB
Número máximo ou entradas na matriz com `/embeddings`	2048
Número máximo de mensagens de `/chat/completions`	2048
Número máximo de funções de `/chat/completions`	128
Número máximo de ferramentas de `/chat completions`	128
Número máximo de unidades de taxa de transferência Provisionadas por implantação	100.000
Máximo de arquivos por Assistente/thread	10.000 ao usar a API ou AI Studio. 20 ao usar o Azure OpenAI Studio.
Tamanho máximo do arquivo para Assistentes e ajuste fino	512 MB
Tamanho máximo para todos os arquivos carregados para Assistentes	100 GB
Limite de token de assistentes	Limite de token de 2.000.000
Máximo de imagens por solicitação do GPT-4o (n. de imagens no histórico da conversa/matriz de mensagens)	10
Tokens máximos padrão do GPT-4 `vision-preview` e do GPT-4 `turbo-2024-04-09`	16 Aumente o valor do parâmetro `max_tokens` para evitar respostas truncadas. Os tokens máximos de GPT-4o são padrão para 4096.
Número máximo de cabeçalhos personalizados nas solicitações de API¹	10

¹ Nossas APIs atuais permitem até 10 cabeçalhos personalizados, que são passados pelo pipeline e retornados. Notamos que alguns clientes já excedem essa contagem de cabeçalhos, resultando em erros HTTP 431. Não há solução para esse erro, além de reduzir o volume do cabeçalho. Nas futuro versões da API, não passaremos mais por cabeçalhos personalizados. Recomendamos que os clientes não dependam de cabeçalhos personalizados nas futuras arquiteturas do sistema.

Limites de cota regional

Region	o1-mini	o1	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o-mini	GPT-35-Turbo	GPT-35-Turbo-Instruct	o1-mini – GlobalStandard	o1 – GlobalStandard	gpt-4o - GlobalStandard	gpt-4o-mini - GlobalStandard	GPT-4-Turbo - GlobalStandard	GPT-4o – Global-Batch	GPT-4o-mini - Global-Batch	GPT-4 – Global-Batch	GPT-4-Turbo – Global-Batch	gpt-35-turbo – Global-Batch	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	GPT-4o – ajuste fino	GPT-4o-mini – finetune	GPT-4 - finetune	Babbage-002	Babbage-002 – ajuste fino	Davinci-002	Davinci-002 – ajuste fino	GPT-35-Turbo – ajuste fino	GPT-35-Turbo-1106 – ajuste fino	GPT-35-Turbo-0125 – ajuste fino
australiaeast	-	-	40 mil	80 mil	80 mil	30 K	-	-	300 mil	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 mil	-	-	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 mil	-	-	-	-	-	-	-	-	-	-	-	-
canadaeast	-	-	40 mil	80 mil	80 mil	-	-	-	300 mil	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 mil	350 mil	350 mil	-	-	-	-	-	-	-	-	-	-
eastus	1 M	600 K	-	-	80 mil	-	1 M	2 M	240 mil	240 mil	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 mi	300 mi	10 bi	240 mil	350 mil	350 mil	-	-	-	-	-	-	-	-	-	-
eastus2	1 M	600 K	-	-	80 mil	-	1 M	2 M	300 mil	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 mil	350 mil	350 mil	250 mil	-	-	-	-	-	-	250 mil	250 mil	250 mil
francecentral	-	-	20 mil	60 K	80 mil	-	-	-	240 mil	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240 mil	-	350 mil	-	-	-	-	-	-	-	-	-	-
germanywestcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	-	-	30 K	-	-	300 mil	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 mil	350 mil	350 mil	-	-	-	-	-	-	-	-	-	-
koreacentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
northcentralus	1 M	600 K	-	-	80 mil	-	1 M	2 M	300 mil	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 mil	-	-	250 mil	500 K	100 mil	240 mil	250 mil	240 mil	250 mil	250 mil	250 mil	250 mil
norwayeast	-	-	-	-	150 mil	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 mil	-	350 mil	-	-	-	-	-	-	-	-	-	-
polandcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 mil	-	-	-	-	-	-	-	-	-	-	-	-
southcentralus	1 M	600 K	-	-	80 mil	-	1 M	2 M	240 mil	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	240 mil	-	-	-	-	-	-	-	-	-	-	-	-
southindia	-	-	-	-	150 mil	-	-	-	300 mil	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 mil	-	350 mil	-	-	-	-	-	-	-	-	-	-
spaincentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
swedencentral	1 M	600 K	40 mil	80 mil	150 mil	30 K	1 M	2 M	300 mil	240 mil	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 mi	300 mi	10 bi	350 mil	-	350 mil	250 mil	500 K	100 mil	240 mil	250 mil	240 mil	250 mil	250 mil	250 mil	250 mil
switzerlandnorth	-	-	40 mil	80 mil	-	30 K	-	-	300 mil	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 mil	-	-	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	250 mil	-	250 mil	250 mil	250 mil	250 mil
uksouth	-	-	-	-	80 mil	-	-	-	240 mil	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 mil	-	350 mil	-	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	-	-	240 mil	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240 mil	-	-	-	-	-	-	-	-	-	-	-	-
westus	1 M	600 K	-	-	80 mil	30 K	1 M	2 M	300 mil	-	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 mi	300 mi	10 bi	350 mil	-	-	-	-	-	-	-	-	-	-	-	-
westus3	1 M	600 K	-	-	80 mil	-	1 M	2 M	300 mil	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 mil	-	350 mil	-	-	-	-	-	-	-	-	-	-

Limites do lote global

Nome do limite	Valor do limite
Máximo de arquivos por recurso	500
Tamanho máximo do arquivo de entrada	200 MB
Máximo de solicitações por arquivo	100.000

Cota do lote global

A tabela mostra o limite de cota do lote. Os valores de cota para o lote global são representados em termos de tokens enfileirados. Ao enviar um arquivo para processamento em lote, o número de tokens presentes no arquivo é contado. Até que o trabalho em lote atinja um estado de terminal, esses tokens contarão com o limite total de tokens enfileirados.

Modelar	Contrato Enterprise	Padrão	Assinaturas mensais baseadas em cartão de crédito	Assinaturas MSDN	Azure for Students, avaliações gratuitas
`gpt-4o`	5 B	200 M	50 M	90 mil	N/D
`gpt-4o-mini`	15 B	1 B	50 M	90 mil	N/D
`gpt-4-turbo`	300 mi	80 M	40 mi	90 mil	N/D
`gpt-4`	150 mi	30 M	5 mi	100 mil	N/D
`gpt-35-turbo`	10 bi	1 B	100 mi	2 M	50 mil

B = bilhões | M = milhões | K = mil

o1-preview &o1-mini rate limits

Importante

A taxa de RPM/TPM para cota com modelos da série o1 funciona de forma diferente dos modelos de conclusão de chat mais antigos:

Modelos de chat mais antigos: 1 unidade de capacidade = 6 RPM e 1.000 TPM.
o1-preview: 1 unidade de capacidade = 1 RPM e 6.000 TPM.
o1-mini: 1 unidade de capacidade = 1 RPM por 10.000 TPM.

Isso é particularmente importante para a implantação de modelo programático, pois essa alteração na taxa de RPM/TPM pode resultar em acidental sob alocação de cota se ainda estiver assumindo a taxa de 1:1.000 seguida por modelos de conclusão de chat mais antigos.

Há um problema conhecido com a API de cota/usos em que ela pressupõe que a taxa antiga se aplica aos novos modelos da série o1. A API retorna o número de capacidade base correto, mas não aplica a taxa correta para o cálculo preciso do TPM.

o1-preview &o1-mini global standard

Modelar	Camada	Limite de cota em tokens por minuto (TPM)	Solicitações por minuto
`o1-preview`	Contrato Enterprise	30 M	5 mil
`o1-mini`	Contrato Enterprise	50 M	5 mil
`o1-preview`	Padrão	3 M	500
`o1-mini`	Padrão	5 mi	500

o1-preview &o1-mini standard

Modelar	Camada	Limite de cota em tokens por minuto (TPM)	Solicitações por minuto
`o1-preview`	Contrato Enterprise	600 K	100
`o1-mini`	Contrato Enterprise	1 M	100
`o1-preview`	Padrão	300 mil	50
`o1-mini`	Padrão	500 K	50

Limites de taxa do gpt-4o &GPT-4 Turbo

gpt-4o e gpt-4o-mini, e gpt-4 (turbo-2024-04-09) têm níveis de limite de taxa com limites mais altos para alguns tipos de cliente.

Padrão global do gpt-4o &GPT-4 Turbo

Modelar	Camada	Limite de cota em tokens por minuto (TPM)	Solicitações por minuto
`gpt-4o`	Contrato Enterprise	30 M	180 mil
`gpt-4o-mini`	Contrato Enterprise	50 M	300 mil
`gpt-4` (turbo-2024-04-09)	Contrato Enterprise	2 M	12 mil
`gpt-4o`	Padrão	450 K	2,7 K
`gpt-4o-mini`	Padrão	2 M	12 mil
`gpt-4` (turbo-2024-04-09)	Padrão	450 K	2,7 K

M = milhão | K = mil

padrão de zona de dados gpt-4o

Modelar	Camada	Limite de cota em tokens por minuto (TPM)	Solicitações por minuto
`gpt-4o`	Contrato Enterprise	10 M	60 K
`gpt-4o-mini`	Contrato Enterprise	20 milhões	120 mil
`gpt-4o`	Padrão	300 mil	1,8 mil
`gpt-4o-mini`	Padrão	1 M	6 mil

M = milhão | K = mil

padrão gpt-4o

Modelar	Camada	Limite de cota em tokens por minuto (TPM)	Solicitações por minuto
`gpt-4o`	Contrato Enterprise	1 M	6 mil
`gpt-4o-mini`	Contrato Enterprise	2 M	12 mil
`gpt-4o`	Padrão	150 mil	900
`gpt-4o-mini`	Padrão	450 K	2,7 K

M = milhão | K = mil

Camadas de uso

As implantações de padrão global usam a infraestrutura global do Azure, roteando dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. De forma semelhante, as implantações padrão de zona de dados permitem aproveitar a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center dentro da zona de dados definida pela Microsoft com a melhor disponibilidade para cada solicitação. Isso permite latência mais consistente para clientes com níveis baixos a médios de tráfego. Os clientes com altos níveis sustentados de uso poderão observar mais variabilidade na latência de resposta.

O limite de uso determina o nível de uso acima do qual os clientes podem obter maior variabilidade na latência de resposta. O uso de um cliente é definido por modelo e é o total de tokens consumidos em todas as implantações em todas as assinaturas e em todas as regiões para um determinado locatário.

Observação

As camadas de uso se aplicam somente aos tipos de implantação padrão, padrão de zona de dados e padrão global. Os níveis de uso não se aplicam a implantações globais de lote e taxa de transferência provisionada.

Padrão, padrão global do GPT-4o e padrão de zona de dados

Modelar	Camadas de serviço por mês
`gpt-4o`	12 bilhões de tokens
`gpt-4o-mini`	85 bilhões de tokens

Padrão GPT-4

Modelar	Camadas de serviço por mês
`gpt-4` + `gpt-4-32k` (todas as versões)	6 bilhões

Outros tipos de ofertas

Se sua assinatura do Azure estiver vinculada a determinados tipos de oferta, seus valores máximos de cota serão menores do que os valores indicados nas tabelas acima.

Camada	Limite de cota em tokens por minuto (TPM)
Azure for Students, avaliações gratuitas	1 K (todos os modelos)
Assinaturas MSDN	GPT 3.5 Turbo Series: 30 K Série GPT-4: 8 K
Assinaturas mensais baseadas em cartão de crédito ¹	GPT 3.5 Turbo Series: 30 K Série GPT-4: 8 K

¹ Isso se aplica atualmente ao tipo de oferta 0003P

No portal do Azure, você pode exibir qual tipo de oferta está associado à sua assinatura navegando até sua assinatura e verificando o painel de visão geral das assinaturas. O tipo de oferta corresponde ao campo de plano na visão geral da assinatura.

Práticas recomendadas gerais para permanecer dentro dos limites da taxa

Para minimizar os problemas relacionados aos limites de taxa, é uma boa ideia usar as técnicas a seguir:

Implemente a lógica de repetição no seu aplicativo.
Evite alterações bruscas na carga de trabalho. Aumente a carga de trabalho gradualmente.
Teste padrões distintos de aumento de carga.
Aumente a cota atribuída à sua implantação. Mova a cota de outra implantação, se necessário.

Como solicitar aumentos para as cotas e limites padrão

As solicitações de aumento de cota podem ser enviadas na página Cotas do Estúdio de IA do Azure. Observe que devido à grande demanda, os pedidos de aumento de cota estão sendo aceitos e serão atendidos na ordem em que forem recebidos. Será dada prioridade aos clientes que geram tráfego que consome a alocação de cota existente, e sua solicitação poderá ser negada se essa condição não for atendida.

Para outros limites de tarifas, envie uma solicitação de serviço.

Próximas etapas

Explore como gerenciar cotas para suas implantações do OpenAI do Azure. Saiba mais sobre os modelos subjacentes que alimentam o OpenAI do Azure.

Compartilhar via

Cotas e limites do Serviço OpenAI do Azure

Referência de cotas e limites

Limites de cota regional

Limites do lote global

Cota do lote global

o1-preview &o1-mini rate limits

o1-preview &o1-mini global standard

o1-preview &o1-mini standard

Limites de taxa do gpt-4o &GPT-4 Turbo

Padrão global do gpt-4o &GPT-4 Turbo

padrão de zona de dados gpt-4o

padrão gpt-4o

Camadas de uso

Padrão, padrão global do GPT-4o e padrão de zona de dados

Padrão GPT-4

Outros tipos de ofertas

Práticas recomendadas gerais para permanecer dentro dos limites da taxa

Como solicitar aumentos para as cotas e limites padrão

Próximas etapas

Comentários

Recursos adicionais