Quotas et limites du service Azure OpenAI Service

Article
11/13/2024

Cet article contient un aide-mémoire et une description détaillée des quotas et des limites d’Azure OpenAI dans Azure AI services.

Informations de référence sur les quotas et les limites

Les sections suivantes vous fournissent un guide rapide sur les quotas et les limites par défaut qui s’appliquent à Azure OpenAI :

Nom de la limite	Limite de la valeur
Ressources OpenAI par région par abonnement Azure	30
Limites de quota DALL-E 2 par défaut	2 demandes simultanées
Limites de quota DALL-E 3 par défaut	2 unités de capacité (6 requêtes par minute)
Limites de quota Whisper par défaut	3 requêtes par minute
Nombre maximal de jetons d’invite par requête	Varie selon le modèle. Pour obtenir plus d’informations, voir Modèles du service Azure OpenAI
Nombre maximal de déploiements Standard par ressource	32
Déploiements de modèles ajustés maximum	5
Nombre total de travaux de formation par ressource	100
Nombre maximal de travaux de formation en cours d’exécution simultanées par ressource	1
Nombre maximal de travaux de formation mis en file d’attente	20
Nombre maximal de fichiers par ressource (réglage précis)	50
Taille totale de tous les fichiers par ressource (réglage précis)	1 Go
Durée maximale du travail de formation (le travail échoue si la durée est dépassée)	720 heures
Taille maximale du travail d’apprentissage (jetons dans le fichier de formation) x (nombre d’époques)	2 milliard
Taille maximale de tous les fichiers par chargement (Azure OpenAI sur vos données)	16 Mo
Nombre maximal ou entrées dans le tableau avec `/embeddings`	2048
Nombre maximal de messages `/chat/completions`	2048
Nombre maximal de fonctions `/chat/completions`	128
Nombre maximal d’outils `/chat completions`	128
Nombre maximal d’unités de débit approvisionnées par déploiement	100 000
Nombre maximal de fichiers par assistant/thread	10 000 lors de l’utilisation de l’API ou d’AI Studio. 20 lors de l’utilisation d’Azure OpenAI Studio.
Taille de fichier maximale pour Assistants et réglage précis	512 Mo
Taille maximale pour tous les fichiers chargés pour les assistants	100 Go
Limite de jetons assistants	Limite de 2 000 000 jetons
Images maximales GPT-4o par requête (nombre d’images dans le tableau de messages/historique des conversations)	10
Nombre maximum par défaut de jetons GPT-4 `vision-preview` & GPT-4 `turbo-2024-04-09`	16 Augmentez la valeur du paramètre `max_tokens` pour éviter les réponses tronquées. Le nombre maximum par défaut de jetons GPT-4o est de 4096.
Nombre maximal d’en-têtes personnalisés dans les requêtes d’API¹	10
Nombre maximal de requêtes par minute Les limites de débit actuelles pour l’audio en temps réel (`gpt-4o-realtime-preview`) sont définies comme étant le nombre de nouvelles connexions WebSocket par minute. Par exemple, 6 requêtes par minute (RPM) signifie 6 nouvelles connexions par minute. Pour le moment, les limites d’utilisation pour `gpt-4o-realtime-preview` conviennent pour les tests et le développement.	6 nouvelles connexions par minute

¹ Nos API actuelles autorisent jusqu’à 10 en-têtes personnalisés qui sont passés via le pipeline et retournés. Certains clients dépassent maintenant ce nombre d’en-têtes, ce qui provoque des erreurs HTTP 431. Il n’existe aucune solution à cette erreur si ce n’est de réduire le volume des en-têtes. Dans les futures versions des API, nous ne passerons plus d’en-têtes personnalisés. Nous recommandons aux clients de ne pas dépendre des en-têtes personnalisés dans les futures architectures système.

Limites de quota régionales

Région	o1-mini	o1	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o-mini	GPT-35-Turbo	GPT-35-Turbo-Instruct	o1-mini - GlobalStandard	o1 - GlobalStandard	gpt-4o – GlobalStandard	gpt-4o-mini – GlobalStandard	GPT-4-Turbo - GlobalStandard	GPT-4o - Traitement par lots global	GPT-4o-mini – Global-Batch	GPT-4 – Traitement par lots global	GPT-4-Turbo – Traitement par lots global	GPT-35-Turbo – Traitement par lots global	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	GPT-4o – ajuster	GPT-4o-Mini – Ajustement	GPT-4 – finetune	Babbage-002	Babbage-002 - finetune	Davinci-002	Davinci-002 - finetune	GPT-35-Turbo - finetune	GPT-35-Turbo-1106 - finetune	GPT-35-Turbo-0125 - finetune
australiaeast	-	-	40 K	80 K	80 K	30 000	-	-	300 K	-	-	-	30 M	50 M	2 m	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 m	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
canadaeast	-	-	40 K	80 K	80 K	-	-	-	300 K	-	-	-	30 M	50 M	2 m	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus	1 M	600 K	-	-	80 K	-	1 M	2 m	240 K	240 K	50 M	30 M	30 M	50 M	2 m	5 B	15 o	150 M	300 M	10 B	240 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus2	1 M	600 K	-	-	80 K	-	1 M	2 m	300 K	-	50 M	30 M	30 M	50 M	2 m	-	-	-	-	-	350 K	350 K	350 K	250 K	-	-	-	-	-	-	250 K	250 K	250 K
francecentral	-	-	20 K	60 K	80 K	-	-	-	240 K	-	-	-	30 M	50 M	2 m	-	-	-	-	-	240 K	-	350 K	-	-	-	-	-	-	-	-	-	-
germanywestcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 m	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	-	-	30 000	-	-	300 K	-	-	-	30 M	50 M	2 m	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
KoreaCentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 m	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
northcentralus	1 M	600 K	-	-	80 K	-	1 M	2 m	300 K	-	50 M	30 M	30 M	50 M	2 m	-	-	-	-	-	350 K	-	-	250 K	500 K	100 K	240 K	250 K	240 K	250 K	250 K	250 K	250 K
norwayeast	-	-	-	-	150 K	-	-	-	-	-	-	-	30 M	50 M	2 m	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
polognecentre	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 m	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 m	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
southcentralus	1 M	600 K	-	-	80 K	-	1 M	2 m	240 K	-	50 M	30 M	30 M	50 M	2 m	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
southindia	-	-	-	-	150 K	-	-	-	300 K	-	-	-	30 M	50 M	2 m	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
spaincentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 m	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
centre de la suède	1 M	600 K	40 K	80 K	150 K	30 000	1 M	2 m	300 K	240 K	50 M	30 M	30 M	50 M	2 m	5 B	15 o	150 M	300 M	10 B	350 K	-	350 K	250 K	500 K	100 K	240 K	250 K	240 K	250 K	250 K	250 K	250 K
suisse nord	-	-	40 K	80 K	-	30 000	-	-	300 K	-	-	-	30 M	50 M	2 m	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K
uksouth	-	-	-	-	80 K	-	-	-	240 K	-	-	-	30 M	50 M	2 m	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	-	-	240 K	-	-	-	30 M	50 M	2 m	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
westus	1 M	600 K	-	-	80 K	30 000	1 M	2 m	300 K	-	50 M	30 M	30 M	50 M	2 m	5 B	15 o	150 M	300 M	10 B	350 K	-	-	-	-	-	-	-	-	-	-	-	-
westus3	1 M	600 K	-	-	80 K	-	1 M	2 m	300 K	-	50 M	30 M	30 M	50 M	2 m	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-

Limites du traitement par lots global

Nom de la limite	Limite de la valeur
Nombre maximal de fichiers par ressource	500
Taille maximale de fichier d’entrée	200 Mo
Nombre maximal de requêtes par fichier	100 000

Quota du traitement par lots global

Le tableau indique la limite de quota du traitement par lots. Les valeurs de quota pour le traitement par lots global sont représentées en termes de jetons empilés. Quand vous envoyez un fichier pour le traitement par lots, les jetons présents dans le fichier sont comptabilisés. Tant que le traitement par lots n’atteint pas un état terminal, ces jetons sont comptabilisés dans votre limite totale de jetons empilés.

Modèle	Contrat Entreprise	Par défaut	Abonnements mensuels basés sur une carte de crédit	Abonnements MSDN	Microsoft Azure for Students, essais gratuits
`gpt-4o`	5 B	200 M	50 M	90 K	S/O
`gpt-4o-mini`	15 o	1 o	50 M	90 K	S/O
`gpt-4-turbo`	300 M	80 M	40 M	90 K	S/O
`gpt-4`	150 M	30 M	5 M	100 K	S/O
`gpt-35-turbo`	10 B	1 o	100 M	2 m	50 K

B = milliard | M = million | K = mille

Limites de débit o1-preview et o1-mini

Important

Le ratio RPM/TPM pour le quota avec les modèles de la série o1 fonctionne différemment des anciens modèles d’achèvement de la conversation :

Anciens modèles de conversation : 1 unité de capacité = 6 RPM et 1 000 TPM.
o1-preview : 1 unité de capacité = 1 RPM et 6 000 TPM.
o1-mini : 1 unité de capacité = 1 RPM par 10 000 TPM.

Ceci est particulièrement important pour le déploiement de modèles programmatiques, car ce changement dans le ratio RPM/TPM peut entraîner une sous-allocation accidentelle de quotas si l’on suppose toujours le ratio 1:1000 suivi par les anciens modèles d’achèvement de conversation.

Il existe un problème connu avec l’API quota/utilisation qui suppose que l’ancien ratio s’applique aux nouveaux modèles de la série o1. L’API retourne le numéro de capacité de base correct, mais n’applique pas le ratio correct pour le calcul précis du TPM.

Standard global o1-preview et o1-mini

Modèle	Niveau	Limite de quota en jetons par minute (TPM)	Requêtes par minute
`o1-preview`	Contrat Entreprise	30 M	5 K
`o1-mini`	Contrat Entreprise	50 M	5 K
`o1-preview`	Par défaut	3 M	500
`o1-mini`	Par défaut	5 M	500

Standard o1-preview et o1-mini

Modèle	Niveau	Limite de quota en jetons par minute (TPM)	Requêtes par minute
`o1-preview`	Contrat Entreprise	600 K	100
`o1-mini`	Contrat Entreprise	1 M	100
`o1-preview`	Par défaut	300 K	50
`o1-mini`	Par défaut	500 K	50

Limitations de débit gpt-4o et GPT-4 Turbo

gpt-4o et gpt-4o-mini, et gpt-4 (turbo-2024-04-09) ont des niveaux de limitation de débit avec des limites plus élevées pour certains types de clients.

Norme globale gpt-4o et GPT-4 Turbo

Modèle	Niveau	Limite de quota en jetons par minute (TPM)	Requêtes par minute
`gpt-4o`	Contrat Entreprise	30 M	180 K
`gpt-4o-mini`	Contrat Entreprise	50 M	300 K
`gpt-4` (turbo-2024-04-09)	Contrat Entreprise	2 m	12 K
`gpt-4o`	Par défaut	450 K	2,7 K
`gpt-4o-mini`	Par défaut	2 m	12 K
`gpt-4` (turbo-2024-04-09)	Par défaut	450 K	2,7 K

M = million | K = mille

standard de zone de données gpt-4o

Modèle	Niveau	Limite de quota en jetons par minute (TPM)	Requêtes par minute
`gpt-4o`	Contrat Entreprise	10 M	60 K
`gpt-4o-mini`	Contrat Entreprise	20 millions	120 K
`gpt-4o`	Par défaut	300 K	1.8 K
`gpt-4o-mini`	Par défaut	1 M	6K

M = million | K = mille

norme gpt-4o

Modèle	Niveau	Limite de quota en jetons par minute (TPM)	Requêtes par minute
`gpt-4o`	Contrat Entreprise	1 M	6K
`gpt-4o-mini`	Contrat Entreprise	2 m	12 K
`gpt-4o`	Par défaut	150 K	900
`gpt-4o-mini`	Par défaut	450 K	2,7 K

M = million | K = mille

Niveaux d’utilisation

Les déploiements mondiaux standard utilisent l’infrastructure mondiale d’Azure et acheminer dynamiquement le trafic client vers le centre de données avec la meilleure disponibilité pour les demandes d’inférence du client. De même, les déploiements Standard de zone de données vous permettent de tirer parti de l’infrastructure mondiale Azure pour acheminer dynamiquement le trafic vers le centre de données au sein de la zone de données définie par Microsoft avec la meilleure disponibilité pour chaque requête. Ceci permet une latence plus cohérente pour les clients ayant des niveaux de trafic faible à moyen. Les clients ayant des niveaux d’utilisation élevés peuvent constater une plus grande variabilité dans la latence des réponses.

La limite d’utilisation détermine le niveau d’utilisation au-dessus duquel les clients peuvent constater une plus grande variabilité dans la latence des réponses. L’utilisation d’un client est définie par modèle et représente le nombre total de jetons consommés dans tous les déploiements de tous les abonnements dans toutes les régions pour un locataire donné.

Remarque

Les niveaux d’utilisation s’appliquent uniquement aux types de déploiement Standard, Standard de zone et Standard global. Le niveau d’utilisation ne s’applique pas aux déploiements à débit approvisionné et par lots globaux.

Standard global GPT-4o, Standard de zone de données, et Standard

Modèle	Niveaux d’utilisation par mois
`gpt-4o`	12 milliards de jetons
`gpt-4o-mini`	85 milliards de jetons

GPT-4 standard

Modèle	Niveaux d’utilisation par mois
`gpt-4` + `gpt-4-32k` (toutes les versions)	6 milliards

Autres types d’offres

Si votre abonnement Azure est lié à certains types d’offres, vos valeurs de quota maximales sont inférieures aux valeurs indiquées dans les tableaux ci-dessus.

Niveau	Limite de quota en jetons par minute (TPM)
Microsoft Azure for Students, essais gratuits	1 K (tous les modèles)
Abonnements MSDN	Série GPT 3.5 Turbo : 30 K Série GPT-4 : 8 K
Abonnements mensuels basés sur des cartes de crédit ¹	Série GPT 3.5 Turbo : 30 K Série GPT-4 : 8 K

¹ Ceci s’applique actuellement au type d’offre 0003P

Sur le Portail Azure, vous pouvez afficher le type d’offre associé à votre abonnement en accédant à votre abonnement et en vérifiant le volet de vue d’ensemble des abonnements. Le type d’offre correspond au champ de plan dans la vue d’ensemble de l’abonnement.

Meilleures pratiques générales pour rester dans les limites du débit

Pour réduire les problèmes liés aux limites du débit, il est judicieux d’utiliser les techniques suivantes :

Implémentez une logique de nouvelle tentative dans votre application.
Évitez les variations nettes de la charge de travail. Augmentez graduellement la charge de travail.
Testez différents modèles d’augmentation de la charge.
Augmentez le quota attribué à votre déploiement. Déplacez le quota d’un autre déploiement, si nécessaire.

Comment demander des augmentations aux limites et quotas par défaut

Les demandes d’augmentation de quota peuvent être envoyées à partir de la page Quotas d’Azure AI Studio. En raison d’une demande élevée, les demandes d’augmentation de quota sont acceptées et seront traitées dans l’ordre où elles sont reçues. La priorité est donnée aux clients qui génèrent du trafic consommant l’allocation de quota existante, et votre demande peut être refusée si cette condition n’est pas remplie.

Pour les autres limites de débit, envoyez une demande de service.

Étapes suivantes

Découvrez comment gérer un quota pour vos déploiements Azure OpenAI. Découvrez-en plus sur les modèles sous-jacents d’Azure OpenAI.

Partager via

Quotas et limites du service Azure OpenAI Service

Informations de référence sur les quotas et les limites

Limites de quota régionales

Limites du traitement par lots global

Quota du traitement par lots global

Limites de débit o1-preview et o1-mini

Standard global o1-preview et o1-mini

Standard o1-preview et o1-mini

Limitations de débit gpt-4o et GPT-4 Turbo

Norme globale gpt-4o et GPT-4 Turbo

standard de zone de données gpt-4o

norme gpt-4o

Niveaux d’utilisation

Standard global GPT-4o, Standard de zone de données, et Standard

GPT-4 standard

Autres types d’offres

Meilleures pratiques générales pour rester dans les limites du débit

Comment demander des augmentations aux limites et quotas par défaut

Étapes suivantes

Commentaires

Ressources supplémentaires