Quotas et limites du service Azure OpenAI Service

Cet article contient un aide-mémoire et une description détaillée des quotas et des limites d’Azure OpenAI dans Azure AI services.

Informations de référence sur les quotas et les limites

Les sections suivantes vous fournissent un guide rapide sur les quotas et les limites par défaut qui s’appliquent à Azure OpenAI :

Nom de la limite Limite de la valeur
Ressources OpenAI par région par abonnement Azure 30
Limites de quota DALL-E 2 par défaut 2 demandes simultanées
Limites de quota DALL-E 3 par défaut 2 unités de capacité (6 requêtes par minute)
Limites de quota Whisper par défaut 3 requêtes par minute
Nombre maximal de jetons d’invite par requête Varie selon le modèle. Pour obtenir plus d’informations, voir Modèles du service Azure OpenAI
Nombre maximal de déploiements Standard par ressource 32
Déploiements de modèles ajustés maximum 5
Nombre total de travaux de formation par ressource 100
Nombre maximal de travaux de formation en cours d’exécution simultanées par ressource 1
Nombre maximal de travaux de formation mis en file d’attente 20
Nombre maximal de fichiers par ressource (réglage précis) 50
Taille totale de tous les fichiers par ressource (réglage précis) 1 Go
Durée maximale du travail de formation (le travail échoue si la durée est dépassée) 720 heures
Taille maximale du travail d’apprentissage (jetons dans le fichier de formation) x (nombre d’époques) 2 milliard
Taille maximale de tous les fichiers par chargement (Azure OpenAI sur vos données) 16 Mo
Nombre maximal ou entrées dans le tableau avec /embeddings 2048
Nombre maximal de messages /chat/completions 2048
Nombre maximal de fonctions /chat/completions 128
Nombre maximal d’outils /chat completions 128
Nombre maximal d’unités de débit approvisionnées par déploiement 100 000
Nombre maximal de fichiers par assistant/thread 10 000 lors de l’utilisation de l’API ou d’AI Studio. 20 lors de l’utilisation d’Azure OpenAI Studio.
Taille de fichier maximale pour Assistants et réglage précis 512 Mo
Taille maximale pour tous les fichiers chargés pour les assistants 100 Go
Limite de jetons assistants Limite de 2 000 000 jetons
Images maximales GPT-4o par requête (nombre d’images dans le tableau de messages/historique des conversations) 10
Nombre maximum par défaut de jetons GPT-4 vision-preview & GPT-4 turbo-2024-04-09 16

Augmentez la valeur du paramètre max_tokens pour éviter les réponses tronquées. Le nombre maximum par défaut de jetons GPT-4o est de 4096.
Nombre maximal d’en-têtes personnalisés dans les requêtes d’API1 10
Nombre maximal de requêtes par minute

Les limites de débit actuelles pour l’audio en temps réel (gpt-4o-realtime-preview) sont définies comme étant le nombre de nouvelles connexions WebSocket par minute. Par exemple, 6 requêtes par minute (RPM) signifie 6 nouvelles connexions par minute. Pour le moment, les limites d’utilisation pour gpt-4o-realtime-preview conviennent pour les tests et le développement.
6 nouvelles connexions par minute

1 Nos API actuelles autorisent jusqu’à 10 en-têtes personnalisés qui sont passés via le pipeline et retournés. Certains clients dépassent maintenant ce nombre d’en-têtes, ce qui provoque des erreurs HTTP 431. Il n’existe aucune solution à cette erreur si ce n’est de réduire le volume des en-têtes. Dans les futures versions des API, nous ne passerons plus d’en-têtes personnalisés. Nous recommandons aux clients de ne pas dépendre des en-têtes personnalisés dans les futures architectures système.

Limites de quota régionales

Région o1-mini o1 GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o-mini GPT-35-Turbo GPT-35-Turbo-Instruct o1-mini - GlobalStandard o1 - GlobalStandard gpt-4o – GlobalStandard gpt-4o-mini – GlobalStandard GPT-4-Turbo - GlobalStandard GPT-4o - Traitement par lots global GPT-4o-mini – Global-Batch GPT-4 – Traitement par lots global GPT-4-Turbo – Traitement par lots global GPT-35-Turbo – Traitement par lots global Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large GPT-4o – ajuster GPT-4o-Mini – Ajustement GPT-4 – finetune Babbage-002 Babbage-002 - finetune Davinci-002 Davinci-002 - finetune GPT-35-Turbo - finetune GPT-35-Turbo-1106 - finetune GPT-35-Turbo-0125 - finetune
australiaeast - - 40 K 80 K 80 K 30 000 - - 300 K - - - 30 M 50 M 2 m - - - - - 350 K - - - - - - - - - - - -
brazilsouth - - - - - - - - - - - - 30 M 50 M 2 m - - - - - 350 K - - - - - - - - - - - -
canadaeast - - 40 K 80 K 80 K - - - 300 K - - - 30 M 50 M 2 m - - - - - 350 K 350 K 350 K - - - - - - - - - -
eastus 1 M 600 K - - 80 K - 1 M 2 m 240 K 240 K 50 M 30 M 30 M 50 M 2 m 5 B 15 o 150 M 300 M 10 B 240 K 350 K 350 K - - - - - - - - - -
eastus2 1 M 600 K - - 80 K - 1 M 2 m 300 K - 50 M 30 M 30 M 50 M 2 m - - - - - 350 K 350 K 350 K 250 K - - - - - - 250 K 250 K 250 K
francecentral - - 20 K 60 K 80 K - - - 240 K - - - 30 M 50 M 2 m - - - - - 240 K - 350 K - - - - - - - - - -
germanywestcentral - - - - - - - - - - - - 30 M 50 M 2 m - - - - - - - - - - - - - - - - - -
japaneast - - - - - 30 000 - - 300 K - - - 30 M 50 M 2 m - - - - - 350 K 350 K 350 K - - - - - - - - - -
KoreaCentral - - - - - - - - - - - - 30 M 50 M 2 m - - - - - - - - - - - - - - - - - -
northcentralus 1 M 600 K - - 80 K - 1 M 2 m 300 K - 50 M 30 M 30 M 50 M 2 m - - - - - 350 K - - 250 K 500 K 100 K 240 K 250 K 240 K 250 K 250 K 250 K 250 K
norwayeast - - - - 150 K - - - - - - - 30 M 50 M 2 m - - - - - 350 K - 350 K - - - - - - - - - -
polognecentre - - - - - - - - - - - - 30 M 50 M 2 m - - - - - - - - - - - - - - - - - -
southafricanorth - - - - - - - - - - - - 30 M 50 M 2 m - - - - - 350 K - - - - - - - - - - - -
southcentralus 1 M 600 K - - 80 K - 1 M 2 m 240 K - 50 M 30 M 30 M 50 M 2 m - - - - - 240 K - - - - - - - - - - - -
southindia - - - - 150 K - - - 300 K - - - 30 M 50 M 2 m - - - - - 350 K - 350 K - - - - - - - - - -
spaincentral - - - - - - - - - - - - 30 M 50 M 2 m - - - - - - - - - - - - - - - - - -
centre de la suède 1 M 600 K 40 K 80 K 150 K 30 000 1 M 2 m 300 K 240 K 50 M 30 M 30 M 50 M 2 m 5 B 15 o 150 M 300 M 10 B 350 K - 350 K 250 K 500 K 100 K 240 K 250 K 240 K 250 K 250 K 250 K 250 K
suisse nord - - 40 K 80 K - 30 000 - - 300 K - - - 30 M 50 M 2 m - - - - - 350 K - - - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - - - - - - - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K
uksouth - - - - 80 K - - - 240 K - - - 30 M 50 M 2 m - - - - - 350 K - 350 K - - - - - - - - - -
westeurope - - - - - - - - 240 K - - - 30 M 50 M 2 m - - - - - 240 K - - - - - - - - - - - -
westus 1 M 600 K - - 80 K 30 000 1 M 2 m 300 K - 50 M 30 M 30 M 50 M 2 m 5 B 15 o 150 M 300 M 10 B 350 K - - - - - - - - - - - -
westus3 1 M 600 K - - 80 K - 1 M 2 m 300 K - 50 M 30 M 30 M 50 M 2 m - - - - - 350 K - 350 K - - - - - - - - - -

Limites du traitement par lots global

Nom de la limite Limite de la valeur
Nombre maximal de fichiers par ressource 500
Taille maximale de fichier d’entrée 200 Mo
Nombre maximal de requêtes par fichier 100 000

Quota du traitement par lots global

Le tableau indique la limite de quota du traitement par lots. Les valeurs de quota pour le traitement par lots global sont représentées en termes de jetons empilés. Quand vous envoyez un fichier pour le traitement par lots, les jetons présents dans le fichier sont comptabilisés. Tant que le traitement par lots n’atteint pas un état terminal, ces jetons sont comptabilisés dans votre limite totale de jetons empilés.

Modèle Contrat Entreprise Par défaut Abonnements mensuels basés sur une carte de crédit Abonnements MSDN Microsoft Azure for Students, essais gratuits
gpt-4o 5 B 200 M 50 M 90 K S/O
gpt-4o-mini 15 o 1 o 50 M 90 K S/O
gpt-4-turbo 300 M 80 M 40 M 90 K S/O
gpt-4 150 M 30 M 5 M 100 K S/O
gpt-35-turbo 10 B 1 o 100 M 2 m 50 K

B = milliard | M = million | K = mille

Limites de débit o1-preview et o1-mini

Important

Le ratio RPM/TPM pour le quota avec les modèles de la série o1 fonctionne différemment des anciens modèles d’achèvement de la conversation :

  • Anciens modèles de conversation : 1 unité de capacité = 6 RPM et 1 000 TPM.
  • o1-preview : 1 unité de capacité = 1 RPM et 6 000 TPM.
  • o1-mini : 1 unité de capacité = 1 RPM par 10 000 TPM.

Ceci est particulièrement important pour le déploiement de modèles programmatiques, car ce changement dans le ratio RPM/TPM peut entraîner une sous-allocation accidentelle de quotas si l’on suppose toujours le ratio 1:1000 suivi par les anciens modèles d’achèvement de conversation.

Il existe un problème connu avec l’API quota/utilisation qui suppose que l’ancien ratio s’applique aux nouveaux modèles de la série o1. L’API retourne le numéro de capacité de base correct, mais n’applique pas le ratio correct pour le calcul précis du TPM.

Standard global o1-preview et o1-mini

Modèle Niveau Limite de quota en jetons par minute (TPM) Requêtes par minute
o1-preview Contrat Entreprise 30 M 5 K
o1-mini Contrat Entreprise 50 M 5 K
o1-preview Par défaut 3 M 500
o1-mini Par défaut 5 M 500

Standard o1-preview et o1-mini

Modèle Niveau Limite de quota en jetons par minute (TPM) Requêtes par minute
o1-preview Contrat Entreprise 600 K 100
o1-mini Contrat Entreprise 1 M 100
o1-preview Par défaut 300 K 50
o1-mini Par défaut 500 K 50

Limitations de débit gpt-4o et GPT-4 Turbo

gpt-4o et gpt-4o-mini, et gpt-4 (turbo-2024-04-09) ont des niveaux de limitation de débit avec des limites plus élevées pour certains types de clients.

Norme globale gpt-4o et GPT-4 Turbo

Modèle Niveau Limite de quota en jetons par minute (TPM) Requêtes par minute
gpt-4o Contrat Entreprise 30 M 180 K
gpt-4o-mini Contrat Entreprise 50 M 300 K
gpt-4 (turbo-2024-04-09) Contrat Entreprise 2 m 12 K
gpt-4o Par défaut 450 K 2,7 K
gpt-4o-mini Par défaut 2 m 12 K
gpt-4 (turbo-2024-04-09) Par défaut 450 K 2,7 K

M = million | K = mille

standard de zone de données gpt-4o

Modèle Niveau Limite de quota en jetons par minute (TPM) Requêtes par minute
gpt-4o Contrat Entreprise 10 M 60 K
gpt-4o-mini Contrat Entreprise 20 millions 120 K
gpt-4o Par défaut 300 K 1.8 K
gpt-4o-mini Par défaut 1 M 6K

M = million | K = mille

norme gpt-4o

Modèle Niveau Limite de quota en jetons par minute (TPM) Requêtes par minute
gpt-4o Contrat Entreprise 1 M 6K
gpt-4o-mini Contrat Entreprise 2 m 12 K
gpt-4o Par défaut 150 K 900
gpt-4o-mini Par défaut 450 K 2,7 K

M = million | K = mille

Niveaux d’utilisation

Les déploiements mondiaux standard utilisent l’infrastructure mondiale d’Azure et acheminer dynamiquement le trafic client vers le centre de données avec la meilleure disponibilité pour les demandes d’inférence du client. De même, les déploiements Standard de zone de données vous permettent de tirer parti de l’infrastructure mondiale Azure pour acheminer dynamiquement le trafic vers le centre de données au sein de la zone de données définie par Microsoft avec la meilleure disponibilité pour chaque requête. Ceci permet une latence plus cohérente pour les clients ayant des niveaux de trafic faible à moyen. Les clients ayant des niveaux d’utilisation élevés peuvent constater une plus grande variabilité dans la latence des réponses.

La limite d’utilisation détermine le niveau d’utilisation au-dessus duquel les clients peuvent constater une plus grande variabilité dans la latence des réponses. L’utilisation d’un client est définie par modèle et représente le nombre total de jetons consommés dans tous les déploiements de tous les abonnements dans toutes les régions pour un locataire donné.

Remarque

Les niveaux d’utilisation s’appliquent uniquement aux types de déploiement Standard, Standard de zone et Standard global. Le niveau d’utilisation ne s’applique pas aux déploiements à débit approvisionné et par lots globaux.

Standard global GPT-4o, Standard de zone de données, et Standard

Modèle Niveaux d’utilisation par mois
gpt-4o 12 milliards de jetons
gpt-4o-mini 85 milliards de jetons

GPT-4 standard

Modèle Niveaux d’utilisation par mois
gpt-4 + gpt-4-32k (toutes les versions) 6 milliards

Autres types d’offres

Si votre abonnement Azure est lié à certains types d’offres, vos valeurs de quota maximales sont inférieures aux valeurs indiquées dans les tableaux ci-dessus.

Niveau Limite de quota en jetons par minute (TPM)
Microsoft Azure for Students, essais gratuits 1 K (tous les modèles)
Abonnements MSDN Série GPT 3.5 Turbo : 30 K
Série GPT-4 : 8 K
Abonnements mensuels basés sur des cartes de crédit 1 Série GPT 3.5 Turbo : 30 K
Série GPT-4 : 8 K

1 Ceci s’applique actuellement au type d’offre 0003P

Sur le Portail Azure, vous pouvez afficher le type d’offre associé à votre abonnement en accédant à votre abonnement et en vérifiant le volet de vue d’ensemble des abonnements. Le type d’offre correspond au champ de plan dans la vue d’ensemble de l’abonnement.

Meilleures pratiques générales pour rester dans les limites du débit

Pour réduire les problèmes liés aux limites du débit, il est judicieux d’utiliser les techniques suivantes :

  • Implémentez une logique de nouvelle tentative dans votre application.
  • Évitez les variations nettes de la charge de travail. Augmentez graduellement la charge de travail.
  • Testez différents modèles d’augmentation de la charge.
  • Augmentez le quota attribué à votre déploiement. Déplacez le quota d’un autre déploiement, si nécessaire.

Comment demander des augmentations aux limites et quotas par défaut

Les demandes d’augmentation de quota peuvent être envoyées à partir de la page Quotas d’Azure AI Studio. En raison d’une demande élevée, les demandes d’augmentation de quota sont acceptées et seront traitées dans l’ordre où elles sont reçues. La priorité est donnée aux clients qui génèrent du trafic consommant l’allocation de quota existante, et votre demande peut être refusée si cette condition n’est pas remplie.

Pour les autres limites de débit, envoyez une demande de service.

Étapes suivantes

Découvrez comment gérer un quota pour vos déploiements Azure OpenAI. Découvrez-en plus sur les modèles sous-jacents d’Azure OpenAI.