Kontingente und Grenzwerte für Azure OpenAI Service

Artikel
09/23/2024

Dieser Artikel enthält eine Kurzübersicht und eine ausführliche Beschreibung der Kontingente und Grenzwerte für Azure OpenAI in Azure KI Services.

Referenz zu Kontingenten und Grenzwerten

Folgende Abschnitte enthalten einen kurzen Leitfaden zu den Standard-Kontingenten und Grenzwerten, die für Azure OpenAI gelten:

Name des Grenzwerts	Wert des Grenzwerts
OpenAI-Ressourcen pro Region und Azure-Abonnement	30
Standardlimits für DALL-E 2-Kontingente	2 gleichzeitige Anforderungen
Standardlimits für DALL-E 3-Kontingente	2 Kapazitätseinheiten (6 Anforderungen pro Minute)
Standardmäßige Whisper-Kontingentgrenzwerte	3 Anforderungen pro Minute
Maximale Anzahl von Eingabeaufforderungstoken pro Anforderung	Variiert je nach Modell. Weitere Informationen dazu finden Sie unter Azure OpenAI-Servicemodelle.
Maximale Standardbereitstellungen pro Ressourcengruppe	32
Max. optimierte Modellimplementierungen	5
Gesamtzahl der Trainingsaufträge pro Ressource	100
Maximale Anzahl gleichzeitig ausgeführter Trainingsaufträge pro Ressource	1
Maximale Anzahl von Trainingsaufträgen in der Warteschlange	20
Maximale Anzahl von Dateien pro Ressource (Feinabstimmung)	50
Gesamtgröße aller Dateien pro Ressource (Feinabstimmung)	1 GB
Maximale Dauer von Trainingsaufträgen (Auftrag schlägt bei Überschreitung fehl)	720 Stunden
Maximale Größe von Trainingsaufträgen (Token in der Trainingsdatei) × (Anzahl von Epochen)	2 Milliarden
Maximale Größe aller Dateien pro Upload (Azure OpenAI für Ihre Daten)	16 MB
Maximale Anzahl oder Eingaben in Array mit `/embeddings`	2048
Maximale Anzahl von `/chat/completions`-Nachrichten	2048
Maximale Anzahl von `/chat/completions`-Funktionen	128
Maximale Anzahl von `/chat completions`-Tools	128
Maximale Anzahl von bereitgestellten Durchsatzeinheiten pro Bereitstellung	100.000
Maximale Anzahl von Dateien pro Assistent/Thread	10.000 bei Verwendung der API oder von KI Studio. 20 bei Verwendung von Azure OpenAI Studio.
Maximale Dateigröße für Assistenten und zur Optimierung	512 MB
Maximale Größe für alle hochgeladenen Dateien für Assistenten	100 GB
Tokenlimit für Assistenten	Limit von 2.000.000 Token
Maximale Anzahl GPT-4o-Bilder pro Anforderung (Anzahl von Bildern im Nachrichtenarray/in aufgezeichneten Unterhaltungen)	10
Maximale Anzahl GPT-4 `vision-preview`- & GPT-4 `turbo-2024-04-09`-Standardtoken	16 Erhöhen Sie den `max_tokens`-Parameterwert, um abgeschnittene Antworten zu vermeiden. Maximale Anzahl GPT-4o-Token ist standardmäßig 4096.
Maximale Anzahl von benutzerdefinierten Headern in API-Anforderungen¹	10

¹ Unsere aktuellen APIs ermöglichen bis zu 10 benutzerdefinierte Header, die über die Pipeline übergeben und zurückgegeben werden. Wir haben festgestellt, dass einige Kunden diese Headeranzahl jetzt überschreiten, was zu HTTP 431-Fehlern führt. Für diese Fehler gibt es keine Lösung, außer das Kopfzeilenvolumen zu reduzieren. In zukünftigen API-Versionen werden keine benutzerdefinierten Header mehr übergeben. Es wird empfohlen, dass Kunden in zukünftigen Systemarchitekturen nicht von benutzerdefinierten Headern abhängen.

Regionale Kontingentgrenzen

Region	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o-mini	GPT-35-Turbo	GPT-35-Turbo-Instruct	gpt-4o – GlobalStandard	gpt-4o-mini – GlobalStandard	GPT-4-Turbo – GlobalStandard	GPT-4o – Global-Batch	GPT-4o-mini – Global-Batch	GPT-4 – Global-Batch	GPT-4-Turbo – Global-Batch	gpt-35-turbo – Global-Batch	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	GPT-4o – finetune	GPT-4o-mini – finetune	GPT-4 – finetune	Babbage-002	Babbage-002 – Optimierung	Davinci-002	Davinci-002 – Optimierung	GPT-35-Turbo – Optimierung	GPT-35-Turbo-1106 – Optimierung	GPT-35-Turbo-0125 – Optimierung
australiaeast	40 Tsd.	80.000	80.000	30.000	-	-	300 K	-	30 M	-	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	30 M	-	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
canadaeast	40 Tsd.	80.000	80.000	-	-	-	300 K	-	30 M	-	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus	-	-	80.000	-	1 M	2 M	240.000	240.000	30 M	50 M	2 M	5 B	5 B	150 M	300 M	10 Mrd.	240.000	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus2	-	-	80.000	-	1 M	2 M	300 K	-	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	250 Tsd.	-	-	-	-	-	-	250 Tsd.	250 Tsd.	250 Tsd.
francecentral	20 Tsd.	60.000	80.000	-	-	-	240.000	-	30 M	-	2 M	-	-	-	-	-	240.000	-	350 K	-	-	-	-	-	-	-	-	-	-
germanywestcentral	-	-	-	-	-	-	-	-	30 M	-	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	30.000	-	-	300 K	-	30 M	-	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
koreacentral	-	-	-	-	-	-	-	-	30 M	-	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
northcentralus	-	-	80.000	-	1 M	2 M	300 K	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	250 Tsd.	500.000	100	240.000	250 Tsd.	240.000	250 Tsd.	250 Tsd.	250 Tsd.	250 Tsd.
norwayeast	-	-	150 K	-	-	-	-	-	30 M	-	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
polandcentral	-	-	-	-	-	-	-	-	30 M	-	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	30 M	-	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
southcentralus	-	-	80.000	-	1 M	-	240.000	-	30 M	-	2 M	-	-	-	-	-	240.000	-	-	-	-	-	-	-	-	-	-	-	-
southindia	-	-	150 K	-	-	-	300 K	-	30 M	-	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
spaincentral	-	-	-	-	-	-	-	-	30 M	-	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
swedencentral	40 Tsd.	80.000	150 K	30.000	1 M	2 M	300 K	240.000	30 M	50 M	2 M	5 B	5 B	150 M	300 M	10 Mrd.	350 K	-	350 K	250 Tsd.	500.000	100	240.000	250 Tsd.	240.000	250 Tsd.	250 Tsd.	250 Tsd.	250 Tsd.
switzerlandnorth	40 Tsd.	80.000	-	30.000	-	-	300 K	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	250 Tsd.	-	250 Tsd.	250 Tsd.	250 Tsd.	250 Tsd.
uksouth	-	-	80.000	-	-	-	240.000	-	30 M	-	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	240.000	-	30 M	50 M	2 M	-	-	-	-	-	240.000	-	-	-	-	-	-	-	-	-	-	-	-
westus	-	-	80.000	30.000	1 M	2 M	300 K	-	30 M	50 M	2 M	5 B	5 B	150 M	300 M	10 Mrd.	350 K	-	-	-	-	-	-	-	-	-	-	-	-
westus3	-	-	80.000	-	1 M	2 M	300 K	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-

Grenzwerte für einen globalen Batch

Name des Grenzwerts	Wert des Grenzwerts
Maximale Anzahl von Dateien pro Ressource	500
Maximale Größe der Eingabedatei	200 MB
Maximale Anforderungen pro Datei	100.000

Kontingent für globalen Batch

Die Tabelle zeigt den Grenzwert für ein Batchkontingent. Kontingentwerte für einen globalen Batch werden als Tokens in der Warteschlange dargestellt. Wenn Sie eine Datei zur Batchverarbeitung übermitteln, wird die Anzahl der in der Datei vorhandenen Tokens gezählt. Bis der Batchauftrag einen endgültigen Status erreicht, werden diese Tokens auf Ihren Gesamtgrenzwert der Tokens in der Warteschlange angerechnet.

Modell	Enterprise Agreement	Standard	Monatliche Abonnements mit Kreditkarte	MSDN-Abonnements	Microsoft Azure for Students, Free Testversionen
`gpt-4o`	5 B	50 M	1,35 M	90 K	N/V
`gpt-4o-mini`	5 B	50 M	1,35 M	90 K	N/V
`gpt-4-turbo`	300 M	40 M	1,35 M	90 K	N/V
`gpt-4`	150 M	5 M	200 K	100	N/V
`gpt-35-turbo`	10 Mrd.	100 M	5 M	2 M	50

Mrd. = Milliarde | M = Million | K = Tausend

Ratengrenzwerte für gpt-4o und GPT-4 Turbo

gpt-4o und gpt-4o-mini sowie gpt-4 (turbo-2024-04-09) verfügen über Ratengrenzwertebenen mit höheren Grenzwerten für bestimmte Kundentypen.

Globaler Standard für gpt-4o und GPT-4 Turbo

Modell	Tarif	Kontingentbeschränkung in Token pro Minute (TPM)	Anforderungen pro Minute
`gpt-4o`	Enterprise Agreement	30 M	180 Tsd.
`gpt-4o-mini`	Enterprise Agreement	50 M	300 K
`gpt-4` (turbo-2024-04-09)	Enterprise Agreement	2 M	12 K
`gpt-4o`	Standard	450 K	2,7 K
`gpt-4o-mini`	Standard	2 M	12 K
`gpt-4` (turbo-2024-04-09)	Standard	450 K	2,7 K

M = Million | K = Tausend

gpt-4o Standard

Modell	Tarif	Kontingentbeschränkung in Token pro Minute (TPM)	Anforderungen pro Minute
`gpt-4o`	Enterprise Agreement	1 M	6 Tsd.
`gpt-4o-mini`	Enterprise Agreement	2 M	12 K
`gpt-4o`	Standard	150 K	900
`gpt-4o-mini`	Standard	450 K	2,7 K

M = Million | K = Tausend

Verwendungsebenen

Globale Standardbereitstellungen verwenden die globale Azure-Infrastruktur und leiten den Kundendatenverkehr dynamisch an das Rechenzentrum weiter, das die beste Verfügbarkeit für die Rückschlussanforderungen des Kunden bietet. Das ermöglicht eine konsistentere Wartezeit für Kunden mit geringem bis mittlerem Datenverkehr. Bei Kunden mit einer dauerhaft hohen Nutzung tritt möglicherweise eine höhere Variabilität der Antwortwartezeit auf.

Der Nutzungsgrenzwert bestimmt den Nutzungsgrad, über dem für Kunden möglicherweise eine höhere Variabilität der Antwortwartezeit auftritt. Die Nutzung eines Kunden ist pro Modell definiert und setzt sich aus der Gesamtanzahl der Token zusammen, die von einem bestimmten Mandanten durch alle Bereitstellungen in allen Abonnements und Regionen verbraucht werden.

Hinweis

Verwendungsebenen gelten nur für Standard- und globale Standardbereitstellungstypen. Verbrauchsebenen gelten nicht für globale Batch- und bereitgestellte Durchsatzbereitstellungen.

GPT-4o – globaler Standard und Standard

Modell	Nutzungstarife pro Monat
`gpt-4o`	8 Milliarden Token
`gpt-4o-mini`	45 Milliarden Token

GPT-4 Standard

Modell	Nutzungstarife pro Monat
`gpt-4` + `gpt-4-32k` (alle Versionen)	4 Milliarden

Andere Angebotstypen

Wenn Ihr Azure-Abonnement mit bestimmten Angebotstypen verknüpft ist, sind Ihre maximalen Kontingentwerte niedriger als die in den obigen Tabellen angegebenen Werte.

Tarif	Kontingentbeschränkung in Token pro Minute (TPM)
Microsoft Azure for Students, Free Testversionen	1000 (alle Modelle)
MSDN-Abonnements	GPT 3.5 Turbo-Serie: 30 000 GPT-4-Serie: 8000
Monatliche Kreditkartenabonnements ¹	GPT 3.5 Turbo-Serie: 30 000 GPT-4-Serie: 8000

¹ Dies gilt derzeit für den Angebotstyp 0003P

Im Azure-Portal können Sie anzeigen, welcher Angebotstyp Ihrem Abonnement zugeordnet ist, indem Sie zu Ihrem Abonnement navigieren und den Übersichtsbereich der Abonnements überprüfen. Der Angebotstyp entspricht dem Feld „Plan“ in der Abonnementübersicht.

Allgemeine bewährte Methoden, um innerhalb der Ratenbegrenzungen zu bleiben

Um Probleme im Zusammenhang mit der Ratenbegrenzung zu minimieren, empfiehlt sich folgende Methoden:

Implementieren Sie eine Wiederholungslogik in der Anwendung.
Vermeiden Sie plötzliche Änderungen bei der Arbeitsauslastung. Erhöhen Sie die Workload nach und nach.
Testen Sie verschiedene Lasterhöhungsmuster.
Erhöhen Sie das Ihrer Bereitstellung zugewiesene Kontingent. Verschieben Sie Kontingent bei Bedarf aus einer anderen Bereitstellung.

Anfordern von Erhöhungen der Standardkontingente und Grenzwerte

Anforderungen zur Erhöhung des Kontingents können über die Seite Kontingente von Azure OpenAI Studio übermittelt werden. Beachten Sie, dass aufgrund der großen Nachfrage Anforderungen zur Kontingenterhöhung akzeptiert und in der Eingangsreihenfolge verarbeitet werden. Kunden, die Datenverkehr erzeugen, der das vorhandene Kontingent ausschöpft, werden vorrangig behandelt, und Ihre Anforderung kann abgelehnt werden, wenn diese Bedingung nicht erfüllt ist.

Für andere Ratenlimits senden Sie eine Serviceanfrage.

Nächste Schritte

Erfahren Sie, wie Sie das Kontingent für Ihre Azure OpenAI-Bereitstellungen verwalten. Erfahren Sie mehr über die zugrunde liegenden Modelle, auf denen Azure OpenAI basiert.

Freigeben über