Kvóty a limity služby Azure OpenAI

Článek
10/31/2024

Tento článek obsahuje stručný přehled a podrobný popis kvót a omezení pro Azure OpenAI ve službách Azure AI.

Referenční informace o kvótách a omezeních

Následující části obsahují stručný průvodce výchozími kvótami a omezeními, které platí pro Azure OpenAI:

Název limitu	Omezit hodnotu
Prostředky OpenAI na oblast na předplatné Azure	30
Výchozí limity kvót DALL-E 2	2 souběžné žádosti
Výchozí limity kvót DALL-E 3	2 jednotky kapacity (6 požadavků za minutu)
Výchozí limity kvót pro šeptaní	3 žádosti za minutu
Maximální počet tokenů výzvy na požadavek	Liší se podle modelu. Další informace najdete v tématu Modely služby Azure OpenAI Service.
Maximální počet standardních nasazení na prostředek	32
Maximální jemně vyladěná nasazení modelu	5
Celkový počet trénovacích úloh na prostředek	100
Maximální počet souběžných spuštěných trénovacích úloh na prostředek	0
Maximální počet trénovacích úloh zařazených do fronty	20
Maximální počet souborů na prostředek (vyladění)	50
Celková velikost všech souborů na prostředek (vyladění)	1 GB
Maximální doba trénovací úlohy (úloha selže, pokud dojde k překročení)	720 hodin
Maximální velikost trénovací úlohy (tokeny v trénovacím souboru) x (počet epoch)	2 miliardy
Max size of all files per upload (Azure OpenAI on your data)	16 MB
Maximální počet nebo vstupy v poli s `/embeddings`	2048
Maximální počet `/chat/completions` zpráv	2048
Maximální počet `/chat/completions` funkcí	128
Maximální počet `/chat completions` nástrojů	128
Maximální počet zřízených jednotek propustnosti na nasazení	100 000
Maximální počet souborů na asistenta nebo vlákno	10 000 při použití rozhraní API nebo AI Studia. 20 při použití nástroje Azure OpenAI Studio.
Maximální velikost souboru pro asistenty a vyladění	512 MB
Maximální velikost všech nahraných souborů pro Asistenty	100 GB
Limit tokenů asistentů	2 000 000 tokenů
GpT-4o max images per request (# of images in the messages array/conversation history)	10
Výchozí maximální počet tokenů GPT-4 `vision-preview` & GPT-4 `turbo-2024-04-09`	16 Zvyšte hodnotu parametru, `max_tokens` abyste se vyhnuli zkráceným odpovědím. Výchozí hodnota maximálního počtu tokenů GPT-4o je 4096.
Maximální počet vlastních hlaviček v požadavcích^{rozhraní API 1}	10

¹ Naše aktuální rozhraní API umožňují až 10 vlastních hlaviček, které se předávají kanálem a vrací se. Všimli jsme si, že někteří zákazníci teď tento počet hlaviček překračují, což vede k chybám HTTP 431. Pro tuto chybu neexistuje žádné řešení, kromě zmenšení svazku záhlaví. V budoucích verzích rozhraní API už nebudeme předávat vlastní hlavičky. Zákazníkům doporučujeme, aby v budoucích systémových architekturách nezávisí na vlastních hlavičkách.

Omezení kvót v jednotlivých oblastech

Oblast	o1-mini	o1	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o-mini	GPT-35-Turbo	GPT-35-Turbo-Instruct	o1-mini – GlobalStandard	o1 – GlobalStandard	gpt-4o – GlobalStandard	gpt-4o-mini - GlobalStandard	GPT-4-Turbo - GlobalStandard	GPT-4o – Global-Batch	GPT-4o-mini - Global-Batch	GPT-4 – Global-Batch	GPT-4-Turbo - Global-Batch	gpt-35-turbo - Global-Batch	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	GPT-4o - jemné ladění	GPT-4o-mini - jemné ladění	GPT-4 - jemné ladění	Babbage-002	Babbage-002 - jemné ladění	Davinci-002	Davinci-002 - jemné ladění	GPT-35-Turbo - jemné ladění	GPT-35-Turbo-1106 - jemné ladění	GPT-35-Turbo-0125 - jemné ladění
australiaeast	-	-	40 K	80 K	80 K	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
canadaeast	-	-	40 K	80 K	80 K	-	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus	1 M	600 K	-	-	80 K	-	1 M	2 M	240 K	240 K	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	240 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus2	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	250 K	-	-	-	-	-	-	250 K	250 K	250 K
francecentral	-	-	20 tis.	60 K	80 K	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240 K	-	350 K	-	-	-	-	-	-	-	-	-	-
Německo – středozápad	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	-	-	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
koreacentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
northcentralus	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	250 K	500 K	100 tis.	240 K	250 K	240 K	250 K	250 K	250 K	250 K
Norsko – východ	-	-	-	-	150 K	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
polskocentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
Jižní Afrika – sever	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
Střed USA – jih	1 M	600 K	-	-	80 K	-	1 M	2 M	240 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
southindia	-	-	-	-	150 K	-	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
španělskocentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
swedencentral	1 M	600 K	40 K	80 K	150 K	30 K	1 M	2 M	300 K	240 K	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350 K	-	350 K	250 K	500 K	100 tis.	240 K	250 K	240 K	250 K	250 K	250 K	250 K
switzerlandnorth	-	-	40 K	80 K	-	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K
uksouth	-	-	-	-	80 K	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
westus	1 M	600 K	-	-	80 K	30 K	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350 K	-	-	-	-	-	-	-	-	-	-	-	-
westus3	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-

Globální limity dávek

Název limitu	Omezit hodnotu
Maximální počet souborů na prostředek	500
Maximální velikost vstupního souboru	200 MB
Maximální počet požadavků na soubor	100 000

Globální kvóta dávky

V tabulce je uveden limit kvóty dávky. Hodnoty kvót pro globální dávku jsou reprezentovány z hlediska vyčtených tokenů. Když odešlete soubor pro dávkové zpracování počtu tokenů, které jsou přítomné v souboru, se započítávají. Dokud dávková úloha nedosáhne stavu terminálu, tyto tokeny se započítávají do celkového limitu vyčíslených tokenů.

Model	Smlouva Enterprise	Výchozí	Předplatná založená na měsíčních platebních kartách	Předplatná MSDN	Azure for Students, bezplatné zkušební verze
`gpt-4o`	5 B	200 M	50 M	90 K	–
`gpt-4o-mini`	15 B	1 B	50 M	90 K	–
`gpt-4-turbo`	300 M	80 M	40 M	90 K	–
`gpt-4`	150 M	30 M	5 M	100 tis.	–
`gpt-35-turbo`	10 B	1 B	100 M	2 M	50 tis.

B = miliarda | M = milion | K = tisíc

o1-preview & o1-mini rate limits

Důležité

Poměr RPM/TPM pro kvótu u modelů řady o1 funguje jinak než modely dokončení starších chatů:

Starší modely chatu: 1 jednotka kapacity = 6 RPM a 1 000 TPM.
o1-Preview: 1 jednotka kapacity = 1 RPM a 6 000 TPM.
o1-mini: 1 jednotka kapacity = 1 RPM na 10 000 TPM.

To je zvlášť důležité pro programové nasazení modelu, protože tato změna poměru RPM/TPM může vést k náhodnému přidělení kvóty, pokud se stále předpokládá poměr 1:1000 následovaný staršími modely dokončování chatu.

Existuje známý problém s rozhraním API pro kvóty nebo využití, kde předpokládá, že starý poměr se vztahuje na nové modely řady o1. Rozhraní API vrátí správné číslo základní kapacity, ale nepoužije správný poměr pro přesný výpočet čipu TPM.

o1-preview & o1-mini global standard

Model	Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
`o1-preview`	Smlouva Enterprise	30 M	5 K
`o1-mini`	Smlouva Enterprise	50 M	5 K
`o1-preview`	Výchozí	3 M	500
`o1-mini`	Výchozí	5 M	500

o1-preview a o1-mini standard

Model	Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
`o1-preview`	Smlouva Enterprise	600 K	100
`o1-mini`	Smlouva Enterprise	1 M	100
`o1-preview`	Výchozí	300 K	50
`o1-mini`	Výchozí	500 K	50

gpt-4o & GPT-4 Turbo rychlost omezení

gpt-4oa gpt-4o-minigpt-4 (turbo-2024-04-09) mají úrovně omezení rychlosti s vyššími limity pro určité typy zákazníků.

gpt-4o & GPT-4 Turbo global standard

Model	Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
`gpt-4o`	Smlouva Enterprise	30 M	180 K
`gpt-4o-mini`	Smlouva Enterprise	50 M	300 K
`gpt-4` (turbo-2024-04-09)	Smlouva Enterprise	2 M	12 K
`gpt-4o`	Výchozí	450 K	2.7 K
`gpt-4o-mini`	Výchozí	2 M	12 K
`gpt-4` (turbo-2024-04-09)	Výchozí	450 K	2.7 K

M = milion | K = tisíc

gpt-4o Data Zone Standard

Model	Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
`gpt-4o`	Smlouva Enterprise	10 M	60 K
`gpt-4o-mini`	Smlouva Enterprise	20 M	120 K
`gpt-4o`	Výchozí	300 K	1.8 K
`gpt-4o-mini`	Výchozí	1 M	6 K

M = milion | K = tisíc

gpt-4o standard

Model	Úroveň	Limit kvóty v tokenech za minutu (TPM)	Žádosti za minutu
`gpt-4o`	Smlouva Enterprise	1 M	6 K
`gpt-4o-mini`	Smlouva Enterprise	2 M	12 K
`gpt-4o`	Výchozí	150 K	900
`gpt-4o-mini`	Výchozí	450 K	2.7 K

M = milion | K = tisíc

Úrovně využití

Globální standardní nasazení využívají globální infrastrukturu Azure a dynamicky směrují zákaznický provoz do datového centra s nejlepší dostupností pro požadavky zákazníka na odvozování. Podobně standardní nasazení zóny dat umožňují využít globální infrastrukturu Azure k dynamickému směrování provozu do datového centra v rámci datové zóny definované Microsoftem s nejlepší dostupností pro jednotlivé požadavky. To umožňuje konzistentnější latenci pro zákazníky s nízkou až střední úrovní provozu. Zákazníci s vysokou trvalou úrovní využití můžou vidět větší variabilitu v latenci odezvy.

Limit využití určuje úroveň využití, nad kterou můžou zákazníci vidět větší variabilitu latence odezvy. Využití zákazníka je definováno na model a je celkový počet tokenů spotřebovaných napříč všemi nasazeními ve všech předplatných ve všech oblastech daného tenanta.

Poznámka:

Úrovně využití se vztahují pouze na standardní typy nasazení, standardu datové zóny a globálního standardního nasazení. Úrovně využití se nevztahují na globální nasazení dávkové a zřízené propustnosti.

GPT-4o global standard, data zone standard, &standard

Model	Úrovně využití za měsíc
`gpt-4o`	12 miliard tokenů
`gpt-4o-mini`	85 miliard tokenů

GPT-4 standard

Model	Úrovně využití za měsíc
`gpt-4` + `gpt-4-32k` (všechny verze)	6 miliard

Další typy nabídek

Pokud je vaše předplatné Azure propojené s určitými typy nabídek, jsou vaše maximální hodnoty kvóty nižší než hodnoty uvedené v předchozích tabulkách.

Úroveň	Limit kvóty v tokenech za minutu (TPM)
Azure for Students, bezplatné zkušební verze	1 K (všechny modely)
Předplatná MSDN	GPT 3.5 Turbo Série: 30 K ŘADA GPT-4: 8 K
Měsíční předplatná ^{založená na platební kartě 1}	GPT 3.5 Turbo Série: 30 K ŘADA GPT-4: 8 K

¹ Toto se aktuálně vztahuje na typ nabídky 0003P.

Na webu Azure Portal můžete zobrazit, jaký typ nabídky je přidružený k vašemu předplatnému, a to tak, že přejdete do svého předplatného a zkontrolujete podokno přehledu předplatných. Typ nabídky odpovídá poli plánu v přehledu předplatného.

Obecné osvědčené postupy pro zachování limitů četnosti

Pokud chcete minimalizovat problémy související s limity rychlosti, je vhodné použít následující techniky:

Implementujte do své aplikace logiku opakování pokusů.
Pokuste se předcházet prudkým výkyvům zatížení. Zvyšujte zatížení postupně.
Otestujte různé vzorce zvýšení zatížení.
Zvyšte kvótu přiřazenou k vašemu nasazení. V případě potřeby přesuňte kvótu z jiného nasazení.

Jak požádat o zvýšení výchozích kvót a omezení

Žádosti o navýšení kvóty je možné odeslat ze stránky Kvóty v nástroji Azure AI Studio. Všimněte si, že kvůli zahlcení poptávky se žádosti o navýšení kvóty přijímají a budou vyplněny v pořadí, v jakém jsou přijaty. Priorita bude udělena zákazníkům, kteří generují provoz, který spotřebovává stávající přidělení kvóty, a pokud tato podmínka není splněná, může být vaše žádost zamítnuta.

V případě jiných limitů sazeb odešlete žádost o služby.

Další kroky

Prozkoumejte, jak spravovat kvótu pro nasazení Azure OpenAI. Přečtěte si další informace o základních modelech, které power Azure OpenAI.

Sdílet prostřednictvím

Kvóty a limity služby Azure OpenAI

Referenční informace o kvótách a omezeních

Omezení kvót v jednotlivých oblastech

Globální limity dávek

Globální kvóta dávky

o1-preview & o1-mini rate limits

o1-preview & o1-mini global standard

o1-preview a o1-mini standard

gpt-4o & GPT-4 Turbo rychlost omezení

gpt-4o & GPT-4 Turbo global standard

gpt-4o Data Zone Standard

gpt-4o standard

Úrovně využití

GPT-4o global standard, data zone standard, &standard

GPT-4 standard

Další typy nabídek

Obecné osvědčené postupy pro zachování limitů četnosti

Jak požádat o zvýšení výchozích kvót a omezení

Další kroky

Váš názor

Další materiály