Co je zřízená propustnost?

Poznámka:

Zřizované nabídky Azure OpenAI obdržely významné aktualizace 12. srpna 2024, včetně sladění nákupního modelu se standardy Azure a přechodu na kvótu nezávislou na modelu. Důrazně doporučujeme, aby si zákazníci před tímto datem přečetli aktualizaci Azure OpenAI zřízenou v srpnu, abyste se dozvěděli další informace o těchto změnách.

Funkce zřízené propustnosti umožňuje zadat požadovanou propustnost v nasazení. Služba pak přidělí potřebnou kapacitu zpracování modelu a zajistí, že je pro vás připravená. Propustnost se definuje z hlediska zřízených jednotek propustnosti (PTU), což je normalizovaný způsob reprezentace propustnosti pro vaše nasazení. Každý pár verze modelu vyžaduje k nasazení a poskytování různých objemů propustnosti na PTU různé množství PTU.

Jaké typy zřízeného a globálního zřízeného nasazení poskytují?

  • Předvídatelný výkon: stabilní maximální latence a propustnost pro jednotné úlohy
  • Rezervovaná kapacita zpracování: Nasazení konfiguruje propustnost. Po nasazení je propustnost dostupná bez ohledu na to, jestli se používá.
  • Úspora nákladů: Úlohy s vysokou propustností můžou přinést úsporu nákladů oproti spotřebě založené na tokenech.

Nasazení Azure OpenAI je jednotka správy pro konkrétní model OpenAI. Nasazení poskytuje zákazníkům přístup k modelu pro odvozování a integruje další funkce, jako je moderování obsahu (viz dokumentace ke con režim stanu ration). Globální nasazení jsou k dispozici ve stejných prostředcích Azure OpenAI jako jiné než globální typy nasazení, ale umožňují využít globální infrastrukturu Azure k dynamickému směrování provozu do datacentra s nejlepší dostupností pro každou žádost.

Jaký výsledek dostanete?

Téma Zřízené
Co je to? Poskytuje garantovanou propustnost při menších přírůstcích než stávající zřízená nabídka. Nasazení mají konzistentní maximální latenci pro danou verzi modelu.
Pro koho je určeno? Zákazníci, kteří chtějí garantovanou propustnost s minimální odchylkou latence.
Kvóta Zřízená jednotka spravované propustnosti nebo globální zřízená jednotka spravované propustnosti přiřazená pro každou oblast. Kvótu je možné použít napříč libovolným dostupným modelem Azure OpenAI.
Latence Maximální latence omezená z modelu. Celková latence je faktorem tvaru volání.
Využití Míra využití zřízeného spravovaného prostředí V2 poskytovaná ve službě Azure Monitor
Odhad velikosti Poskytuje kalkulačku ve skriptu studio a srovnávací testy.
Ukládání do mezipaměti výzvy U podporovaných modelů sleva až 100 % vstupních tokenů uložených v mezipaměti.

Kolik propustnosti na PTU získáte pro každý model

Propustnost (tokeny za minutu nebo TPM) při nasazení na PTU je funkce vstupních a výstupních tokenů v minutě. Generovánívýstupních tokenů vyžaduje více zpracování než vstupní tokeny, takže čím více výstupních tokenů se vygenerovalo, tím nižší je celkový čip TPM. Služba dynamicky vyrovnává vstupní a výstupní náklady, takže uživatelé nemusí nastavovat konkrétní vstupní a výstupní limity. Tento přístup znamená, že vaše nasazení je odolné vůči výkyvům ve tvaru úlohy.

Pro zjednodušení úsilí o změnu velikosti popisuje následující tabulka čip TPM na PTU a gpt-4o gpt-4o-mini modely.

gpt-4o, 2024-05-13 & gpt-4o, 2024-08-06 gpt-4o-mini, 2024-07-18
Nasaditelné přírůstky 50 25
Vstupní čip TPM na PTU 2 500 37,000
Výstup TPM na PTU 833 12,333

Úplný seznam najdete v kalkulačce AOAI Studio.

Klíčové koncepty

Typy nasazení

Při vytváření zřízeného nasazení v nástroji Azure OpenAI Studio se typ nasazení v dialogovém okně Vytvořit nasazení zřizuje a spravuje. Při vytváření globálního zřízeného spravovaného nasazení v Azure Open Studiu je typ nasazení v dialogovém okně Vytvořit nasazení globální zřízeno-spravováno.

Při vytváření zřízeného nasazení v Azure OpenAI prostřednictvím rozhraní příkazového řádku nebo rozhraní API musíte nastavit, sku-name aby to bylo ProvisionedManaged. Při vytváření globálního zřízeného nasazení v Azure OpenAI prostřednictvím rozhraní příkazového řádku nebo rozhraní API musíte nastavit, sku-name aby to bylo GlobalProvisionedManaged. Určuje sku-capacity počet PTU přiřazených k nasazení.

az cognitiveservices account deployment create \
--name <myResourceName> \
--resource-group  <myResourceGroupName> \
--deployment-name MyDeployment \
--model-name gpt-4 \
--model-version 0613  \
--model-format OpenAI \
--sku-capacity 100 \
--sku-name ProvisionedManaged 

Kvóta

Zřízené jednotky propustnosti

Zřízené jednotky propustnosti (PTU) jsou obecné jednotky kapacity zpracování modelu, které můžete použít k nastavení velikosti zřízených nasazení, abyste dosáhli požadované propustnosti pro zpracování výzev a generování dokončení. Zřízené jednotky propustnosti se udělují předplatnému jako kvóta. Každá kvóta je specifická pro oblast a definuje maximální počet PTU, které je možné přiřadit k nasazením v daném předplatném a oblasti.

Nezávislá kvóta modelu

Na rozdíl od kvóty tokenů za minutu (TPM) využívaných jinými nabídkami Azure OpenAI jsou PTU nezávislé na modelu. PtU se můžou použít k nasazení libovolného podporovaného modelu nebo verze v dané oblasti.

Diagram nezávislé kvóty modelu s jedním fondem PTU dostupných pro více modelů Azure OpenAI

U zřízených nasazení se nová kvóta zobrazí v Azure OpenAI Studiu jako položka kvóty s názvem Zřízená jednotka spravované propustnosti. V případě globálních spravovaných nasazení se nová kvóta zobrazí v nástroji Azure OpenAI Studio jako položka kvóty s názvem Global Provisioned Managed Propustnost Unit. V podokně Kvóta sady Studio se rozbalením položky kvóty zobrazí nasazení přispívající k využití každé kvóty.

Snímek obrazovky s uživatelským rozhraním kvóty pro zřízenou službu Azure OpenAI

Získání kvóty PTU

Kvóta PTU je ve výchozím nastavení dostupná v mnoha oblastech. Pokud je vyžadována větší kvóta, zákazníci můžou požádat o kvótu prostřednictvím odkazu Vyžádat kvótu. Tento odkaz najdete napravo od zřizovací jednotky spravované propustnosti nebo na kartách kvót jednotek spravované propustnosti zřízeného globálního zřízení v nástroji Azure OpenAI Studio. Formulář umožňuje zákazníkovi požádat o navýšení zadané kvóty PTU pro danou oblast. Jakmile se žádost schválí, obdrží zákazník e-mail na zahrnuté adrese, obvykle do dvou pracovních dnů.

Minimální počet PTU pro jednotlivé modely

Minimální nasazení PTU, přírůstky a kapacita zpracování přidružené ke každé jednotce se liší podle typu modelu a verze.

Transparentnost kapacity

Azure OpenAI je vysoce hledané služby, kde poptávka zákazníků může překročit kapacitu GPU služby. Microsoft se snaží poskytnout kapacitu pro všechny oblasti a modely na vyžádání, ale prodej oblasti je vždy možností. Toto omezení může omezit schopnost některých zákazníků vytvořit nasazení požadovaného modelu, verze nebo počtu PTU v požadované oblasti – i když mají v této oblasti dostupnou kvótu. Obecně řečeno:

  • Kvóta omezuje maximální počet PTU, které je možné nasadit v předplatném a oblasti, a nezaručuje dostupnost kapacity.
  • Kapacita se přiděluje v době nasazení a uchovává se tak dlouho, dokud nasazení existuje. Pokud není dostupná kapacita služby, nasazení selže.
  • Zákazníci používají informace o dostupnosti kvóty nebo kapacity v reálném čase k výběru vhodné oblasti pro svůj scénář s potřebnou kapacitou modelu.
  • Vertikální snížení nebo odstranění kapacity nasazení uvolní kapacitu zpět do oblasti. Není zaručeno, že kapacita bude dostupná, pokud se nasazení vertikálně navýšit nebo znovu vytvořit později.

Pokyny k regionální kapacitě

Pokud chcete najít kapacitu potřebnou pro jejich nasazení, použijte rozhraní API kapacity nebo prostředí pro nasazení sady Studio k poskytování informací o dostupnosti kapacity v reálném čase.

V nástroji Azure OpenAI Studio prostředí nasazení identifikuje, kdy oblast nemá kapacitu potřebnou k nasazení modelu. Tím se podíváte na požadovaný model, verzi a počet PTU. Pokud není kapacita dostupná, prostředí směruje uživatele do vybrané alternativní oblasti.

Podrobnosti o novém prostředí nasazení najdete v úvodní příručce azure OpenAI Provisioned.

Nové rozhraní API kapacit modelu lze použít k programové identifikaci maximální velikosti nasazení zadaného modelu. Rozhraní API bere v úvahu kvótu i kapacitu služby v dané oblasti.

Pokud není dostupná přijatelná oblast pro podporu požadovaného modelu, verze a/nebo PTU, můžou zákazníci vyzkoušet také následující kroky:

  • Pokuste se o nasazení s menším počtem PTU.
  • Pokuste se o nasazení v jiném okamžiku. Změny dostupnosti kapacity se dynamicky mění na základě poptávky zákazníků a vyšší kapacita se může později zpřístupnit.
  • Ujistěte se, že je kvóta dostupná ve všech přijatelných oblastech. Rozhraní API pro kapacity modelu a prostředí Studio zvažují dostupnost kvót v vracející se alternativní oblasti pro vytvoření nasazení.

Určení počtu PTU potřebných pro úlohu

PTU představují množství kapacity zpracování modelu. Podobně jako v počítači nebo databázích budou různé úlohy nebo požadavky na model spotřebovávat různé objemy základní kapacity zpracování. Převod z charakteristik obrazce volání (velikost výzvy, velikost generování a rychlost volání) na PTU je složitý a nelineární. Pokud chcete tento proces zjednodušit, můžete pomocí kalkulačky kapacity Azure OpenAI určit velikost konkrétních obrazců úloh.

Několik důležitých informací na vysoké úrovni:

  • Generace vyžadují větší kapacitu než výzvy.
  • V případě modelů GPT-4o a novějších je čip TPM pro každý PTU nastavený pro vstupní a výstupní tokeny samostatně. U starších modelů jsou větší volání pro výpočty postupně dražší. Například 100 volání s velikostí výzvy 1000 tokenů vyžaduje v příkazovém řádku menší kapacitu než jedno volání s 100 000 tokeny. Toto vrstvení znamená, že rozdělení těchto obrazců volání je důležité v celkové propustnosti. U vzorů provozu s širokou distribucí, která zahrnuje některé velké volání, může docházet k nižší propustnosti na PTU než u užší distribuce se stejnými průměrnými velikostmi tokenů výzvy a dokončení.

Jak funguje výkon využití

Zřízená a globální zřízená nasazení poskytují přidělenou kapacitu zpracování modelu pro spuštění daného modelu.

Při překročení kapacity v nasazeních spravovaných zřízených a globálních zřízených spravovaných službou API vrátí chybu stavu HTTP 429. Tato rychlá odpověď uživateli umožňuje rozhodovat se, jak spravovat provoz. Uživatelé můžou žádosti přesměrovat na samostatné nasazení, na standardní instanci s průběžnými platbami nebo ke správě dané žádosti použít strategii opakování. Služba nadále vrací stavový kód HTTP 429, dokud využití klesne pod 100 %.

Jak můžu monitorovat kapacitu?

Metrika zřízeného využití spravovaného prostředí V2 ve službě Azure Monitor měří dané využití nasazení na 1minutových přírůstcích. Zřízená nasazení spravovaná a globální spravovaná spravovaná prostřednictvím jsou optimalizovaná, aby se zajistilo, že se akceptovaná volání zpracovávají s konsis režim stanu l doba zpracování (skutečná celková latence závisí na charakteristikách volání).

Co mám dělat, když obdržím odpověď 429?

Odpověď 429 není chyba, ale místo části návrhu, která uživatelům říká, že dané nasazení je plně využité v určitém okamžiku. Poskytnutím odpovědi s rychlým selháním máte kontrolu nad tím, jak tyto situace zvládnout způsobem, který nejlépe vyhovuje požadavkům vaší aplikace.

retry-after Hlavičky retry-after-ms a hlavičky v odpovědi vám řeknou, že je čas čekat, než se přijme další volání. Způsob zpracování této odpovědi závisí na požadavcích vaší aplikace. Tady je několik aspektů:

  • Můžete zvážit přesměrování provozu na jiné modely, nasazení nebo prostředí. Tato možnost je řešením s nejnižší latencí, protože akce se dá provést, jakmile obdržíte signál 429. Nápady na efektivní implementaci tohoto vzoru najdete v tomto příspěvku komunity.
  • Pokud máte v pořádku delší latenci volání, implementujte logiku opakování na straně klienta. Tato možnost poskytuje nejvyšší propustnost na PTU. Klientské knihovny Azure OpenAI zahrnují integrované funkce pro zpracování opakovaných pokusů.

Jak se služba rozhodne, kdy odeslat 429?

V nabídkách spravovaných zřizováním a globálním zřizováním se každý požadavek vyhodnocuje zvlášť podle velikosti výzvy, očekávané velikosti generování a modelu, aby bylo možné určit očekávané využití. To je na rozdíl od nasazení s průběžným platbami, které mají vlastní chování omezování rychlosti na základě odhadovaného zatížení provozu. U nasazení s průběžným platbami to může vést k chybám HTTP 429 před překročením definovaných hodnot kvót, pokud provoz není rovnoměrně distribuovaný.

U zřízených spravovaných a globálních spravovaných spravovaných prostředků používáme variantu algoritmu únikového kbelíku, abychom zachovali využití nižší než 100 % a zároveň umožnili určité nárůsty provozu. Logika vysoké úrovně je následující:

  1. Každý zákazník má nastavenou kapacitu, kterou může využít při nasazení.

  2. Při provedení žádosti:

    a. Pokud je aktuální využití vyšší než 100 %, vrátí služba kód 429 s retry-after-ms hlavičkou nastavenou na čas, dokud využití klesne pod 100 %

    b. V opačném případě služba odhaduje přírůstkovou změnu využití vyžadovanou k doručení požadavku kombinováním tokenů výzvy a zadaných max_tokens ve volání. U požadavků, které obsahují alespoň 1024 tokenů uložených v mezipaměti, se od hodnoty tokenu výzvy odečtou tokeny uložené v mezipaměti. Zákazník může získat až 100% slevu na tokeny výzvy v závislosti na velikosti tokenů uložených v mezipaměti. max_tokens Pokud parametr není zadaný, služba odhaduje hodnotu. Tento odhad může vést k nižší souběžnosti, než se čekalo, když je počet generovaných tokenů malý. Pokud chcete zajistit nejvyšší souběžnost, ujistěte se, že max_tokens je hodnota co nejblíže velikosti skutečné generace.

  3. Po dokončení požadavku teď známe skutečné náklady na výpočetní prostředky volání. Abychom zajistili přesné účtování, opravíme využití pomocí následující logiky:

    a. Pokud je skutečný > odhad, přidá se rozdíl do využití nasazení b. Pokud se skutečný < odhad odečte, rozdíl se odečte.

  4. Celkové využití se snižuje nepřetržitě na základě počtu nasazených PTU.

Poznámka:

Volání se přijímají, dokud využití nedosáhne 100 %. V krátkých obdobích může být povolené nárůsty o více než 100 %, ale v průběhu času je provoz omezený na 100% využití.

Diagram znázorňující přidání následných volání do využití

Kolik souběžných volání můžu mít v nasazení?

Počet souběžných volání, které můžete dosáhnout, závisí na obrazci každého volání (velikost výzvy, max_token parametr atd.). Služba nadále přijímá volání, dokud využití nedosáhne 100 %. Pokud chcete určit přibližný počet souběžných volání, můžete v kalkulačce kapacity vymodelovat maximální počet požadavků za minutu pro určitý obrazec volání. Pokud systém generuje méně než počet tokenů vzorkování, jako je max_token, přijme více požadavků.

Jaké modely a oblasti jsou k dispozici pro zřízenou propustnost?

Oblast gpt-4o, 2024-05-13 gpt-4o, 2024-08-06 gpt-4o-mini, 2024-07-18 gpt-4, 0613 gpt-4, 1106-Preview gpt-4, 0125-Preview gpt-4, turbo-2024-04-09 gpt-4-32k, 0613 gpt-35-turbo, 1106 gpt-35-turbo, 0125
australiaeast
brazilsouth - - -
canadacentral - - - - - - -
canadaeast - - - -
eastus
eastus2
francecentral - -
Německo – středozápad - - -
japaneast - - -
koreacentral - - -
northcentralus
Norsko – východ - - - - -
polskocentral - -
Jižní Afrika – sever - - - -
Střed USA – jih - -
southindia - -
swedencentral
switzerlandnorth
switzerlandwest - - - - - - - - -
Spojené arabské emiráty – sever - - - - - -
uksouth
westus
westus3 -

Poznámka:

Zřízená verze gpt-4 : turbo-2024-04-09 v současné době je omezena pouze na text.

Další kroky