Onboarding jednotek zřízené propustnosti

Tento článek vás provede procesem onboardingu do zřízených jednotek propustnosti (PTU). Po dokončení počátečního onboardingu doporučujeme použít úvodní příručku k PTU.

Kdy použít zřízené jednotky propustnosti (PTU)

Pokud máte dobře definované a předvídatelné požadavky na propustnost, měli byste zvážit přechod z průběžných plateb na zřízenou propustnost. K tomu obvykle dochází, když je aplikace připravená pro produkční prostředí nebo je už nasazená v produkčním prostředí a rozumí očekávanému provozu. To umožňuje uživatelům přesně předpovídat požadovanou kapacitu a vyhnout se neočekávané fakturaci.

Typické scénáře PTU

  • Aplikace, která je připravená pro produkční nebo v produkčním prostředí.
  • Aplikace, která má předvídatelná očekávání kapacity nebo využití.
  • Aplikace má požadavky citlivé na latenci a čas v reálném čase.

Poznámka:

V případech volání funkcí a použití agenta může být použití tokenu proměnlivé. Před migrací úloh do PTU byste měli podrobně porozumět očekávanému využití tokenů za minutu (TPM).

Určení velikosti a odhadu: zřízeno a globální zřízeno

Určení správného množství zřízené propustnosti nebo PTU, které potřebujete pro vaši úlohu, je základním krokem k optimalizaci výkonu a nákladů. Tato část popisuje, jak používat nástroj pro plánování kapacity Azure OpenAI. Tento nástroj vám poskytne odhad požadovaného PTU, který bude vyhovovat potřebám vaší úlohy.

Odhad zřízené propustnosti a nákladů

Pokud chcete získat rychlý odhad pro vaši úlohu, otevřete plánovač kapacity v nástroji Azure OpenAI Studio. Plánovač kapacity se nachází ve sdílené kvótě>prostředků>Azure OpenAI Zřízené.

Možnost Zřízená a plánovač kapacity jsou dostupné jenom v určitých oblastech v podokně Kvóta, pokud tuto možnost nastavení oblasti kvóty na Švédsko – střed tuto možnost zpřístupní. Zadejte následující parametry na základě vaší úlohy.

Vstup Popis
Model Model OpenAI, který plánujete použít. Příklad: GPT-4
Verze Verze modelu, který plánujete použít, například 0614
Počet volání ve špičce za minutu Početvoláních
Tokeny při volání výzvy Počet tokenů v příkazovém řádku pro každé volání modelu. Volání s většími výzvami využívají více nasazení PTU. V současné době tato kalkulačka předpokládá jednu hodnotu výzvy, takže pro úlohy s širokou odchylkou. Doporučujeme provést srovnávací testy nasazení vašeho provozu, abyste zjistili nejpřesnější odhad PTU potřebný pro vaše nasazení.
Tokeny v odpovědi modelu Počet tokenů vygenerovaných z každého volání modelu. Volání s větší velikostí generace budou využívat více nasazení PTU. V současné době tato kalkulačka předpokládá jednu hodnotu výzvy, takže pro úlohy s širokou odchylkou. Doporučujeme provést srovnávací testy nasazení vašeho provozu, abyste zjistili nejpřesnější odhad PTU potřebný pro vaše nasazení.

Po vyplnění požadovaných podrobností vyberte tlačítko Vypočítat ve výstupním sloupci.

Hodnoty ve výstupním sloupci představují odhadovanou hodnotu jednotek PTU vyžadovaných pro zadané vstupy úloh. První výstupní hodnota představuje odhadované jednotky PTU požadované pro úlohu zaokrouhlené na nejbližší přírůstek měřítka PTU. Druhá výstupní hodnota představuje nezpracované odhadované jednotky PTU vyžadované pro úlohu. Součty tokenů se počítají pomocí následující rovnice: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).

Snímek obrazovky s cílovou stránkou Azure OpenAI Studio

Poznámka:

Kalkulačka kapacity poskytuje odhad na základě jednoduchých vstupních kritérií. Nejpřesnější způsob, jak určit kapacitu, je otestovat nasazení s reprezentační úlohou pro váš případ použití.

Principy nákupního modelu zřízené propustnosti

Zřízená a globální zřizování Azure OpenAI se kupují na vyžádání po hodinách na základě počtu nasazených PTU s podstatnou slevou dostupnou prostřednictvím nákupu rezervací Azure.

Hodinový model je užitečný pro potřeby krátkodobého nasazení, jako je ověřování nových modelů nebo získání kapacity pro hackathon.  Slevy poskytované rezervací Azure pro Azure OpenAI Provisioned a Global Provisioned jsou ale značné a většina zákazníků s konzistentním dlouhodobým využitím najde rezervovaný model, který představuje lepší nabídku.

Poznámka:

Zákazníci zřízené službou Azure OpenAI před srpnovou samoobslužnou aktualizací používají nákupní model označovaný jako model závazku. Tito zákazníci můžou i nadále používat tento starší nákupní model společně s modelem nákupu za hodinu nebo rezervací. Model závazku není pro nové zákazníky k dispozici. Podrobnosti o modelu nákupu závazku a možnostech koexistence a migraci najdete v srpnové aktualizaci Azure OpenAI Provisioned.

Hodinové využití

Zřízená a globální zřízená nasazení se účtují hodinovou sazbou ($/PTU/hr) počtu nasazených PTU.  Například nasazení 300 PTU se bude účtovat hodinové sazby 300.  Všechny ceny Azure OpenAI jsou k dispozici v kalkulačce cen Azure.

Pokud nasazení existuje po částečnou hodinu, obdrží poměrné poplatky na základě počtu minut, po které se během hodiny nasadily.  Například nasazení, které existuje po dobu 15 minut během hodiny, obdrží 1/4th hodinovou platbu. 

Pokud se velikost nasazení změní, náklady na nasazení se upraví tak, aby odpovídaly novému počtu PTU.

Diagram znázorňující hodinovou fakturaci

Placení za zřízená a globální zřízená nasazení po hodinách je ideální pro scénáře krátkodobého nasazení.  Příklad: Srovnávací testy kvality a výkonu nových modelů nebo dočasné zvýšení kapacity PTU pro pokrytí události, jako je hackathon. 

Zákazníci, kteří vyžadují dlouhodobé využití zřízených a globálních zřízených nasazení, ale můžou platit výrazně méně měsíčně nákupem slevy prostřednictvím rezervace Azure, jak je popsáno v další části.

Poznámka:

Nedoporučuje se škálovat produkční nasazení podle příchozího provozu a platit za ně čistě po hodinách. To má dva důvody:

  • Úspory nákladů dosažené nákupem rezervace Azure pro azure OpenAI Provisioned jsou významné a v mnoha případech bude levnější udržovat velikost nasazení pro plný objem nasazení placený prostřednictvím rezervace, než by bylo škálování nasazení s příchozím provozem.
  • Nevyužitá zřízená kvóta (PTU) nezaručí, že kapacita bude dostupná pro podporu zvýšení velikosti nasazení v případě potřeby. Kvóta omezuje maximální počet PTU, které je možné nasadit, ale nejedná se o záruku kapacity. Zřízená kapacita pro každou oblast a dynamicky modální změny v průběhu dne a nemusí být v případě potřeby dostupná. Proto doporučujeme zachovat trvalé nasazení, které bude zahrnovat vaše potřeby provozu (platí se za rezervaci).
  • Poplatky za nasazení na odstraněný prostředek budou pokračovat, dokud se prostředek nevyprázdní. Pokud tomu chcete zabránit, odstraňte nasazení prostředku před odstraněním prostředku. Další informace najdete v tématu Obnovení nebo vymazání odstraněných prostředků služeb Azure AI.

Rezervace Azure pro zřízené a globální zřízené Azure OpenAI

Slevy nad hodinovou cenou za využití je možné získat nákupem rezervace Azure pro Azure OpenAI Provisioned a Global Provisioned. Rezervace Azure je mechanismus pro období slevy sdílený mnoha produkty Azure. Například Compute a Cosmos DB. U zřízených a globálních zřízených služeb Azure OpenAI poskytuje rezervace slevu za potvrzení platby za pevný počet PTU za jeden měsíc nebo jeden rok. 

  • Rezervace Azure se kupují prostřednictvím webu Azure Portal, ne přes Azure OpenAI Studio Link na azure reservation Portal.

  • Rezervace se kupují v jednotlivých oblastech a dají se flexibilně vymezit tak, aby zahrnovaly využití ze skupiny nasazení. Rozsahy rezervací zahrnují:

    • Jednotlivé skupiny prostředků nebo předplatná

    • Skupina předplatných ve skupině pro správu

    • Všechna předplatná ve fakturačním účtu

  • Nové rezervace je možné zakoupit tak, aby pokrývala stejný rozsah jako stávající rezervace, aby bylo možné využít slevu na nová zřízená nasazení. Rozsah stávajících rezervací je také možné kdykoli aktualizovat bez sankcí, například za účelem pokrytí nového předplatného.

  • Rezervace je možné po nákupu zrušit, ale kredity jsou omezené.

  • Pokud velikost zřízených nasazení v rámci rozsahu rezervace překročí částku rezervace, bude se překročení účtovat podle hodinové sazby. Pokud například nasazení činí 250 PTU v rozsahu rezervace 200 PTU, bude se 50 PTU účtovat každou hodinu, dokud se velikost nasazení nezmenší na 200 PTU, nebo se vytvoří nová rezervace, která pokryje zbývající 50.

  • Rezervace zaručují za vybraný termín zvýhodněnou cenu.  Nezarezervují kapacitu služby ani nezaručují, že bude k dispozici při vytvoření nasazení. Důrazně doporučujeme, aby zákazníci vytvořili nasazení před nákupem rezervace, aby se zabránilo nadměrnému nákupu rezervace.

Důležité

  • Dostupnost kapacity pro nasazení modelů je dynamická a často se mění napříč oblastmi a modely. Pokud chcete zabránit nákupu rezervace pro více PTU, než můžete použít, vytvořte nejprve nasazení a pak si kupte rezervaci Azure, abyste pokrýli prostředky PTU, které jste nasadili. Tento osvědčený postup zajistí, abyste mohli plně využít slevu za rezervaci a zabránit vám v nákupu závazku na období, který nemůžete použít.

  • Požadavky na roli Azure a zásady tenanta pro nákup rezervace se liší od požadavků potřebných k vytvoření nasazení nebo prostředku Azure OpenAI. Ověřte autorizaci k nákupu rezervací předem, abyste to potřebovali. Další podrobnosti najdete v dokumentaci ke zřízené rezervaci Azure OpenAI.

Důležité: Určení velikosti zřízených a globálních zřízených rezervací Azure OpenAI

Částky PTU v nákupech rezervací jsou nezávislé na PTU přidělených v kvótě nebo používaném v nasazeních. Rezervaci je možné zakoupit pro více PTU, než máte v kvótě, nebo ji můžete nasadit pro požadovanou oblast, model nebo verzi. Kredity za nadměrné nákupy rezervace jsou omezené a zákazníci musí podniknout kroky k zajištění zachování velikosti rezervací v souladu s nasazenými PTU.

Osvědčeným postupem je vždy zakoupit rezervaci po vytvoření nasazení. Tím se zabrání zakoupení rezervace a zjištění, že požadovaná kapacita není pro požadovanou oblast nebo model k dispozici.

Pomoc zákazníkům s nákupem správných částek rezervací Celkový počet PTU v předplatném a oblasti, na které se dá rezervace vztahuje, jsou uvedené na stránce Kvóty v nástroji Azure OpenAI Studio. Podívejte se na zprávu PTU k dispozici pro rezervaci.

Snímek obrazovky znázorňující dostupnou kvótu PTU

Správa rezervací Azure

Po vytvoření rezervace je osvědčeným postupem ho monitorovat, aby se zajistilo, že přijímá očekávané využití. Můžete to provést přes Azure Reservation Portal nebo Azure Monitor. Podrobnosti o těchto tématech a dalších najdete tady:

Další kroky