Omezení a oblasti obsluhy modelů

Tento článek shrnuje omezení a dostupnost oblastí pro obsluhu modelu Mosaic AI a podporované typy koncových bodů.

Omezení

Služba obsluhy modelu AI v systému Mosaic ukládá výchozí limity pro zajištění spolehlivého výkonu. Pokud máte k těmto limitům zpětnou vazbu, obraťte se prosím na svůj tým účtu Databricks.

Následující tabulka shrnuje omezení prostředků a datové části pro koncové body obsluhy modelu.

Funkce Členitost Limit
Velikost datové části Na požadavek 16 MB. U koncových bodů, které obsluhují základní modely nebo externí modely, je limit 4 MB.
Dotazy za sekundu (QPS) Na pracovní prostor 200 QPS. Můžete ho zvýšit na 3000 nebo více tím, že se obraťte na svůj tým účtů Databricks.
Doba trvání provádění modelu Na požadavek 120 sekund
Využití paměti modelu koncového bodu procesoru Na koncový bod 4 GB
Využití paměti modelu koncového bodu GPU Na koncový bod Větší než nebo rovno přiřazené paměti GPU závisí na velikosti úlohy GPU.
Zřízená souběžnost Na model a na pracovní prostor 200 souběžnosti. Můžete ho zvýšit kontaktováním účtu Databricks.
Režijní latence Na požadavek Méně než 50 milisekund
Omezení sazeb rozhraní API základního modelu (pay-per-token) Na pracovní prostor Pokud pro váš případ použití nejsou dostatečná následující omezení, databricks doporučuje používat zřízenou propustnost.

- Llama 3.1 70B Pokyn má limit 2 dotazy za sekundu a 1200 dotazů za hodinu.
- Llama 3.1 405B Instruct má limit 1 dotaz za sekundu a 1200 dotazů za hodinu.
– Model DBRX Instruct má limit 1 dotazu za sekundu.
- Mixtral-8x 7B Instruct má výchozí limit rychlosti 2 dotazů za sekundu.
- GTE Large (En) má limit rychlosti 150 dotazů za sekundu.
– BGE Large (En) má limit rychlosti 600 dotazů za sekundu.
Omezení rychlosti rozhraní API základního modelu (zřízená propustnost) Na pracovní prostor Stejné jako výše uvedený limit služby QPS obsluhující model.

Koncové body obsluhy modelů jsou chráněné řízením přístupu a respektují pravidla příchozího přenosu dat související se sítí nakonfigurovaná v pracovním prostoru, jako jsou seznamy povolených IP adres a Private Link.

Azure Private Link se podporuje jenom u modelů obsluhujících koncové body, které používají zřízenou propustnost nebo koncové body, které obsluhují vlastní modely.

Existují i další omezení:

  • Pracovní prostor je možné nasadit v podporované oblasti, ale obsluhovat ho řídicí rovina v jiné oblasti. Tyto pracovní prostory nepodporují obsluhu modelů a výsledkem je chybová zpráva s informací, že váš pracovní prostor není podporovaný. Další informace získáte od týmu účtu Azure Databricks.
  • Obsluha modelů nepodporuje inicializační skripty.
  • Služba modelování ve výchozím nastavení nepodporuje službu Private Link k externím koncovým bodům (jako je Azure OpenAI). Podpora této funkce se vyhodnocuje a implementuje v jednotlivých oblastech. Další informace získáte od týmu účtu Azure Databricks.

Omezení rozhraní API základního modelu

Poznámka:

V rámci poskytování rozhraní API základního modelu může Databricks zpracovávat vaše data mimo oblast, kde vaše data pocházejí, ale ne mimo příslušné geografické umístění.

Pro úlohy rozhraní API základního modelu platí následující omezení:

  • Zřízená propustnost podporuje profil dodržování předpisů HIPAA a měl by se používat pro úlohy vyžadující certifikace dodržování předpisů.
  • Úlohy s platbami za tokeny nejsou kompatibilní se standardem HIPAA ani s dodržováním předpisů.
  • U koncových bodů rozhraní API modelu Foundation Model můžou měnit nastavení zásad správného řízení, jako jsou limity četnosti, jenom správci pracovního prostoru. Pokud chcete změnit limity četnosti, postupujte takto:
    1. Otevřete uživatelské rozhraní obsluhy v pracovním prostoru a zobrazte koncové body obsluhy.
    2. V nabídce kebab v koncovém bodu rozhraní API základního modelu, který chcete upravit, vyberte Zobrazit podrobnosti.
    3. V nabídce kebab na pravé horní straně stránky podrobností koncových bodů vyberte Změnit limit rychlosti.
  • Pokud chcete pro zřízenou úlohu propustnosti použít architekturu modelu DBRX, musí být váš koncový bod obsluhy v jedné z následujících oblastí:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth
  • V podporovaných oblastech EU a USA jsou k dispozici pouze modely GTE Large (En) a Meta Llama 3.1 70B Instruct.
  • Následující modely s platbami za tokeny jsou podporovány pouze v oblastech USA podporovaných rozhraními API základního modelu:
    • Meta Llama 3.1 405B Pokyn
    • DbRX – pokyn
    • Mixtral-8x7B – pokyn
    • BGE Large (En)

Dostupnost oblastí

Poznámka:

Pokud potřebujete koncový bod v nepodporované oblasti, obraťte se na svůj tým účtů Azure Databricks.

Další informace o regionální dostupnostifunkcích