Modellbereitstellungsgrenzwerte und Regionen

In diesem Artikel werden die Einschränkungen und die Regionsverfügbarkeit für die Mosaic AI Model Serving und die unterstützten Endpunkttypen zusammengefasst.

Grenzwerte für Ressourcen und Nutzlast

Mosaic AI Model Serving legt Standardgrenzwerte fest, um eine zuverlässige Leistung sicherzustellen. Wenn Sie Feedback zu diesen Grenzwerten haben, wenden Sie sich an Ihr Databricks-Kontoteam.

In der folgenden Tabelle finden Sie eine Übersicht über die Grenzwerte für Ressourcen und Payloads für Modellbereitstellungsendpunkte.

Funktion Granularität Begrenzung
Größe der Nutzdaten Pro Anforderung 16 MB. Bei Endpunkten, die für Basismodelle oder externe Modelle dienen, liegt der Grenzwert bei 4 MB.
Abfragen pro Sekunde (QPS) Pro Arbeitsbereich 200, kann jedoch auf 25.000 oder mehr erhöht werden, indem Sie ihr Databricks-Kontoteam erreichen.
Dauer der Modellausführung Pro Anforderung 120 Sekunden
Arbeitsspeicherauslastung des CPU-Endpunktmodells Pro Endpunkt 4GB
Arbeitsspeicherauslastung des GPU-Endpunktmodells Pro Endpunkt Größer oder gleich dem zugewiesenen GPU-Speicher, abhängig von der Größe der GPU-Workload
Bereitgestellte Parallelität Pro Modell und arbeitsbereich 200-Parallelität. Kann erhöht werden, indem Sie sich an Ihr Databricks-Kontoteam wenden.
Overheadwartezeit Pro Anforderung Weniger als 50 Millisekunden
Initskripts Initialisierungsskripts werden nicht unterstützt.
Foundation-Modell-APIs (Pay-per-Token)-Ratenbegrenzungen Pro Arbeitsbereich Wenn die folgenden Grenzwerte für Ihren Anwendungsfall nicht ausreichen, empfiehlt Databricks die Verwendung des bereitgestellten Durchsatzes.

- Llama 3.1 70B Instruct hat ein Limit von 2 Abfragen pro Sekunde und 1200 Abfragen pro Stunde.
- Llama 3.1 405B Instruct hat ein Limit von 1 Abfrage pro Sekunde und 1200 Abfragen pro Stunde.
– Das DBRX Instruct-Modell weist eine Beschränkung von einer Abfrage pro Sekunde auf.
- Mixtral-8x 7B Instruct hat ein Standardratenlimit von 2 Abfragen pro Sekunde.
- GTE Large (En) hat eine Ratenbegrenzung von 150 Abfragen pro Sekunde
- BGE Large (En) hat eine Ratenbegrenzung von 600 Abfragen pro Sekunde.
Foundation Model APIs (bereitgestellter Durchsatz)-Ratenbegrenzungen Pro Arbeitsbereich 200

Netzwerk- und Sicherheitsbeschränkungen

  • Modellbereitstellungsendpunkte werden durch die Zugriffssteuerung geschützt und berücksichtigen netzwerkbezogene Eingangsregeln, die im Arbeitsbereich konfiguriert sind, z. B. Listen zugelassener IP-Adressen und Private Link.
  • Private Konnektivität (z. B. Azure Private Link) wird nur für Modellbereitstellungsendpunkte unterstützt, die den bereitgestellten Durchsatz oder Endpunkte verwenden, die benutzerdefinierte Modelle bereitstellen.
  • Standardmäßig unterstützt die Modellbereitstellung keine private Verknüpfung mit externen Endpunkten (z. B. Azure OpenAI). Die Unterstützung für diese Funktionalität wird pro Region ausgewertet und implementiert. Wenden Sie sich an Ihr Azure Databricks-Kontoteam, um weitere Informationen zu erfahren.
  • Model Serving stellt keine Sicherheitspatches für vorhandene Modellimages bereit, da das Risiko einer Destabilisierung von Produktionsbereitstellungen besteht. Ein neues Modellimage, das aus einer neuen Modellversion erstellt wurde, enthält die neuesten Patches. Wenden Sie sich an Ihr Databricks-Kontoteam, um weitere Informationen zu erfahren.

Foundation Model-APIs-Grenzwerte

Hinweis

Im Rahmen der Bereitstellung der Foundation-Modell-APIs können Databricks Ihre Daten außerhalb der Region verarbeiten, in der Ihre Daten stammen, aber nicht außerhalb des relevanten geografischen Standorts.

Sowohl für Pay-per-Token als auch für bereitgestellte Durchsatzworkloads :

  • Nur Arbeitsbereichsadministratoren können die Governanceeinstellungen ändern, z. B. Ratelimits für Foundation-Modell-APIs-Endpunkte. Gehen Sie wie folgt vor, um die Ratenbegrenzungen zu ändern:
    1. Öffnen Sie die Serving-Benutzeroberfläche in Ihrem Arbeitsbereich, um Ihre Serving-Endpunkte zu sehen.
    2. Wählen Sie im Kebab-Menü auf dem Foundation Model-APIs-Endpunkt, den Sie bearbeiten möchten, die Option Details anzeigen aus.
    3. Wählen Sie im Kebab-Menü oben rechts auf der Detailseite der Endpunkte die Option Ratenbegrenzung ändern aus.
  • Die GTE Large (En)- Einbettungsmodelle generieren keine normalisierten Einbettungen.

Grenzwerte für Pay-per-Token

Im Folgenden sind Grenzwerte für Foundation-Modell-APIs für Pay-per-Token-Workloads relevant:

  • Workloads mit tokenbasierter Bezahlung sind nicht mit HIPAA oder Compliancesicherheitsprofilen konform.
  • GTE Large (En) und Meta Llama 3.1 70B Instruct Modelle sind in pay-per-token EU- und US-unterstützten Regionen verfügbar.
  • Die folgenden Pay-per-Token-Modelle werden nur in den US-Regionen unterstützt, die von Foundation Model-APIs Pay-per-Token unterstützt werden:
    • Meta Llama 3.1 405B Instruct
    • DBRX Instruct
    • Mixtral-8x7B Instruct
    • BGE Large (En)

Bereitgestellte Durchsatzgrenzwerte

Die folgenden Grenzwerte gelten für foundation Model-APIs , die durch Durchsatzarbeitslasten bereitgestellt werden:

  • Der bereitgestellte Durchsatz unterstützt das HIPAA-Complianceprofil und wird für Workloads empfohlen, die Compliance-Zertifizierungen erfordern.
  • Um die DBRX-Modellarchitektur für eine Workload für bereitgestellten Durchsatz zu verwenden, muss sich Ihr Bereitstellungsendpunkt in einer der folgenden Regionen befinden:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth
  • Die folgende Tabelle zeigt die Regionsverfügbarkeit der unterstützten Meta Llama 3.1- und 3.2-Modelle. Anleitungen zum Bereitstellen fein abgestimmter Foundation-Modelle finden Sie unter Bereitstellen fein abgestimmter Modelle.
Meta Llama-Modellvariante Regions
meta-llama/Llama-3.1-8B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.1-8B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.1-70B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.1-70B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.2-1B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.2-1B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.2-3B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.2-3B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2

Regionale Verfügbarkeit

Hinweis

Wenn Sie einen Endpunkt in einer nicht unterstützten Region benötigen, wenden Sie sich an Ihr Azure Databricks-Kundenteam.

Wenn Ihr Arbeitsbereich in einer Region bereitgestellt wird, die Modellbereitstellung unterstützt, aber von einer Steuerebene in einer nicht unterstützten Region bedient wird, unterstützt der Arbeitsbereich die Modellbereitstellung nicht. Wenn Sie versuchen, die Modellbereitstellung in einem solchen Arbeitsbereich zu verwenden, wird in einer Fehlermeldung angezeigt, dass Ihr Arbeitsbereich nicht unterstützt wird. Wenden Sie sich an Ihr Azure Databricks-Kontoteam, um weitere Informationen zu erfahren.

Weitere Informationen zur regionalen Verfügbarkeit von Features finden Sie unter Modelle für die regionale Verfügbarkeit.