Modellbereitstellungsgrenzwerte und Regionen
In diesem Artikel werden die Einschränkungen und die Regionsverfügbarkeit für die Mosaic AI Model Serving und die unterstützten Endpunkttypen zusammengefasst.
Grenzwerte für Ressourcen und Nutzlast
Mosaic AI Model Serving legt Standardgrenzwerte fest, um eine zuverlässige Leistung sicherzustellen. Wenn Sie Feedback zu diesen Grenzwerten haben, wenden Sie sich an Ihr Databricks-Kontoteam.
In der folgenden Tabelle finden Sie eine Übersicht über die Grenzwerte für Ressourcen und Payloads für Modellbereitstellungsendpunkte.
Funktion | Granularität | Begrenzung |
---|---|---|
Größe der Nutzdaten | Pro Anforderung | 16 MB. Bei Endpunkten, die für Basismodelle oder externe Modelle dienen, liegt der Grenzwert bei 4 MB. |
Abfragen pro Sekunde (QPS) | Pro Arbeitsbereich | 200, kann jedoch auf 25.000 oder mehr erhöht werden, indem Sie ihr Databricks-Kontoteam erreichen. |
Dauer der Modellausführung | Pro Anforderung | 120 Sekunden |
Arbeitsspeicherauslastung des CPU-Endpunktmodells | Pro Endpunkt | 4GB |
Arbeitsspeicherauslastung des GPU-Endpunktmodells | Pro Endpunkt | Größer oder gleich dem zugewiesenen GPU-Speicher, abhängig von der Größe der GPU-Workload |
Bereitgestellte Parallelität | Pro Modell und arbeitsbereich | 200-Parallelität. Kann erhöht werden, indem Sie sich an Ihr Databricks-Kontoteam wenden. |
Overheadwartezeit | Pro Anforderung | Weniger als 50 Millisekunden |
Initskripts | Initialisierungsskripts werden nicht unterstützt. | |
Foundation-Modell-APIs (Pay-per-Token)-Ratenbegrenzungen | Pro Arbeitsbereich | Wenn die folgenden Grenzwerte für Ihren Anwendungsfall nicht ausreichen, empfiehlt Databricks die Verwendung des bereitgestellten Durchsatzes. - Llama 3.1 70B Instruct hat ein Limit von 2 Abfragen pro Sekunde und 1200 Abfragen pro Stunde. - Llama 3.1 405B Instruct hat ein Limit von 1 Abfrage pro Sekunde und 1200 Abfragen pro Stunde. – Das DBRX Instruct-Modell weist eine Beschränkung von einer Abfrage pro Sekunde auf. - Mixtral-8x 7B Instruct hat ein Standardratenlimit von 2 Abfragen pro Sekunde. - GTE Large (En) hat eine Ratenbegrenzung von 150 Abfragen pro Sekunde - BGE Large (En) hat eine Ratenbegrenzung von 600 Abfragen pro Sekunde. |
Foundation Model APIs (bereitgestellter Durchsatz)-Ratenbegrenzungen | Pro Arbeitsbereich | 200 |
Netzwerk- und Sicherheitsbeschränkungen
- Modellbereitstellungsendpunkte werden durch die Zugriffssteuerung geschützt und berücksichtigen netzwerkbezogene Eingangsregeln, die im Arbeitsbereich konfiguriert sind, z. B. Listen zugelassener IP-Adressen und Private Link.
- Private Konnektivität (z. B. Azure Private Link) wird nur für Modellbereitstellungsendpunkte unterstützt, die den bereitgestellten Durchsatz oder Endpunkte verwenden, die benutzerdefinierte Modelle bereitstellen.
- Standardmäßig unterstützt die Modellbereitstellung keine private Verknüpfung mit externen Endpunkten (z. B. Azure OpenAI). Die Unterstützung für diese Funktionalität wird pro Region ausgewertet und implementiert. Wenden Sie sich an Ihr Azure Databricks-Kontoteam, um weitere Informationen zu erfahren.
- Model Serving stellt keine Sicherheitspatches für vorhandene Modellimages bereit, da das Risiko einer Destabilisierung von Produktionsbereitstellungen besteht. Ein neues Modellimage, das aus einer neuen Modellversion erstellt wurde, enthält die neuesten Patches. Wenden Sie sich an Ihr Databricks-Kontoteam, um weitere Informationen zu erfahren.
Foundation Model-APIs-Grenzwerte
Hinweis
Im Rahmen der Bereitstellung der Foundation-Modell-APIs können Databricks Ihre Daten außerhalb der Region verarbeiten, in der Ihre Daten stammen, aber nicht außerhalb des relevanten geografischen Standorts.
Sowohl für Pay-per-Token als auch für bereitgestellte Durchsatzworkloads :
- Nur Arbeitsbereichsadministratoren können die Governanceeinstellungen ändern, z. B. Ratelimits für Foundation-Modell-APIs-Endpunkte. Gehen Sie wie folgt vor, um die Ratenbegrenzungen zu ändern:
- Öffnen Sie die Serving-Benutzeroberfläche in Ihrem Arbeitsbereich, um Ihre Serving-Endpunkte zu sehen.
- Wählen Sie im Kebab-Menü auf dem Foundation Model-APIs-Endpunkt, den Sie bearbeiten möchten, die Option Details anzeigen aus.
- Wählen Sie im Kebab-Menü oben rechts auf der Detailseite der Endpunkte die Option Ratenbegrenzung ändern aus.
- Die GTE Large (En)- Einbettungsmodelle generieren keine normalisierten Einbettungen.
Grenzwerte für Pay-per-Token
Im Folgenden sind Grenzwerte für Foundation-Modell-APIs für Pay-per-Token-Workloads relevant:
- Workloads mit tokenbasierter Bezahlung sind nicht mit HIPAA oder Compliancesicherheitsprofilen konform.
- GTE Large (En) und Meta Llama 3.1 70B Instruct Modelle sind in pay-per-token EU- und US-unterstützten Regionen verfügbar.
- Die folgenden Pay-per-Token-Modelle werden nur in den US-Regionen unterstützt, die von Foundation Model-APIs Pay-per-Token unterstützt werden:
- Meta Llama 3.1 405B Instruct
- DBRX Instruct
- Mixtral-8x7B Instruct
- BGE Large (En)
Bereitgestellte Durchsatzgrenzwerte
Die folgenden Grenzwerte gelten für foundation Model-APIs , die durch Durchsatzarbeitslasten bereitgestellt werden:
- Der bereitgestellte Durchsatz unterstützt das HIPAA-Complianceprofil und wird für Workloads empfohlen, die Compliance-Zertifizierungen erfordern.
- Um die DBRX-Modellarchitektur für eine Workload für bereitgestellten Durchsatz zu verwenden, muss sich Ihr Bereitstellungsendpunkt in einer der folgenden Regionen befinden:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
- Die folgende Tabelle zeigt die Regionsverfügbarkeit der unterstützten Meta Llama 3.1- und 3.2-Modelle. Anleitungen zum Bereitstellen fein abgestimmter Foundation-Modelle finden Sie unter Bereitstellen fein abgestimmter Modelle.
Meta Llama-Modellvariante | Regions |
---|---|
meta-llama/Llama-3.1-8B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-8B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-70B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-70B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-1B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-1B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-3B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-3B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
Regionale Verfügbarkeit
Hinweis
Wenn Sie einen Endpunkt in einer nicht unterstützten Region benötigen, wenden Sie sich an Ihr Azure Databricks-Kundenteam.
Wenn Ihr Arbeitsbereich in einer Region bereitgestellt wird, die Modellbereitstellung unterstützt, aber von einer Steuerebene in einer nicht unterstützten Region bedient wird, unterstützt der Arbeitsbereich die Modellbereitstellung nicht. Wenn Sie versuchen, die Modellbereitstellung in einem solchen Arbeitsbereich zu verwenden, wird in einer Fehlermeldung angezeigt, dass Ihr Arbeitsbereich nicht unterstützt wird. Wenden Sie sich an Ihr Azure Databricks-Kontoteam, um weitere Informationen zu erfahren.
Weitere Informationen zur regionalen Verfügbarkeit von Features finden Sie unter Modelle für die regionale Verfügbarkeit.