Azure OpenAI-Bereitstellungstypen

Azure OpenAI bietet Kunden Auswahlmöglichkeiten bei der Hostingstruktur, die ihren Geschäfts- und Nutzungsmustern entspricht. Der Dienst bietet zwei Haupttypen der Bereitstellung: Standard und Bereitgestellt. Für einen bestimmten Bereitstellungstyp können Kunden ihre Arbeitsauslastungen an ihren Datenverarbeitungsanforderungen anpassen, indem Sie eine Azure-Geografie (Standard oder Provisioned), von Microsoft angegebene Datenzone (DataZone-Standard) oder globale Verarbeitungsoptionen (Global-Standard oder Global Provisioned-Managed) auswählen.

Alle Bereitstellungen können dieselben Rückschlussvorgänge ausführen, Abrechnung, Skalierung und Leistung unterscheiden sich jedoch erheblich. Im Rahmen Ihres Lösungsdesigns müssen Sie zwei wichtige Entscheidungen treffen:

  • Standort für die Datenverarbeitung
  • Aufrufvolumen

Azure OpenAI Deployment Data Processing Locations

Für Standardbereitstellungen gibt es drei Optionen für Bereitstellungstypen, aus denen Sie wählen können – global, Datenzone und Azure-Geografie. Für bereitgestellte Bereitstellungen gibt es zwei Optionen für Bereitstellungstypen, aus denen Sie wählen können – global und Azure-Geografie. Der globale Standard ist der empfohlene Ausgangspunkt.

Globale Bereitstellungen nutzen die globale Azure-Infrastruktur und leiten den Kundendatenverkehr dynamisch an das Rechenzentrum weiter, das die beste Verfügbarkeit für die Rückschlussanforderungen des Kunden bietet. Dies bedeutet, dass Sie die höchsten Grenzwerte für den anfänglichen Durchsatz und die beste Modellverfügbarkeit mit Global erhalten, während Sie gleichzeitig von unsere Uptime-SLA und niedrigen Latenzzeiten profitieren können. Bei Workloads mit hohem Volumen, die über die angegebenen Nutzungsebenen von Standard und Global Standard hinausgehen, können erhöhte Latenzschwankungen auftreten. Für Kunden, die die geringere Wartezeitvarianz bei einer hohen Workloadnutzung erfordern, empfehlen wir die Nutzung unserer bereitgestellten Bereitstellungstypen.

Unsere globalen Bereitstellungen sind der erste Ort für alle neuen Modelle und Features. Je nach Aufrufvolumen sollten Kunden mit hohen Volumen- und geringen Latenzabweichungsanforderungen unsere bereitgestellten Bereitstellungstypen berücksichtigen.

Datenzonenbereitstellungen nutzen die globale Azure-Infrastruktur und leiten den Kundendatenverkehr dynamisch an das Rechenzentrum weiter, das die beste Verfügbarkeit für die Rückschlussanforderungen des Kunden innerhalb der von Microsoft festgelegten Datenzone bietet. Positioniert zwischen unseren Bereitstellungsangeboten Azure-Geografie und Global bieten Datenzonenbereitstellungen erhöhte Kontingentbeschränkungen, während die Datenverarbeitung innerhalb der angegebenen Datenzone von Microsoft beibehalten wird. Ruhende Daten bleiben weiterhin in der Geografie der Azure OpenAI-Ressource (z. B. für eine Azure OpenAI-Ressource, die in der Region Schweden, Mitte erstellt wurde, ist die Azure-Geografie Schweden).

Wenn sich die Azure OpenAI-Ressource, die in Ihrer Datenzonenbereitstellung verwendet wird, in den USA befindet, werden die Daten innerhalb der USA verarbeitet. Wenn sich die Azure OpenAI-Ressource, die in Ihrer Datenzonenbereitstellung verwendet wird, in einem Mitgliedsstaat der Europäischen Union befindet, werden die Daten innerhalb der Regionen der Europäischen Union verarbeitet. Für alle Azure OpenAI-Dienstbereitstellungstypen bleiben alle ruhenden Daten weiterhin in der Geografie der Azure OpenAI-Ressource. Azure-Datenverarbeitungs- und Complianceverpflichtungen gelten weiterhin.

Bereitstellungstypen

Azure OpenAI bietet drei Arten von Bereitstellungen. Diese bieten eine Vielzahl von Funktionen, die Abstriche bei Durchsatz, SLAs und Preis bedeuten. Nachfolgend finden Sie eine Zusammenfassung der Optionen, gefolgt von einer genaueren Beschreibung der einzelnen Optionen.

Angebot Global-Batch Global-Standard Global bereitgestellt Standard Bereitgestellt
Am besten geeignet für Offlinebewertung

Workloads, die nicht latenzempfindlich sind und in Stunden abgeschlossen werden können.

Empfohlener Ausgangspunkt für Kunden.

„Global-Standard“ hat ein höheres Standardkontingent und eine größere Anzahl von verfügbaren Modellen als „Standard“.
Echtzeitbewertung für großes konsistentes Volumen. Umfasst die höchsten Zusagen und Grenzwerte. Für Kunden mit Anforderungen an Datenresidenz. Optimiert für geringes bis mittleres Volumen. Echtzeitbewertung für großes konsistentes Volumen. Umfasst die höchsten Zusagen und Grenzwerte. Für Anwendungsfälle mit Datenresidenzanforderungen
So funktioniert's Offlineverarbeitung über Dateien Datenverkehr kann an beliebige Orte weltweit weitergeleitet werden. Datenverkehr kann an beliebige Orte weltweit weitergeleitet werden.
Erste Schritte Global-Batch Modellimplementierung Bereitgestelltes Onboarding Modellimplementierung Bereitgestelltes Onboarding
Kosten Die günstigste Option
50 % weniger Kosten im Vergleich zu den Preisen für „Global-Standard“. Zugriff auf alle neuen Modelle mit größeren Kontingentzuweisungen.
Globale Bereitstellungskosten Kosteneinsparungen für eine konsistente Nutzung sind möglich. Regionale Kosten Kosteneinsparungen für eine konsistente Nutzung sind möglich.
Ergebnis Signifikanter Rabatt im Vergleich mit „Global-Standard“ Einfacher Zugriff auf alle neuen Modelle mit den höchsten Standardgrenzwerten für die Bezahlung pro Aufruf.

Kunden mit umfangreicher Nutzung können eine höhere Variabilität bei der Wartezeit erleben.
Zugriff auf hohen und vorhersehbaren Durchsatz in der globalen Azure-Infrastruktur. Ermitteln Sie den Durchsatz pro PTU mithilfe des bereitgestellten Kapazitätsrechners. Einfacher Zugriff mit SLA zur Verfügbarkeit. Optimiert für Workloads mit geringem bis mittlerem Volumen mit hoher Burstartigkeit.

Kunden mit hohem konsistenten Volumen können eine größere Variabilität bei der Wartezeit erleben.
Regionaler Zugriff mit sehr hohem und vorhersehbarem Durchsatz. Ermitteln des Durchsatzes pro PTU mithilfe des bereitgestellten Kapazitätsrechners
Was Sie nicht erhalten ❌Echtzeitanrufleistung

❌Datenverarbeitungsgarantie

Ruhende Daten verbleiben in der angegebenen Azure-Geografie, während Daten für Rückschlüsse möglicherweise an einem beliebigen Azure OpenAI-Standort verarbeitet werden. Erfahren Sie mehr über Data Residency
❌Datenverarbeitungsgarantie

Ruhende Daten verbleiben in der angegebenen Azure-Geografie, während Daten für Rückschlüsse möglicherweise an einem beliebigen Azure OpenAI-Standort verarbeitet werden. Erfahren Sie mehr über Data Residency
❌ Flexibilität bei der Bezahlung pro Aufruf

❌Datenverarbeitungsgarantie

Ruhende Daten verbleiben in der angegebenen Azure-Geografie, während Daten für Rückschlüsse möglicherweise an einem beliebigen Azure OpenAI-Standort verarbeitet werden. Erfahren Sie mehr über Data Residency
❌ Hohes Volumen mit konsistent niedriger Wartezeit ❌ Flexibilität bei der Bezahlung pro Aufruf
Wartezeit pro Aufruf Nicht anwendbar (dateibasierter asynchroner Prozess) Optimiert für Echtzeitanrufe und Nutzung mit niedrigem bis mittlerem Volumen. Kunden mit umfangreicher Nutzung können eine höhere Variabilität bei der Wartezeit erleben. Pro Modell festgelegter Schwellenwert Optimiert für Echtzeitanrufe und hohe Volumennutzung. Optimiert für Echtzeitanrufe und Nutzung mit niedrigem bis mittlerem Volumen. Kunden mit umfangreicher Nutzung können eine höhere Variabilität bei der Wartezeit erleben. Pro Modell festgelegter Schwellenwert Optimiert für Echtzeitanrufe und hohe Volumennutzung.
SKU-Name im Code GlobalBatch GlobalStandard GlobalProvisionedManaged Standard ProvisionedManaged
Abrechnungsmodell Pay-per-Token Pay-per-Token Stündliche Abrechnung mit optionalem Kauf monatlicher oder jährlicher Reservierungen Pay-per-Token Stündliche Abrechnung mit optionalem Kauf monatlicher oder jährlicher Reservierungen

Globaler Standard

Wichtig

Ruhende Daten verbleiben in der angegebenen Azure-Geografie, während Daten für Rückschlüsse möglicherweise an einem beliebigen Azure OpenAI-Standort verarbeitet werden. Erfahren Sie mehr über Data Residency.

Globale Bereitstellungen stehen in denselben Azure OpenAI-Ressourcen zur Verfügung wie nicht globale Bereitstellungstypen, ermöglichen es Ihnen jedoch, die globale Infrastruktur von Azure zu nutzen, um den Datenverkehr dynamisch an das Rechenzentrum mit der besten Verfügbarkeit für jede Anforderung weiterzuleiten. Der globale Standard stellt das höchste Standardkontingent bereit und beseitigt die Notwendigkeit des Lastenausgleichs über mehrere Ressourcen hinweg.

Kunden mit hohem konsistenten Volumen können eine größere Variabilität bei der Wartezeit erleben. Der Schwellenwert wird pro Modell festgelegt. Weitere Informationen finden Sie auf der Seite zu Kontingenten. Für Kunden, die eine geringere Wartezeitvarianz bei einer hohen Workloadnutzung erfordern, empfehlen wir den Kauf des bereitgestellten Durchsatzes.

Global bereitgestellt

Wichtig

Ruhende Daten verbleiben in der angegebenen Azure-Geografie, während Daten für Rückschlüsse möglicherweise an einem beliebigen Azure OpenAI-Standort verarbeitet werden. Erfahren Sie mehr über Data Residency.

Globale Bereitstellungen stehen in denselben Azure OpenAI-Ressourcen zur Verfügung wie nicht globale Bereitstellungstypen, ermöglichen es Ihnen jedoch, die globale Infrastruktur von Azure zu nutzen, um den Datenverkehr dynamisch an das Rechenzentrum mit der besten Verfügbarkeit für jede Anforderung weiterzuleiten. Globale bereitgestellte Bereitstellungen bieten reservierte Modellverarbeitungskapazität für hohen und vorhersehbaren Durchsatz mithilfe der globalen Azure-Infrastruktur.

Global-Batch

Wichtig

Ruhende Daten verbleiben in der angegebenen Azure-Geografie, während Daten für Rückschlüsse möglicherweise an einem beliebigen Azure OpenAI-Standort verarbeitet werden. Erfahren Sie mehr über Data Residency.

Global-Batch ist darauf ausgelegt, umfangreiche Verarbeitungsaufgaben mit hohem Volumen effizient zu verarbeiten. Verarbeiten Sie asynchrone Anforderungsgruppen mit separatem Kontingent mit einer angestrebten Verarbeitungszeit von 24 Stunden zu 50 % weniger Kosten als bei „Global-Standard“. Bei der Stapelverarbeitung senden Sie die einzelnen Anforderungen nicht nacheinander, sondern Sie senden eine große Anzahl von Anforderungen in einer einzelnen Datei. Globale Batchanforderungen verfügen über ein separates Tokenkontingent, das in die Warteschlange eingereiht wird, um Unterbrechungen Ihrer Onlineworkloads zu vermeiden.

Wichtige Anwendungsfälle:

  • Umfangreiche Datenverarbeitung: Analysieren Sie schnell umfangreiche Datasets parallel.

  • Inhaltsgenerierung: Erstellen Sie große Textmengen, z. B. Produktbeschreibungen oder Artikel.

  • Dokumentüberprüfung und Zusammenfassung: Automatisieren Sie die Überprüfung und Zusammenfassung von umfangreichen Dokumenten.

  • Automatisierung des Kundendiensts: Verarbeiten Sie zahlreiche Anfragen gleichzeitig für schnellere Antworten.

  • Datenextraktion und -analyse: Extrahieren und analysieren Sie Informationen aus großen Mengen unstrukturierter Daten.

  • NLP-Aufgaben (Natural Language Processing, Verarbeitung natürlicher Sprache): Führen Sie Aufgaben wie Stimmungsanalyse oder Übersetzung für große Datasets aus.

  • Marketing und Personalisierung: Generieren Sie personalisierte Inhalte und Empfehlungen im großen Stil.

Datenzonenstandard

Wichtig

Ruhende Daten verbleiben in der angegebenen Azure-Geografie, während Daten für Rückschlüsse möglicherweise an einem beliebigen Azure OpenAI-Standort innerhalb der von Microsoft festgelegten Datenzone verarbeitet werden. Erfahren Sie mehr über Data Residency.

Standardbereitstellungen für Datenzonen sind in derselben Azure OpenAI-Ressource wie alle anderen Azure OpenAI-Bereitstellungstypen verfügbar, ermöglichen es Ihnen jedoch, die globale Azure-Infrastruktur zu nutzen, um den Datenverkehr dynamisch an das Rechenzentrum innerhalb der von Microsoft definierten Datenzone mit der besten Verfügbarkeit für jede Anforderung weiterzuleiten. Der Datenzonenstandard bietet höhere Standardkontingente als unsere geografiebasierten Azure-Bereitstellungstypen.

Kunden mit hohem konsistenten Volumen können eine größere Variabilität bei der Wartezeit erleben. Der Schwellenwert wird pro Modell festgelegt. Weitere Informationen finden Sie auf der Seite zu Kontingenten und Beschränkungen. Für Workloads, die eine geringe Latenzabweichung bei großem Volumen erfordern, empfehlen wir die Nutzung der bereitgestellten Bereitstellungsangebote.

Standard

Standardbereitstellungen bieten ein Abrechnungsmodell für die Bezahlung pro Aufruf für das ausgewählte Modell. Bietet die schnellste Möglichkeit loszulegen, da Sie nur für das bezahlen, was Sie verbrauchen. Modelle, die in den einzelnen Regionen verfügbar sind, sowie der Durchsatz können beschränkt sein.

Standardbereitstellungen sind für Workloads mit geringem bis mittlerem Volumen mit hoher Burstartigkeit optimiert. Kunden mit hohem konsistenten Volumen können eine größere Variabilität bei der Wartezeit erleben.

Bereitgestellt

Mit bereitgestellten Bereitstellungen können Sie den in einer Bereitstellung erforderlichen Durchsatz angeben. Der Dienst weist daraufhin die erforderliche Modellverarbeitungskapazität zu und stellt sicher, dass diese für Sie bereit ist. Der Durchsatz wird als bereitgestellte Durchsatzeinheiten (Provisioned Throughput Units, PTUs) definiert. Dabei handelt es sich um eine normalisierte Methode zur Darstellung des Durchsatzes für Ihre Bereitstellung. Jedes Modellversionspaar benötigt unterschiedliche PTU-Mengen, um unterschiedliche Durchsatzmengen pro PTU bereitzustellen. Weitere Informationen finden Sie in unserem Artikel zu Konzepten für bereitgestellten Durchsatz.

Deaktivieren des Zugriffs auf globale Bereitstellungen in Ihrem Abonnement

Azure Policy hilft bei der Durchsetzung von Organisationsstandards und bei der Bewertung der Compliance nach Bedarf. Über sein Compliance-Dashboard bietet der Dienst eine aggregierte Ansicht zur Bewertung des Gesamtzustands der Umgebung mit der Möglichkeit, einen Drilldown zur Granularität pro Ressource und Richtlinie durchzuführen. Außerdem trägt er durch Massenwartung für vorhandene Ressourcen und automatische Wartung dazu bei, dass Ihre Ressourcen Compliance-Anforderungen erfüllen. Erfahren Sie mehr über Azure Policy und bestimmte integrierte Steuerelemente für KI-Dienste.

Sie können die folgende Richtlinie verwenden, um den Zugriff auf globale Azure OpenAI-Standardbereitstellungen zu deaktivieren. Ersetzen Sie zum Deaktivieren des Zugriffs auf global bereitgestellte Bereitstellungen von Azure oder globalen Batchbereitstellungen GlobalStandard durch GlobalProvisionedManaged oder GlobalBatch für den gewünschten SKU-Namen.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Bereitstellen von Modellen

Screenshot des Dialogfelds „Modellimplementierung“ in Azure KI Studio mit den hervorgehobenen drei Bereitstellungstypen.

Informationen zum Erstellen von Ressourcen und Bereitstellen von Modellen finden Sie in der Anleitung zum Erstellen von Ressourcen.

Weitere Informationen