Modellkatalog und Sammlungen in Azure KI Studio

Wichtig

Einige der in diesem Artikel beschriebenen Features sind möglicherweise nur in der Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Der Modellkatalog in Azure KI Studio ist der Hub, um eine Vielzahl von Modellen zu entdecken und zu verwenden, mit denen Sie generative KI-Anwendungen erstellen können. Der Modellkatalog enthält Hunderte von Modellen von Modellanbietern wie Azure OpenAI Service, Mistral, Meta, Cohere, NVIDIA und Hugging Face, einschließlich Modelle, die Microsoft trainiert hat. Modelle von anderen Anbietern als Microsoft sind Nicht-Microsoft-Produkte, wie in den Microsoft-Produktbedingungen definiert und unterliegen den mit den Modellen gelieferten Geschäftsbedingungen.

Modellsammlungen

Der Modellkatalog organisiert Modelle in drei Sammlungen von Typen:

  • Kuratiert durch Azure KI: Die beliebtesten Nicht-Microsoft-Modelle mit offener Gewichtung und proprietäre Modelle, gepackt und optimiert für den nahtlosen Einsatz auf der Azure KI-Plattform. Die Verwendung dieser Modelle unterliegt den Lizenzbedingungen der Modellanbieter. Wenn Sie diese Modelle in Azure KI Studio bereitstellen, unterliegt deren Verfügbarkeit der entsprechenden Azure-Vereinbarung zum Servicelevel (SLA)und Microsoft bietet Unterstützung für Bereitstellungsprobleme.

    Modelle von Partnern wie Meta, NVIDIA oder Mistral AI sind Beispiele für Modelle, die in dieser Sammlung im Katalog zur Verfügung stehen. Sie können diese Modelle identifizieren, indem Sie auf den Modellkacheln im Katalog nach einem grünen Häkchen suchen. Sie können auch nach der Sammlung Kuratiert durch Azure KI filtern.

  • Exklusiv in Azure verfügbare Azure OpenAI-Modelle: Azure OpenAI-Flagship-Modelle, die über eine Integration mit Azure OpenAI Service verfügbar sind. Microsoft unterstützt diese Modelle und deren Verwendung gemäß den Produktbedingungen und dem SLA für Azure OpenAI Service.

  • Offene Modelle aus dem Hugging Face-Hub: Hunderte von Modellen aus dem Hugging Face-Hub für echtzeitbasierte Rückschlüsse mit verwalteten Compute Services. Hugging Face erstellt und unterhält die in dieser Sammlung aufgelisteten Modelle. Um Hilfe zu erhalten, verwenden Sie das Hugging Face-Forum oder den Hugging Face-Support. Erfahren Sie mehr in Bereitstellen offener Modelle mit Azure KI Studio.

Mithilfe dieses Formulars können Sie eine Anforderung senden, um dem Modellkatalog ein Modell hinzuzufügen.

Übersicht der Modellkatalogfunktionen

Sie können einige Modelle in den Sammlungen Kuratiert von Azure KI und Offene Modelle aus dem Hugging Face-Hub mit einer Option „verwaltete Compute Services“ bereitstellen. Einige Modelle können über serverlose APIs mit Abrechnung mit nutzungsbasierter Bezahlung bereitgestellt werden.

Sie können diese Modelle entdecken, vergleichen, bewerten, verfeinern (falls unterstützt) und im großen Stil bereitstellen. Anschließend können Sie die Modelle in Ihre generativen KI-Anwendungen mit Sicherheits- und Datengovernance auf Unternehmensniveau integrieren. Die folgende Liste beschreibt die Aktivitäten im Detail:

  • Entdecken: Überprüfen Sie Modellkarten, testen Sie Stichprobenrückschlüsse und durchsuchen Sie Codebeispiele, um das Modell auszuwerten, zu verfeinern oder bereitzustellen.
  • Vergleichen: Vergleichen Sie Benchmarks zwischen den in der Branche verfügbaren Modellen und Datasets, um zu beurteilen, welches Modell Ihrem Geschäftsszenario entspricht.
  • Auswerten: Werten Sie aus, ob das Modell für Ihre bestimmte Workload geeignet ist, indem Sie Ihre eigenen Testdaten bereitstellen. Verwenden Sie Auswertungsmetriken, um zu visualisieren, wie gut das ausgewählte Modell in Ihrem Szenario abschneidet.
  • Verfeinern: Passen Sie verfeinerbare Modelle an, indem Sie Ihre eigene Trainingsdaten verwenden, und wählen Sie das beste Modell aus, indem Sie Metriken aus all Ihren Feinabstimmungsaufträgen vergleichen. Integrierte Optimierungen beschleunigen die Feinabstimmung und reduzieren den erforderlichen Arbeitsspeicher und die Compute Services.
  • Bereitstellen: Nahtloses Bereitstellen von vortrainierten oder verfeinerten Modellen für den Rückschluss. Sie können auch Modelle herunterladen, die für verwaltete Compute Services bereitgestellt werden können.

Weitere Informationen zu Azure OpenAI-Modellen finden Sie unter Was ist Azure OpenAI Service?.

Modellbereitstellung: Verwaltete Computeressourcen und serverlose API (nutzungsbasierte Bezahlung)

Der Modellkatalog bietet zwei unterschiedliche Möglichkeiten zum Bereitstellen von Modellen für Ihre Verwendung: verwaltete Compute Services und serverlose APIs.

Die für jedes Modell verfügbaren Bereitstellungsoptionen und Features variieren, wie in den folgenden Tabellen beschrieben. Erfahren Sie mehr über die Datenverarbeitung mit den Bereitstellungsoptionen.

Features Verwaltete Computeressourcen Serverlose API (nutzungsbasierte Bezahlung)
Bereitstellungserfahrung und Abrechnung Modellgewichtungen werden für dedizierte VMs mit verwalteter Computeressource bereitgestellt. Eine verwaltete Computeressource, die über eine oder mehrere Bereitstellungen verfügen kann, stellt eine REST-API für den Rückschluss zur Verfügung. Ihnen werden die VM-Kernstunden in Rechnung gestellt, welche die Bereitstellungen verwenden. Der Zugriff auf Modelle erfolgt über eine Bereitstellung, die eine API für den Zugriff auf das Modell bereitstellt. Die API bietet den Zugriff auf das Modell, das von Microsoft gehostet und verwaltet wird, um Rückschlüsse zu ermöglichen. Sie werden für Eingaben und Ausgaben an die APIs in Rechnung gestellt, in der Regel in Token. Preisinformationen werden vor der Bereitstellung bekannt gegeben.
API-Authentifizierung Schlüssel und Microsoft Entra-Authentifizierung. Nur Schlüssel.
Inhaltssicherheit Verwenden Sie Dienst-APIs der Azure KI Inhaltssicherheit. Azure KI Inhaltssicherheit-Filter sind integriert mit Rückschluss-APIs verfügbar. Azure KI Inhaltssicherheit-Filter werden separat abgerechnet.
Netzwerkisolation Konfigurieren von verwalteten Netzwerken für Azure KI Studio-Hubs. Verwaltete Computeressourcen folgen der Flageinstellung für den öffentlichen Netzwerkzugriff (Public Network Access, PNA) Ihres Hubs. Weitere Informationen finden Sie später in diesem Artikel im Abschnitt Netzwerkisolation für Modelle, die über serverlose APIs bereitgestellt werden.
Modell Verwaltete Computeressourcen Serverlose API (nutzungsbasierte Bezahlung)
Modelle der Llama-Familie Llama-2-7b
Llama-2-7b-chat
Llama-2-13b
Llama-2-13b-chat
Llama-2-70b
Llama-2-70b-chat
Llama-3-8B-Instruct
Llama-3-70B-Instruct
Llama-3-8B
Llama-3-70B
Llama-3-70B-Instruct
Llama-3-8B-Instruct
Llama-2-7b
Llama-2-7b-chat
Llama-2-13b
Llama-2-13b-chat
Llama-2-70b
Llama-2-70b-chat
Modelle der Mistral-Familie mistralai-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x22B-Instruct-v0-1
mistral-community-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x7B-v01
mistralai-Mistral-7B-Instruct-v0-2
mistralai-Mistral-7B-v01
mistralai-Mixtral-8x7B-Instruct-v01
mistralai-Mistral-7B-Instruct-v01
Mistral Large (2402)
Mistral Large (2407)
Mistral-small
Mistral-NeMo
Modelle der Cohere-Familie Nicht verfügbar Cohere-command-r-plus
Cohere-command-r
Cohere-embed-v3-english
Cohere-embed-v3-multilingual
Cohere-rerank-v3-english
Cohere-rerank-v3-multilingual
JAIS Nicht verfügbar jais-30b-chat
Modelle der Phi-3-Familie Phi-3-mini-4k-Instruct
Phi-3-mini-128k-Instruct
Phi-3-small-8k-Instruct
Phi-3-small-128k-Instruct
Phi-3-medium-4k-instruct
Phi-3-medium-128k-instruct
Phi-3-vision-128k-Instruct
Phi-3.5-mini-Instruct
Phi-3.5-vision-Instruct
Phi-3.5-MoE-Instruct
Phi-3-mini-4k-Instruct
Phi-3-mini-128k-Instruct
Phi-3-small-8k-Instruct
Phi-3-small-128k-Instruct
Phi-3-medium-4k-instruct
Phi-3-medium-128k-instruct

Phi-3.5-mini-Instruct
Phi-3.5-vision-Instruct
Nixtla Nicht verfügbar TimeGEN-1
Andere Modelle Verfügbar Nicht verfügbar

Diagramm, das Modelle als Dienstleistung und den Dienstzyklus von verwalteten Computeressourcen zeigt.

Verwaltete Computeressourcen

Die Funktionalität, Modelle als verwaltete Compute Services bereitzustellen, baut auf Plattformfunktionen von Azure Machine Learning auf, um eine nahtlose Integration der umfangreichen Sammlung von Modellen im Modellkatalog über den gesamten Lebenszyklus von Vorgängen für große Sprachmodelle (Large Language Model, LLM) hinweg zu ermöglichen.

Diagramm, das den Lebenszyklus von Vorgängen großer Sprachmodelle zeigt.

Verfügbarkeit von Modellen für die Bereitstellung als verwaltete Compute Services

Die Modelle werden über Azure Machine Learning-Registrierungen zur Verfügung gestellt. Diese Registrierungen ermöglichen einen Ansatz „maschinelles Lernen zuerst“ zum Hosten und Verteilen von Azure Machine Learning-Ressourcen. Zu diesen Ressourcen gehören Modellgewichte, Containerruntimes für das Ausführen der Modelle, Pipelines zum Auswerten und Feinabstimmen der Modelle sowie Datasets für Benchmarks und Beispiele.

Die Registrierungen bauen auf einer hoch skalierbaren und unternehmensfähigen Infrastruktur auf, die Folgendes bietet:

  • Liefert latenzarme Modellartefakte für den Zugriff für alle Azure-Regionen mit integrierter Georeplikation.

  • Unterstützt Unternehmenssicherheitsanforderungen wie beispielsweise das Einschränken des Zugriffs auf Modelle mithilfe von Azure Policy und die sichere Bereitstellung mithilfe von verwalteten virtuellen Netzwerken.

Bereitstellung von Modellen für Rückschlüsse mit verwalteten Compute Services

Modelle, die für die Bereitstellung für verwaltete Compute Services verfügbar sind, können für verwaltete Azure Machine Learning-Computeressourcen für den Echtzeitrückschluss bereitgestellt werden. Für die Bereitstellung für verwaltete Compute Services müssen Sie über ein VM-Kontingent in Ihrem Azure-Abonnement für die spezifischen Produkte verfügen, die Sie für die optimale Ausführung des Modells benötigen. Einige Modelle ermöglichen Ihnen die Bereitstellung im vorübergehend freigegebenen Kontingent für das Modelltesten.

Weitere Informationen zum Bereitstellen von Modellen:

Erstellen von generativen KI-Apps mit verwalteten Compute Services

Das Feature prompt flow in Azure Machine Learning bietet eine großartige Erfahrung für die Erstellung eines Prototyps. Modelle, die mit verwalteten Compute Services bereitgestellt werden, können Sie mit dem Open Model LLM-Tool in prompt flow verwenden. Sie können auch die REST-API verwenden, die von den verwalteten Computeressourcen in beliebten LLM-Tools wie LangChain mit der Azure Machine Learning-Erweiterung verfügbar gemacht wird.

Inhaltssicherheit für Modelle, die als verwaltete Compute Services bereitgestellt werden

Der Dienst Azure KI Inhaltssicherheit ist für die Verwendung mit verwalteten Compute Services verfügbar, um verschiedene Kategorien von schädlichen Inhalten zu überprüfen, z. B. sexuelle Inhalte, Gewalt, Hass und Selbstverletzung. Sie können den Dienst auch verwenden, um auf erweiterte Bedrohungen wie die Erkennung von Jailbreak-Risiken und die Erkennung von geschütztem Textmaterial zu überprüfen.

Sie können für eine Referenzintegration in Azure KI Inhaltssicherheit für Llama 2 auf dieses Notebook verweisen. Alternativ können Sie das Tool für Inhaltssicherheit (Text) in prompt flow verwenden, um Antworten vom Modell an Azure KI Inhaltssicherheit zur Überprüfung zu übergeben. Sie werden für eine solche Verwendung separat in Rechnung gestellt, wie in Azure KI Inhaltssicherheit beschrieben.

Serverlose APIs mit nutzungsbasierter Abrechnung

Sie können bestimmte Modelle im Modellkatalog als serverlose APIs mit nutzungsbasierter Abrechnung bereitstellen. Diese Bereitstellungsmethode, die manchmal als Modelle als Dienstleistung (Model as a Service, MaaS) bezeichnet wird, bietet eine Möglichkeit, die Modelle als APIs zu nutzen, ohne sie in Ihrem Abonnement zu hosten. Modelle werden in einer von Microsoft verwalteten Infrastruktur gehostet, wodurch API-basierter Zugriff auf das Modell des Modellanbieters ermöglicht wird. Der API-basierte Zugriff kann die Kosten für den Zugriff auf ein Modell dramatisch reduzieren und die Bereitstellungserfahrung vereinfachen.

Modelle, die für die Bereitstellung als serverlose APIs mit nutzungsbasierter Abrechnung verfügbar sind, werden vom Modellanbieter angeboten, aber sie werden in einer von Microsoft verwalteten Azure-Infrastruktur gehostet und über eine API zugänglich gemacht. Modellanbieter definieren die Lizenzbedingungen und legen den Preis für die Verwendung ihrer Modelle fest. Der Azure Machine Learning Service:

  • Verwaltet die Hostinginfrastruktur.
  • Stellt die Rückschluss-APIs zur Verfügung.
  • Fungiert als Datenprozessor für die übermittelten Prompts und ausgegebenen Inhalte der über MaaS bereitgestellten Modelle.

Erfahren Sie mehr über die Datenverarbeitung für MaaS im Artikel zum Datenschutz.

Diagramm des Dienstzyklus eines Modellherausgebers.

Abrechnung

Die Erfahrung für Ermittlung, Abonnement und Verbrauch für Modelle, die über MaaS bereitgestellt werden, befindet sich im Azure KI Studio und im Azure Machine Learning Studio. Benutzer akzeptieren Lizenzbedingungen für die Verwendung der Modelle. Preisinformationen für den Verbrauch werden während der Bereitstellung bereitgestellt.

Modelle von Nicht-Microsoft-Anbietern werden über Azure Marketplace gemäß den Nutzungsbedingungen des kommerziellen Microsoft-Marketplace in Rechnung gestellt.

Modelle von Microsoft werden über Azure-Verbrauchseinheiten als Erstanbieter-Verbrauchsdienste in Rechnung gestellt. Wie in den Produktbedingungen beschrieben, erwerben Sie Erstanbieter-Verbrauchsdienste mithilfe von Azure-Verbrauchseinheiten, sie unterliegen jedoch nicht den Azure-Dienstbestimmungen. Die Verwendung dieser Modelle unterliegt den bereitgestellten Lizenzbedingungen.

Optimierung von Modellen

Bestimmte Modelle unterstützen auch die serverlose Feinabstimmung. Für diese Modelle können Sie die Hosting-Feinabstimmung mit nutzungsbasierter Abrechnung nutzen, um die Modelle mithilfe der von Ihnen bereitgestellten Daten anzupassen. Weitere Informationen finden Sie in der Feinabstimmungsübersicht.

RAG mit Modellen, die als serverlose APIs bereitgestellt werden

In Azure KI Studio können Sie Vektorindizes und die Abruf-erweiterte Generierung (Retrieval Augmented Generation, RAG) verwenden. Sie können Modelle verwenden, die über serverlose APIs bereitgestellt werden können, um Einbettungen und Rückschlüsse basierend auf benutzerdefinierten Daten zu generieren. Diese Einbettungen und Rückschlüsse können dann Antworten generieren, die spezifisch für Ihren Anwendungsfall sind. Weitere Informationen finden Sie unter Erstellen und Nutzen von Vektorindizes in Azure KI Studio.

Regionale Verfügbarkeit von Angeboten und Modellen

Die nutzungsbasierte Bezahlung ist nur für Benutzer verfügbar, deren Azure-Abonnement zu einem Abrechnungskonto in einem Land gehört, in dem der Modellanbieter das Angebot verfügbar gemacht hat. Wenn das Angebot in der relevanten Region verfügbar ist, müssen die Benutzer über einen Hub oder ein Projekt in der Azure-Region verfügen, in der das Modell für die Bereitstellung oder Optimierung verfügbar ist. Ausführliche Informationen finden Sie unter Regionale Verfügbarkeit für Modelle an serverlosen API-Endpunkten | Azure KI Studio.

Inhaltssicherheit für Modelle, die über die serverlose APIs bereitgestellt werden

Für Sprachmodelle, die über serverlose APIs bereitgestellt werden, implementiert Azure KI eine Standardkonfiguration für Textmoderationsfilter von Azure KI Inhaltssicherheit, welche schädliche Inhalte wie Hass, Selbstverletzung, sexuelle und gewalttätige Inhalte entdecken. Weitere Informationen zur Inhaltsfilterung (Vorschau) finden Sie unter Schadenkategorien in Azure KI Inhaltssicherheit.

Tipp

Die Inhaltsfilterung (Vorschau) ist für bestimmte Modelltypen, die über serverlose APIs bereitgestellt werden, nicht verfügbar. Zu diesen Modelltypen gehören Einbettungsmodelle und Zeitreihenmodelle.

Die Inhaltsfilterung (Vorschau) erfolgt synchron, während der Dienst Prompts zur Generierung von Inhalten verarbeitet. Möglicherweise werden Sie gemäß den Azure KI Inhaltssicherheit-Preisen für diese Verwendung separat in Rechnung gestellt. Sie können die Inhaltsfilterung (Vorschau) für einzelne serverlose Endpunkte deaktivieren, entweder:

  • Zum Zeitpunkt der ersten Bereitstellung eines Sprachmodells
  • Später, indem Sie den Umschalter für die Inhaltsfilterung auf der Seite mit den Bereitstellungsdetails verwenden

Angenommen, Sie entscheiden sich für die Verwendung einer anderen API als der Azure KI Model Inference-API, um mit einem Modell zu arbeiten, das über eine serverlose API bereitgestellt wird. In einer solchen Situation ist die Inhaltsfilterung (Vorschau) nicht aktiviert, es sei denn, Sie implementieren sie separat mithilfe von Azure KI Inhaltssicherheit.

Erste Schritte mit Azure KI Inhaltssicherheit finden Sie im Schnellstart: Analysieren von Textinhalten. Wenn Sie beim Arbeiten mit Modellen, die über serverlose APIs bereitgestellt werden, keine Inhaltsfilterung (Vorschau) verwenden, besteht ein höheres Risiko, dass Benutzer schädlichen Inhalten ausgesetzt werden.

Netzwerkisolation für Modelle, die über serverlose APIs bereitgestellt werden

Verwaltete Computeressourcen für Modelle, die als serverlose APIs bereitgestellt werden, folgen der Flageinstellung für den öffentlichen Netzwerkzugriff des KI Studio Hub mit dem Projekt, in dem die Bereitstellung vorhanden ist. Um Ihre verwaltete Computeressource zu sichern, deaktivieren Sie das Flag für den öffentlichen Netzwerkzugriff auf Ihrem KI Studio-Hub. Sie können eingehende Kommunikation von einem Client zu Ihrer verwalteten Computeressource sichern, indem Sie einen privaten Endpunkt für den Hub verwenden.

So legen Sie das Flag für den öffentlichen Netzwerkzugriff für den KI Studio-Hub fest:

  • Öffnen Sie das Azure-Portal.
  • Suchen Sie nach der Ressourcengruppe, zu welcher der Hub gehört, und wählen Sie Ihren KI Studio-Hub aus den Ressourcen aus, die für diese Ressourcengruppe aufgeführt sind.
  • Wechseln Sie auf der Hubübersicht im linken Bereich zu Einstellungen>Netztechnologie.
  • Auf der Registerkarte Öffentlicher Zugriff können Sie Einstellungen für das Flag für den öffentlichen Netzwerkzugriff konfigurieren.
  • Speichern Sie die Änderungen. Es kann bis zu fünf Minuten dauern, bis Ihre Änderungen verteilt sind.

Begrenzungen

  • Wenn Sie einen KI Studio-Hub mit einer verwalteten Computeressource haben, die vor dem 11. Juli 2024 erstellt wurde, folgen verwaltete Computeressourcen, die zu Projekten in diesem Hub hinzugefügt wurden, nicht der Netzwerkkonfiguration des Hubs. Stattdessen müssen Sie eine neue verwaltete Computeressource für den Hub erstellen und neue serverlose API-Bereitstellungen im Projekt erstellen, damit die neuen Bereitstellungen der Netzwerkkonfiguration des Hubs folgen können.

  • Wenn Sie einen KI Studio-Hub mit MaaS-Bereitstellungen haben, die vor dem 11. Juli 2024 erstellt wurden, und Sie eine verwaltete Computeressource auf diesem Hub aktivieren, folgen die vorhandenen MaaS-Bereitstellungen nicht der Netzwerkkonfiguration des Hubs. Damit serverlose API-Bereitstellungen im Hub der Netzwerkkonfiguration des Hubs folgen können, müssen Sie die Bereitstellungen erneut erstellen.

  • Derzeit ist der Support für Azure OpenAI für Ihre Daten für MaaS-Bereitstellungen in privaten Hubs nicht verfügbar, da private Hubs das Flag für den öffentlichen Netzwerkzugriff deaktiviert haben.

  • Jede Netzwerkkonfigurationsänderung (z. B. das Aktivieren oder Deaktivieren des Flags für den öffentlichen Netzwerkzugriff) kann bis zu fünf Minuten dauern, bis sie verteilt ist.