Databricks Foundation Model-APIs

Dieser Artikel enthält eine Übersicht über die Foundation Model-APIs in Azure Databricks. Sie enthält Anforderungen für die Verwendung, unterstützte Modelle und Einschränkungen.

Was sind Databricks Foundation Model-APIs?

Mosaic AI Model Serving unterstützt jetzt Foundation Model-APIs, mit denen Sie auf moderne offene Modelle von einem Dienstendpunkt aus zugreifen und abfragen können. Mit Foundation Model-APIs können Sie schnell und einfach Anwendungen erstellen, die ein qualitativ hochwertiges generatives KI-Modell nutzen, ohne Ihre eigene Modellimplementierung aufrechtzuerhalten. Foundation Model-APIs ist ein Databricks Designated Service, was bedeutet, dass databricks Geos zum Verwalten der Datenhaltung beim Verarbeiten von Kundeninhalten verwendet wird.

Foundation Model-APIs sind in zwei Preismodi verfügbar:

  • Tokenbasierte Bezahlung: Dies ist die einfachste Möglichkeit für den Zugriff auf Databricks-Basismodelle. Sie wird für den Einstieg in die Verwendung von Basismodell-APIs empfohlen. Dieser Modus ist nicht für Anwendungen mit hohem Durchsatz oder leistungsfähige Produktionsworkloads ausgelegt.
  • Bereitgestellter Durchsatz: Dieser Modus wird für alle Produktionsworkloads empfohlen (insbesondere für Workloads, die einen hohen Durchsatz, Leistungsgarantien, optimierte Modelle oder zusätzliche Sicherheitsanforderungen erfordern). Endpunkte für bereitgestellten Durchsatz sind mit Compliancezertifizierungen wie HIPAA verfügbar.

Anleitungen zur Verwendung dieser beiden Modi und der unterstützten Modelle finden Sie unter Verwenden von Foundation Model-APIs.

Mit den Basismodell-APIs ist Folgendes möglich:

  • Eine generalisierte LLM abfrage, um die Gültigkeit eines Projekts zu überprüfen, bevor Sie weitere Ressourcen investieren.
  • Eine generalisierte LLM abfragen, um eine schnelle Machbarkeitsstudie für eine LLM-basierte Anwendung zu erstellen, bevor Sie in Schulungen investieren und ein benutzerdefiniertes Modell bereitstellen.
  • Ein Foundation-Modell zusammen mit einer Vektordatenbank verwenden, um einen Chatbot mithilfe der erweiterten Abrufgenerierung (Retrieval Augmented Generation, RAG) zu erstellen.
  • Proprietäre Modelle durch offene Alternativen ersetzen, um Kosten und Leistung zu optimieren.
  • Sie können LLMs effizient vergleichen, um herauszufinden, welches der beste Kandidat für Ihren Anwendungsfall ist, oder ein Produktionsmodell gegen ein leistungsfähigeres austauschen.
  • Erstellen Sie eine LLM-Anwendung für die Entwicklung oder die Produktion auf der Grundlage einer skalierbaren, SLA-gesicherten LLM-Serving-Lösung, die Ihre Produktionsverkehrsspitzen bewältigen kann.

Anforderungen

Hinweis

Informationen zu Workloads für bereitgestellten Durchsatz, die das DBRX-Basismodell verwenden, finden Sie im Abschnitt zur regionalen Verfügbarkeit im Artikel zu den Einschränkungen der Basismodell-APIs.

Verwenden Sie Foundation Model APIs

Es stehen mehrere Optionen zur Verwendung der Basismodell-APIs zur Verfügung.

Die APIs sind mit OpenAI kompatibel, sodass Sie für Abfragen den OpenAI-Client verwenden können. Sie können auch die Benutzeroberfläche, das Python SDK für die Foundation Models-APIs, das Bereitstellungs-SDK von MLflow oder die REST-API zum Abfragen unterstützter Modelle verwenden. Databricks empfiehlt die Verwendung des Open AI Client SDK oder API für erweiterte Interaktionen und die Benutzeroberfläche zum Testen des Features.

Beispiele für bewertungsbeispiele finden Sie unter "Abfragegenerive KI-Modelle ".

Pay-per-Token Foundation Model-APIs

Sie können über Ihren Azure Databricks-Arbeitsbereich auf die Modelle für tokenbasierte Bezahlung zugreifen, die für die ersten Schritte empfohlen werden. Um auf sie in Ihrem Arbeitsbereich zuzugreifen, navigieren Sie in der linken Randleiste zur Registerkarte Bereitstellen. Die Foundation-Modell-APIs befinden sich oben in der Endpunktlistenansicht.

Liste der Bereitstellungsendpunkte

In der folgenden Tabelle werden die unterstützten Modelle für die tokenbasierte Bezahlung zusammengefasst. Weitere Modellinformationen finden Sie unter Unterstützte Modelle für Pay-per-Token.

Wenn Sie diese Modelle testen und mit ihnen chatten möchten, können Sie dazu den AI Playground nutzen. Siehe Chatten mit LLMs und Prototypen-GenAI-Apps im KI-Playground.

Wichtig

  • Ab dem 23. Juli 2024 ersetzt Meta-Llama-3.1-70B-Instruct die Unterstützung für Meta-Llama-3-70B-Instruct in Pay-per-Token-Endpunkten von Foundation Model-APIs.
  • Meta-Llama-3.1-405B-Instruct ist das größte offen verfügbare und hochmoderne LLM-Modell (Large Language Model, großes Sprachmodell), das von Meta erstellt und trainiert und von Azure Machine Learning mithilfe des AzureML-Modellkatalogs verteilt wird.
  • Die folgenden Modelle werden jetzt eingestellt. Informationen zu empfohlenen Ersatzmodellen finden Sie unter Eingestellte Modelle.
    • Llama 2 70B Chat
    • MPT 7B Instruct
    • MPT 30B Instruct
Modell Aufgabentyp Endpunkt Hinweise
GTE Large (Englisch) Einbettung databricks-gte-large-en Generiert keine normalisierten Einbettungen.
Meta-Llama-3.1-70B-Instruct Chat databricks-meta-llama-3-1-70b-instruct
Meta-Llama-3.1-405B-Instruct* Chat databricks-meta-llama-3-1-405b-instruct Weitere Informationen zur regionalen Verfügbarkeit finden Sie im Artikel zu den Einschränkungen der Basismodell-APIs.
DBRX Instruct Chat databricks-dbrx-instruct Weitere Informationen zur regionalen Verfügbarkeit finden Sie im Artikel zu den Einschränkungen der Basismodell-APIs.
Mixtral-8x7B Instruct Chat databricks-mixtral-8x7b-instruct Weitere Informationen zur regionalen Verfügbarkeit finden Sie im Artikel zu den Einschränkungen der Basismodell-APIs.
BGE Large (Englisch) Einbettung databricks-bge-large-en Weitere Informationen zur regionalen Verfügbarkeit finden Sie im Artikel zu den Einschränkungen der Basismodell-APIs.

* Wenden Sie sich an Ihr Databricks-Kontoteam, wenn bei Verwendung dieses Modells Endpunktfehler oder Stabilisierungsfehler auftreten.

Foundation Model-APIs mit bereitgestelltem Durchsatz

Der bereitgestellte Durchsatz bietet Endpunkte mit optimierten Rückschlüssen für Basismodellworkloads, die Leistungsgarantien erfordern. Databricks empfiehlt den bereitgestellten Durchsatz für Produktionsworkloads. Eine Schrittanleitung zum Bereitstellen von Foundation Model-APIs im Modus mit bereitgestelltem Durchsatz finden Sie unter Bereitstellen von Foundation Model-APIs mit bereitgestelltem Durchsatz.

Die Unterstützung des bereitgestellten Durchsatzes umfasst Folgendes:

  • Basismodelle aller Größen (z. B. DBRX Base): Auf Basismodelle kann über den Databricks Marketplace zugegriffen werden, oder Sie können sie alternativ von Hugging Face oder einer anderen externen Quelle herunterladen und im Unity Catalog registrieren. Letzteres funktioniert mit jeder optimierten Variante der unterstützten Modelle, unabhängig von der verwendeten Optimierungsmethode.
  • Optimierte Varianten von Basismodellen, z. B. LlamaGuard-7B. Dazu gehören Modelle, die für geschützte Daten optimiert sind.
  • Vollständig benutzerdefinierte Gewichtungen und Tokenizer, z. B. von Grund auf neu trainierte oder fortgesetzte vortrainierte oder andere Variationen mithilfe der Basismodellarchitektur (z. B. CodeLlama).

In der folgenden Tabelle sind die unterstützten Modellarchitekturen für den bereitgestellten Durchsatz zusammengefasst.

Wichtig

Meta Llama 3.2 ist unter der LLAMA 3.2 Community License, Copyright © Meta Platforms, Inc. lizenziert. Alle Rechte vorbehalten. Kunden sind dafür verantwortlich, ihre Einhaltung der Bedingungen dieser Lizenz und der Richtlinie zur zulässigen Nutzung von Llama 3.2 sicherzustellen.

Meta Llama 3.1 sind unter der LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. lizenziert. Alle Rechte vorbehalten. Kunden sind dafür verantwortlich, die Einhaltung anwendbarer Modelllizenzen sicherzustellen.

Modellarchitektur Aufgabentypen Hinweise
Meta Llama 3.2 3B Chat oder Vervollständigung
Meta Llama 3.2 1B Chat oder Vervollständigung
Meta Llama 3.1 Chat oder Vervollständigung
Meta Llama 3 Chat oder Vervollständigung
Meta Llama 2 Chat oder Vervollständigung
DBRX Chat oder Vervollständigung Weitere Informationen zur regionalen Verfügbarkeit finden Sie im Artikel zu den Einschränkungen der Basismodell-APIs.
Mistral Chat oder Vervollständigung
Mixtral Chat oder Vervollständigung
MPT Chat oder Vervollständigung
GTE v1.5 (Englisch) Einbettung Generiert keine normalisierten Einbettungen.
BGE 1.5 (Englisch) Einbettung

Begrenzungen

Siehe Foundation Model-APIs-Grenzwerte.

Zusätzliche Ressourcen