Interfejsy API podstawowych modeli usługi Databricks

Artykuł
10/02/2024

Ten artykuł zawiera omówienie interfejsów API modelu podstawowego w usłudze Azure Databricks. Zawiera wymagania dotyczące użycia, obsługiwanych modeli i ograniczeń.

Co to są interfejsy API modelu usługi Databricks Foundation?

Usługa Mosaic AI Model Serving obsługuje teraz interfejsy API modelu foundation, które umożliwiają uzyskiwanie dostępu do najnowocześniejszego otwartego modelu i wykonywanie zapytań o nie z poziomu obsługiwanego punktu końcowego. Za pomocą interfejsów API modelu Foundation można szybko i łatwo tworzyć aplikacje korzystające z wysokiej jakości modelu generowania sztucznej inteligencji bez konieczności utrzymywania własnego wdrożenia modelu.

Interfejsy API modelu foundation są dostępne w dwóch trybach cenowych:

Płatność za token: jest to najprostszy sposób na rozpoczęcie uzyskiwania dostępu do modeli podstawowych w usłudze Databricks i zaleca się rozpoczęcie podróży za pomocą interfejsów API modelu Foundation. Ten tryb nie jest przeznaczony dla aplikacji o wysokiej przepływności ani wydajnych obciążeń produkcyjnych.
Aprowizowana przepływność: ten tryb jest zalecany dla wszystkich obciążeń produkcyjnych, zwłaszcza tych, które wymagają wysokiej przepływności, gwarancji wydajności, dostrojonych modeli lub mają dodatkowe wymagania dotyczące zabezpieczeń. Aprowizowanie punktów końcowych przepływności jest dostępne z certyfikatami zgodności, takimi jak HIPAA.

Aby uzyskać wskazówki dotyczące korzystania z tych dwóch trybów i obsługiwanych modeli, zobacz Use Foundation Model APIs (Korzystanie z interfejsów API modelu foundation).

Za pomocą interfejsów API modelu foundation można wykonywać następujące czynności:

Wykonaj zapytanie względem uogólnionego modułu LLM, aby zweryfikować ważność projektu przed zainwestowaniem większej ilości zasobów.
Wykonaj zapytanie względem uogólnionego modułu LLM, aby utworzyć szybką weryfikację koncepcji aplikacji opartej na usłudze LLM przed zainwestowaniem w trenowanie i wdrażanie modelu niestandardowego.
Użyj modelu podstawowego wraz z bazą danych wektorów, aby utworzyć czatbota przy użyciu rozszerzonej generacji pobierania (RAG).
Zastąp zastrzeżone modele otwartymi alternatywami, aby zoptymalizować koszt i wydajność.
Efektywnie porównaj moduły LLM, aby sprawdzić, który z nich jest najlepszym kandydatem do użycia, lub zamienić model produkcyjny z lepszym rozwiązaniem.
Utwórz aplikację LLM na potrzeby programowania lub produkcji na podstawie skalowalnego, opartego na umowie SLA rozwiązania obsługującego usługę LLM, które może obsługiwać wzrost ruchu produkcyjnego.

Wymagania

Token interfejsu API usługi Databricks do uwierzytelniania żądań punktów końcowych.
Obliczenia bezserwerowe (w przypadku modeli aprowizowanej przepływności).
Obszar roboczy w obsługiwanym regionie:
- Regiony płatności za token.
- Aprowizowanie regionów przepływności.

Uwaga

Aby uzyskać informacje na temat aprowizowania obciążeń przepływności korzystających z modelu podstawowego DBRX, zobacz Limity interfejsów API modelu foundation dla dostępności regionów .

Korzystanie z interfejsów API modelu foundation

Istnieje wiele opcji używania interfejsów API modelu foundation.

Interfejsy API są zgodne z interfejsem OpenAI, więc do wykonywania zapytań można użyć klienta OpenAI. Możesz również użyć interfejsu użytkownika, interfejsu API modeli podstawowych zestawu SDK języka Python, zestawu SDK wdrożeń platformy MLflow lub interfejsu API REST do wykonywania zapytań dotyczących obsługiwanych modeli. Usługa Databricks zaleca korzystanie z zestawu SDK klienta openAI lub interfejsu API na potrzeby interakcji rozszerzonych oraz interfejsu użytkownika do wypróbowanie tej funkcji.

Zobacz Tworzenie zapytań dotyczących modeli podstawowych i modeli zewnętrznych, aby zapoznać się z przykładami oceniania.

Interfejsy API modelu modelu płatności za token platformy Azure

Modele płatności za tokeny są dostępne w obszarze roboczym usługi Azure Databricks i są zalecane do rozpoczęcia pracy. Aby uzyskać dostęp do nich w obszarze roboczym, przejdź do karty Obsługa na pasku bocznym po lewej stronie. Interfejsy API modelu foundation znajdują się w górnej części widoku listy Punkty końcowe.

Lista punktów końcowych obsługujących

W poniższej tabeli przedstawiono podsumowanie obsługiwanych modeli płatności za token. Aby uzyskać dodatkowe informacje o modelu, zobacz Obsługiwane modele dla tokenu płatności za token .

Jeśli chcesz przetestować te modele i porozmawiać z nimi, możesz to zrobić przy użyciu narzędzia AI Playground. Zobacz Chat with LLMs and prototype GenAI apps using AI Playground (Czat z modułami LLM i prototypowymi aplikacjami GenAI korzystającymi ze środowiska sztucznej inteligencji).

Ważne

Od 23 lipca 2024 r. meta-Llama-3.1-70B-Instruct zastępuje obsługę punktów końcowych meta-Llama-3-70B-Instruct w interfejsach API modelu foundation pay-per-token.
Meta-Llama-3.1-405B-Instruct to największy otwarty dostępny najnowocześniejsze model dużego języka, utworzony i wyszkolony przez meta i dystrybuowany przez usługę Azure Machine Learning przy użyciu wykazu modeli AzureML.
Model czatu Llama 2 70B jest planowany na emeryturę. Po 30 października 2024 r. ten model nie będzie już obsługiwany.
Modele MPT 7B Poinstruuj i MPT 30B Poinstruuj są teraz wycofane. Zobacz Wycofane modele , aby zapoznać się z zalecanymi modelami zastępczymi.

Model	Typ zadania	Punkt końcowy	Uwagi
GTE Large (angielski)	Osadzanie	`databricks-gte-large-en`
Meta-Llama-3.1-70B-Poinstruowanie	Czat	`databricks-meta-llama-3-1-70b-instruct`
Meta-Llama-2-70B-Chat	Czat	`databricks-llama-2-70b-chat`	Zobacz Podstawowe limity interfejsów API modelu, aby uzyskać dostępność regionów .
Meta-Llama-3.1-405B-Poinstruowanie*	Czat	`databricks-meta-llama-3-1-405b-instruct`	Zobacz Podstawowe limity interfejsów API modelu, aby uzyskać dostępność regionów .
DBRX Poinstruowanie	Czat	`databricks-dbrx-instruct`	Zobacz Podstawowe limity interfejsów API modelu, aby uzyskać dostępność regionów .
Mixtral-8x7B Poinstruowanie	Czat	`databricks-mixtral-8x7b-instruct`	Zobacz Podstawowe limity interfejsów API modelu, aby uzyskać dostępność regionów .
Duży BGE (angielski)	Osadzanie	`databricks-bge-large-en`	Zobacz Podstawowe limity interfejsów API modelu, aby uzyskać dostępność regionów .

* Skontaktuj się z zespołem konta usługi Databricks, jeśli wystąpią błędy punktu końcowego lub błędy stabilizacji podczas korzystania z tego modelu.

Aby uzyskać wskazówki dotyczące wykonywania zapytań względem interfejsów API modelu foundation, zobacz Tworzenie zapytań dotyczących modeli modeli i modeli zewnętrznych.
Zobacz Dokumentacja interfejsu API REST modelu foundation, aby uzyskać wymagane parametry i składnię.

Aprowizowane interfejsy API modelu podstawowego przepływności

Aprowizowana przepływność zapewnia punkty końcowe ze zoptymalizowanym wnioskowaniem dla obciążeń modelu podstawowego, które wymagają gwarancji wydajności. Usługa Databricks zaleca aprowizowaną przepływność dla obciążeń produkcyjnych. Zobacz Aprowizowanie interfejsów API modelu przepływności foundation, aby zapoznać się z przewodnikiem krok po kroku dotyczącym wdrażania interfejsów API modelu foundation w trybie aprowizacji.

Obsługa aprowizowanej przepływności obejmuje:

Podstawowe modele wszystkich rozmiarów, takie jak DBRX Base. Dostęp do modeli bazowych można uzyskać za pomocą witryny Databricks Marketplace lub możesz też pobrać je z witryny Hugging Face lub innego źródła zewnętrznego i zarejestrować je w wykazie aparatu Unity. Drugie podejście działa z dowolnym dostosowanym wariantem obsługiwanych modeli, niezależnie od zastosowanej metody dostrajania.
Dostosowane warianty modeli bazowych, takie jak LlamaGuard-7B. Obejmuje to modele, które są dostosowane do zastrzeżonych danych.
W pełni niestandardowe wagi i tokenizatory, takie jak te trenowane od podstaw lub ciągłe wstępnie wytrenowane lub inne odmiany przy użyciu architektury modelu podstawowego (takich jak CodeLlama, Yi-34B-Chat lub SOLAR-10.7B).

Poniższa tabela zawiera podsumowanie obsługiwanych architektur modelu dla aprowizowanej przepływności.

Ważne

Meta Llama 3.2 jest licencjonowany na licencję społeczności LLAMA 3.2, Copyright © Meta Platform, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z warunkami niniejszej licencji oraz zasadami dopuszczalnego użytkowania Llama 3.2.

Meta Llama 3.1 są licencjonowane na licencję społeczności LLAMA 3.1, Copyright © Meta Platform, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z odpowiednimi licencjami modelu.

Architektura modelu	Typy zadań	Uwagi
Meta Llama 3.2 3B	Czat lub ukończenie
Meta Llama 3.2 1B	Czat lub ukończenie
Meta Llama 3.1	Czat lub ukończenie
Meta Llama 3	Czat lub ukończenie
Meta Llama 2	Czat lub ukończenie
DBRX	Czat lub ukończenie	Zobacz Podstawowe limity interfejsów API modelu, aby uzyskać dostępność regionów .
Mistral	Czat lub ukończenie
Mixtral	Czat lub ukończenie
MPT	Czat lub ukończenie
GTE v1.5 (angielski)	Osadzanie
BGE v1.5 (angielski)	Osadzanie

Ograniczenia

Zobacz Limity i regiony obsługi modeli.

Udostępnij za pośrednictwem