Udostępnianie modeli za pomocą usługi Azure Databricks

W tym artykule opisano usługę modelowania mozaiki sztucznej inteligencji, w tym jej zalety i ograniczenia.

Co to jest obsługa modelu?

Usługa Mosaic AI Model Serving udostępnia ujednolicony interfejs do wdrażania modeli sztucznej inteligencji, zarządzania nimi i wykonywania zapytań. Każdy model, który służy, jest dostępny jako interfejs API REST, który można zintegrować z aplikacją internetową lub kliencką.

Obsługa modeli zapewnia usługę o wysokiej dostępności i małym opóźnieniu na potrzeby wdrażania modeli. Usługa automatycznie skaluje w górę lub w dół, aby sprostać zmianom zapotrzebowania, oszczędzając koszty infrastruktury podczas optymalizowania wydajności opóźnień. Ta funkcja korzysta z bezserwerowych obliczeń. Aby uzyskać więcej informacji, zobacz stronę Cennik obsługi modelu.

Obsługa modelu obsługuje obsługę:

  • Modele niestandardowe. Są to modele języka Python spakowane w formacie MLflow. Można je zarejestrować w wykazie aparatu Unity lub w rejestrze modeli obszaru roboczego. Przykłady obejmują modele przekształcania twarzy scikit-learn, XGBoost, PyTorch i Hugging Face transformer.
  • Najnowocześniejsze otwarte modele udostępniane przez interfejsy API modelu foundation. Te modele są nadzorowanymi architekturami modeli podstawowych, które obsługują zoptymalizowane wnioskowanie. Modele podstawowe, takie jak Llama-2-70B-chat, BGE-Large i Mistral-7B są dostępne do natychmiastowego użycia z cenami płatności za token, a obciążenia wymagające gwarancji wydajności i dostosowane warianty modelu można wdrożyć z aprowizowaną przepływnością.
  • Modele zewnętrzne. Są to modele generacyjne sztucznej inteligencji, które są hostowane poza platformą Databricks. Punkty końcowe obsługujące modele zewnętrzne mogą być centralnie zarządzane, a klienci mogą ustanowić limity szybkości i kontrolę dostępu dla nich. Przykłady obejmują modele, takie jak GPT-4 openAI, Claude Anthropic i inne.

Uwaga

Możesz wchodzić w interakcje z obsługiwanymi dużymi modelami językowymi przy użyciu narzędzia AI Playground. Plac zabaw dla sztucznej inteligencji to środowisko przypominające czat, w którym można testować, monitować i porównywać maszyny LLM. Ta funkcja jest dostępna w obszarze roboczym usługi Azure Databricks.

Obsługa modelu oferuje ujednolicony interfejs API REST i interfejs API wdrażania MLflow dla operacji CRUD i wykonywania zapytań dotyczących zadań. Ponadto zapewnia jeden interfejs użytkownika do zarządzania wszystkimi modelami i odpowiednimi punktami końcowymi obsługującymi. Możesz również uzyskiwać dostęp do modeli bezpośrednio z bazy danych SQL przy użyciu funkcji sztucznej inteligencji w celu łatwej integracji z przepływami pracy analizy.

Aby zapoznać się z samouczkiem wprowadzającym dotyczącym obsługi modeli niestandardowych w usłudze Azure Databricks, zobacz Samouczek: wdrażanie i wykonywanie zapytań dotyczących modelu niestandardowego.

Aby zapoznać się z samouczkiem wprowadzającym dotyczącym wykonywania zapytań względem modelu podstawowego w usłudze Databricks, zobacz Wprowadzenie do wykonywania zapytań dotyczących maszyn LLM w usłudze Databricks.

Dlaczego warto używać funkcji obsługi modelu?

  • Wdrażanie i wykonywanie zapytań o dowolne modele: obsługa modelu udostępnia ujednolicony interfejs, który umożliwia zarządzanie wszystkimi modelami w jednej lokalizacji i wykonywanie zapytań względem nich za pomocą jednego interfejsu API, niezależnie od tego, czy są hostowane w usłudze Databricks, czy zewnętrznie. Takie podejście upraszcza proces eksperymentowania, dostosowywania i wdrażania modeli w środowisku produkcyjnym w różnych chmurach i dostawcach.
  • Bezpieczne dostosowywanie modeli przy użyciu danych prywatnych: oparta na platformie analizy danych funkcja Model Serving upraszcza integrację funkcji i osadzania w modelach za pomocą natywnej integracji z usługą Databricks Feature Store i mozaikowym wyszukiwaniem wektorów sztucznej inteligencji. Aby uzyskać jeszcze większą dokładność i kontekstowe zrozumienie, modele można dostosować do zastrzeżonych danych i bez wysiłku wdrażać w obsłudze modeli.
  • Zarządzanie i monitorowanie modeli: interfejs użytkownika obsługujący umożliwia centralne zarządzanie wszystkimi punktami końcowymi modelu w jednym miejscu, w tym tymi, które są hostowane zewnętrznie. Możesz zarządzać uprawnieniami, śledzić i ustawiać limity użycia oraz monitorować jakość wszystkich typów modeli. Dzięki temu można zdemokratyzować dostęp do usługi SaaS i otworzyć maszyny LLM w organizacji, zapewniając jednocześnie odpowiednie zabezpieczenia.
  • Obniżenie kosztów dzięki zoptymalizowanemu wnioskowaniu i szybkiemu skalowaniu: usługa Databricks zaimplementowała szereg optymalizacji, aby zapewnić najlepszą przepływność i opóźnienie dla dużych modeli. Punkty końcowe są automatycznie skalowane w górę lub w dół w celu spełnienia zmian zapotrzebowania, co pozwala zaoszczędzić koszty infrastruktury podczas optymalizowania wydajności opóźnień.

Uwaga

W przypadku obciążeń, które są wrażliwe na opóźnienia lub wymagają wysokich zapytań na sekundę, usługa Model Serving oferuje optymalizację tras w punktach końcowych obsługujących niestandardowy model, zobacz Konfigurowanie optymalizacji tras w punktach końcowych obsługujących obsługę.

  • Zapewnienie niezawodności i zabezpieczeń do obsługi modeli: obsługa modeli została zaprojektowana pod kątem wysokiej dostępności, użycia produkcyjnego o małych opóźnieniach i może obsługiwać ponad 25 tys. zapytań na sekundę z opóźnieniem mniejszym niż 50 ms. Obciążenia obsługujące są chronione przez wiele warstw zabezpieczeń, zapewniając bezpieczne i niezawodne środowisko nawet dla najbardziej wrażliwych zadań.

Uwaga

Obsługa modelu nie zapewnia poprawek zabezpieczeń istniejących obrazów modelu ze względu na ryzyko destabilizacji wdrożeń produkcyjnych. Nowy obraz modelu utworzony na podstawie nowej wersji modelu będzie zawierać najnowsze poprawki. Skontaktuj się z zespołem kont usługi Databricks, aby uzyskać więcej informacji.

Wymagania

Włączanie obsługi modelu dla obszaru roboczego

Do włączenia obsługi modelu w obszarze roboczym nie są wymagane żadne dodatkowe kroki.

Ograniczenia i dostępność regionów

Obsługa modelu mozaiki sztucznej inteligencji nakłada domyślne limity, aby zapewnić niezawodną wydajność. Zobacz Limity i regiony obsługi modeli. Jeśli masz opinię na temat tych limitów lub punktu końcowego w nieobsługiwanym regionie, skontaktuj się z zespołem konta usługi Databricks.

Ochrona danych w usłudze modelowania

Usługa Databricks poważnie traktuje zabezpieczenia danych. Usługa Databricks rozumie znaczenie analizowanych danych przy użyciu usługi Mosaic AI Model Serving i implementuje następujące mechanizmy kontroli zabezpieczeń w celu ochrony danych.

  • Każde żądanie klienta do obsługi modelu jest logicznie izolowane, uwierzytelniane i autoryzowane.
  • Usługa mozaikowego modelu sztucznej inteligencji szyfruje wszystkie dane magazynowane (AES-256) i podczas przesyłania (TLS 1.2+).

W przypadku wszystkich płatnych kont usługa Mosaic AI Model Serving nie używa danych wejściowych użytkownika przesłanych do usługi lub danych wyjściowych z usługi w celu trenowania modeli ani ulepszania żadnych usług usługi Databricks.

W przypadku interfejsów API modelu usługi Databricks Foundation w ramach świadczenia usługi usługa Databricks może tymczasowo przetwarzać i przechowywać dane wejściowe i wyjściowe w celu zapobiegania, wykrywania i ograniczania nadużyć lub szkodliwych zastosowań. Dane wejściowe i wyjściowe są odizolowane od innych klientów, przechowywane w tym samym regionie co obszar roboczy przez maksymalnie trzydzieści (30) dni i dostępne tylko do wykrywania i reagowania na problemy związane z bezpieczeństwem lub nadużyciami.

Dodatkowe zasoby