AI och maskininlärning på Databricks

Artikel
10/31/2024

Den här artikeln beskriver de verktyg som Mosaic AI (tidigare Databricks Machine Learning) tillhandahåller för att hjälpa dig att skapa AI- och ML-system. Diagrammet visar hur olika produkter på Databricks-plattformen hjälper dig att implementera dina arbetsflöden från slutpunkt till slutpunkt för att skapa och distribuera AI- och ML-system

Maskininlärningsdiagram: Modellutveckling och distribution på Databricks

Generativ AI på Databricks

Mosaic AI förenar AI-livscykeln från datainsamling och förberedelse, till modellutveckling och LLMOps, till servering och övervakning. Följande funktioner är särskilt optimerade för att underlätta utvecklingen av generativa AI-program:

Unity Catalog för styrning, identifiering, versionshantering och åtkomstkontroll för data, funktioner, modeller och funktioner.
MLflow för modellutvecklingsspårning.
Mosaic AI Model Serving för distribution av LLM:er. Du kan konfigurera en modell som betjänar slutpunkten specifikt för åtkomst till generativa AI-modeller:
- Toppmoderna öppna LLM:er med foundation model-API:er.
- Modeller från tredje part som finns utanför Databricks. Se Externa modeller i Mosaic AI Model Serving.
Mosaic AI Vector Search innehåller en frågebar vektordatabas som lagrar inbäddningsvektorer och kan konfigureras för att automatiskt synkronisera till din kunskapsbas.
Lakehouse Monitoring for data monitoring and tracking model prediction quality and drift using automatic payload logging with inference tables .Lakehouse Monitoring for data monitoring and tracking model prediction quality and drift using automatic payload logging with inference tables (Lakehouse Monitoring for data monitoring and tracking model prediction quality and drift using automatic payload logging with inference tables).
AI Playground för att testa generativa AI-modeller från din Databricks-arbetsyta. Du kan fråga, jämföra och justera inställningar som systemprompt och slutsatsdragningsparametrar.
Mosaic AI Model Training (tidigare Foundation Model Training) för att anpassa en grundmodell med dina egna data för att optimera dess prestanda för ditt specifika program.
Mosaic AI Agent Framework för att skapa och distribuera agenter av produktionskvalitet som RAG-program (Retrieval Augmented Generation).
Mosaic AI Agent Evaluation för utvärdering av kvalitet, kostnad och svarstid för generativa AI-program, inklusive RAG-program och kedjor.

Vad är generativ AI?

Generativ AI är en typ av artificiell intelligens som fokuserar på datorers förmåga att använda modeller för att skapa innehåll som bilder, text, kod och syntetiska data.

Generativa AI-program bygger på generativa AI-modeller: stora språkmodeller (LLM) och grundmodeller.

LLM:er är djupinlärningsmodeller som använder och tränar på massiva datamängder för att utmärka sig i språkbearbetningsuppgifter. De skapar nya kombinationer av text som efterliknar naturligt språk baserat på deras träningsdata.
Generativa AI-modeller eller grundmodeller är stora ML-modeller som är förtränade med avsikten att de ska finjusteras för mer specifika språktolknings- och generationsuppgifter. Dessa modeller används för att urskilja mönster i indata.

När dessa modeller har slutfört sina inlärningsprocesser genererar de tillsammans statistiskt sannolika utdata när de uppmanas till det och de kan användas för att utföra olika uppgifter, inklusive:

Bildgenerering baserat på befintliga eller med stilen för en bild för att ändra eller skapa en ny.
Taluppgifter som transkription, översättning, fråge-/svarsgenerering och tolkning av avsikten eller innebörden av text.

Viktigt!

Även om många LLM:er eller andra generativa AI-modeller har skydd kan de fortfarande generera skadlig eller felaktig information.

Generativ AI har följande designmönster:

Prompt Engineering: Skapa specialiserade uppmaningar för att vägleda LLM-beteende
RAG (Retrieval Augmented Generation): Kombinera en LLM med extern kunskapshämtning
Finjustering: Anpassa en förtränad LLM till specifika datauppsättningar med domäner
Förträning: Träna en LLM från grunden

Maskininlärning på Databricks

Med Mosaic AI hanterar en enda plattform varje steg i ML-utveckling och distribution, från rådata till slutsatsdragningstabeller som sparar varje begäran och svar för en hanterad modell. Dataforskare, datatekniker, ML-tekniker och DevOps kan utföra sina jobb med samma uppsättning verktyg och en enda sanningskälla för data.

Mosaic AI förenar dataskiktet och ML-plattformen. Alla datatillgångar och artefakter, till exempel modeller och funktioner, kan identifieras och styras i en enda katalog. Genom att använda en enda plattform för data och modeller kan du spåra ursprung från rådata till produktionsmodellen. Inbyggd data- och modellövervakning sparar kvalitetsmått till tabeller som också lagras på plattformen, vilket gör det enklare att identifiera grundorsaken till modellprestandaproblem. Mer information om hur Databricks stöder hela ML-livscykeln och MLOps finns i MLOps-arbetsflöden på Azure Databricks och MLOps Stacks: modellutvecklingsprocess som kod.

Några av de viktigaste komponenterna i dataintelligensplattformen är:

Uppgifter	Komponent
Styra och hantera data, funktioner, modeller och funktioner. Även identifiering, versionshantering och ursprung.	Unity-katalog
Spåra ändringar av data, datakvalitet och modellförutsägelsekvalitet	Lakehouse-övervakning, slutsatsdragningstabeller
Funktionsutveckling och hantering	Funktionsutveckling och servering.
Inlärningsmodeller	Mosaic AutoML, Databricks Notebooks
Spåra modellutveckling	MLflow-spårning
Hantera anpassade modeller	Mosaic AI-modellservering.
Skapa automatiserade arbetsflöden och produktionsklara ETL-pipelines	Databricks-jobb
Git-integrering	Databricks Git-mappar

Djupinlärning om Databricks

Det kan vara svårt att konfigurera infrastrukturen för djupinlärningsprogram. Databricks Runtime for Machine Learning tar hand om det åt dig, med kluster som har inbyggda kompatibla versioner av de vanligaste djupinlärningsbiblioteken som TensorFlow, PyTorch och Keras.

Databricks Runtime ML-kluster innehåller även förkonfigurerat GPU-stöd med drivrutiner och stödbibliotek. Det stöder också bibliotek som Ray för parallellisering av beräkningsbearbetning för skalning av ML-arbetsflöden och ML-program.

Databricks Runtime ML-kluster innehåller även förkonfigurerat GPU-stöd med drivrutiner och stödbibliotek. Med Mosaic AI Model Serving kan du skapa skalbara GPU-slutpunkter för djupinlärningsmodeller utan extra konfiguration.

För maskininlärningsprogram rekommenderar Databricks att du använder ett kluster som kör Databricks Runtime for Machine Learning. Se Skapa ett kluster med Databricks Runtime ML.

Information om hur du kommer igång med djupinlärning om Databricks finns i:

Nästa steg

Kom igång genom att läsa:

Självstudier: Kom igång med AI och maskininlärning

Ett rekommenderat MLOps-arbetsflöde för Databricks Mosaic AI finns i:

MLOps-arbetsflöden på Azure Databricks

Mer information om viktiga AI-funktioner för Databricks Mosaic finns i:

Dela via