AI och maskininlärning på Databricks

Den här artikeln beskriver de verktyg som Mosaic AI (tidigare Databricks Machine Learning) tillhandahåller för att hjälpa dig att skapa AI- och ML-system. Diagrammet visar hur olika produkter på Databricks-plattformen hjälper dig att implementera dina arbetsflöden från slutpunkt till slutpunkt för att skapa och distribuera AI- och ML-system

Maskininlärningsdiagram: Modellutveckling och distribution på Databricks

Generativ AI på Databricks

Mosaic AI förenar AI-livscykeln från datainsamling och förberedelse, till modellutveckling och LLMOps, till servering och övervakning. Följande funktioner är särskilt optimerade för att underlätta utvecklingen av generativa AI-program:

Vad är generativ AI?

Generativ AI är en typ av artificiell intelligens som fokuserar på datorers förmåga att använda modeller för att skapa innehåll som bilder, text, kod och syntetiska data.

Generativa AI-program bygger på generativa AI-modeller: stora språkmodeller (LLM) och grundmodeller.

  • LLM:er är djupinlärningsmodeller som använder och tränar på massiva datamängder för att utmärka sig i språkbearbetningsuppgifter. De skapar nya kombinationer av text som efterliknar naturligt språk baserat på deras träningsdata.
  • Generativa AI-modeller eller grundmodeller är stora ML-modeller som är förtränade med avsikten att de ska finjusteras för mer specifika språktolknings- och generationsuppgifter. Dessa modeller används för att urskilja mönster i indata.

När dessa modeller har slutfört sina inlärningsprocesser genererar de tillsammans statistiskt sannolika utdata när de uppmanas till det och de kan användas för att utföra olika uppgifter, inklusive:

  • Bildgenerering baserat på befintliga eller med stilen för en bild för att ändra eller skapa en ny.
  • Taluppgifter som transkription, översättning, fråge-/svarsgenerering och tolkning av avsikten eller innebörden av text.

Viktigt!

Även om många LLM:er eller andra generativa AI-modeller har skydd kan de fortfarande generera skadlig eller felaktig information.

Generativ AI har följande designmönster:

  • Prompt Engineering: Skapa specialiserade uppmaningar för att vägleda LLM-beteende
  • RAG (Retrieval Augmented Generation): Kombinera en LLM med extern kunskapshämtning
  • Finjustering: Anpassa en förtränad LLM till specifika datauppsättningar med domäner
  • Förträning: Träna en LLM från grunden

Maskininlärning på Databricks

Med Mosaic AI hanterar en enda plattform varje steg i ML-utveckling och distribution, från rådata till slutsatsdragningstabeller som sparar varje begäran och svar för en hanterad modell. Dataforskare, datatekniker, ML-tekniker och DevOps kan utföra sina jobb med samma uppsättning verktyg och en enda sanningskälla för data.

Mosaic AI förenar dataskiktet och ML-plattformen. Alla datatillgångar och artefakter, till exempel modeller och funktioner, kan identifieras och styras i en enda katalog. Genom att använda en enda plattform för data och modeller kan du spåra ursprung från rådata till produktionsmodellen. Inbyggd data- och modellövervakning sparar kvalitetsmått till tabeller som också lagras på plattformen, vilket gör det enklare att identifiera grundorsaken till modellprestandaproblem. Mer information om hur Databricks stöder hela ML-livscykeln och MLOps finns i MLOps-arbetsflöden på Azure Databricks och MLOps Stacks: modellutvecklingsprocess som kod.

Några av de viktigaste komponenterna i dataintelligensplattformen är:

Uppgifter Komponent
Styra och hantera data, funktioner, modeller och funktioner. Även identifiering, versionshantering och ursprung. Unity-katalog
Spåra ändringar av data, datakvalitet och modellförutsägelsekvalitet Lakehouse-övervakning, slutsatsdragningstabeller
Funktionsutveckling och hantering Funktionsutveckling och servering.
Inlärningsmodeller Mosaic AutoML, Databricks Notebooks
Spåra modellutveckling MLflow-spårning
Hantera anpassade modeller Mosaic AI-modellservering.
Skapa automatiserade arbetsflöden och produktionsklara ETL-pipelines Databricks-jobb
Git-integrering Databricks Git-mappar

Djupinlärning om Databricks

Det kan vara svårt att konfigurera infrastrukturen för djupinlärningsprogram. Databricks Runtime for Machine Learning tar hand om det åt dig, med kluster som har inbyggda kompatibla versioner av de vanligaste djupinlärningsbiblioteken som TensorFlow, PyTorch och Keras.

Databricks Runtime ML-kluster innehåller även förkonfigurerat GPU-stöd med drivrutiner och stödbibliotek. Det stöder också bibliotek som Ray för parallellisering av beräkningsbearbetning för skalning av ML-arbetsflöden och ML-program.

Databricks Runtime ML-kluster innehåller även förkonfigurerat GPU-stöd med drivrutiner och stödbibliotek. Med Mosaic AI Model Serving kan du skapa skalbara GPU-slutpunkter för djupinlärningsmodeller utan extra konfiguration.

För maskininlärningsprogram rekommenderar Databricks att du använder ett kluster som kör Databricks Runtime for Machine Learning. Se Skapa ett kluster med Databricks Runtime ML.

Information om hur du kommer igång med djupinlärning om Databricks finns i:

Nästa steg

Kom igång genom att läsa:

Ett rekommenderat MLOps-arbetsflöde för Databricks Mosaic AI finns i:

Mer information om viktiga AI-funktioner för Databricks Mosaic finns i: