IA e machine learning in Databricks

Questo articolo descrive gli strumenti forniti da Mosaic AI (già Databricks Machine Learning) per facilitare la creazione di sistemi di intelligenza artificiale e Machine Learning. Il diagramma illustra in che modo i vari prodotti della piattaforma Databricks consentono di implementare i flussi di lavoro end-to-end per compilare e distribuire sistemi di intelligenza artificiale e Machine Learning

Diagramma di Machine Learning: Sviluppo e distribuzione di modelli in Databricks

Intelligenza artificiale generativa in Databricks

Mosaic AI unifica il ciclo di vita dell’intelligenza artificiale dalla raccolta e dalla preparazione dei dati, allo sviluppo di modelli e LLMOps, al servizio e al monitoraggio. Le funzionalità seguenti sono ottimizzate in modo specifico per facilitare lo sviluppo di applicazioni di intelligenza artificiale generative:

  • Catalogo unity per governance, individuazione, controllo delle versioni e controllo di accesso per dati, funzionalità, modelli e funzioni.
  • MLflow per il rilevamento dello sviluppo di modelli.
  • Mosaic AI Model Serve per la distribuzione di LLMs. È possibile configurare un modello che gestisce l’endpoint in modo specifico per l’accesso ai modelli di intelligenza artificiale generativi:
  • Mosaic AI Vector Search fornisce un database vettoriale queryable che archivia i vettori di incorporamento e può essere configurato per la sincronizzazione automatica con la knowledge base.
  • Monitoraggio di Lakehouse per il monitoraggio dei dati e il monitoraggio della qualità della stima del modello e deriva usando la registrazione automatica del payload con tabelle di inferenza.
  • AI Playground per testare modelli di intelligenza artificiale generati dall’area di lavoro di Databricks. È possibile richiedere, confrontare e modificare le impostazioni, ad esempio i parametri di richiesta di sistema e inferenza.
  • Mosaic AI Model Training (in precedenza Foundation Model Training) per personalizzare un modello di base usando i propri dati per ottimizzare le prestazioni per l’applicazione specifica.
  • Mosaic AI Agent Framework per la creazione e la distribuzione di agenti di qualità di produzione, ad esempio applicazioni di recupero della generazione aumentata (RAG).
  • Mosaic AI Agent Evaluation per valutare la qualità, i costi e la latenza delle applicazioni di intelligenza artificiale generativa, incluse applicazioni e catene RAG.

Che cos’è l’intelligenza artificiale generativa?

L’intelligenza artificiale generativa è un tipo di intelligenza artificiale focalizzata sulla capacità dei computer di usare modelli per creare contenuti come immagini, testo, codice e dati sintetici.

Le applicazioni di intelligenza artificiale generative si basano su modelli di intelligenza artificiale generativi: modelli di linguaggio di grandi dimensioni e modelli di base.

  • LLM sono modelli di Deep Learning che usano ed eseguono il training su set di dati di grandi dimensioni per eccellere nelle attività di elaborazione del linguaggio. Creano nuove combinazioni di testo che simulano il linguaggio naturale in base ai dati di training.
  • I modelli di intelligenza artificiale generativi o i modelli di base sono modelli di Machine Learning di grandi dimensioni pre-sottoposti a training con l'intenzione di essere ottimizzati per attività di comprensione e generazione del linguaggio più specifiche. Questi modelli vengono usati per distinguere i modelli all’interno dei dati di input.

Dopo che questi modelli hanno completato i processi di apprendimento, insieme generano output statisticamente probabili quando richiesto e possono essere impiegati per eseguire varie attività, tra cui:

  • Generazione di immagini in base a quelle esistenti o utilizzo dello stile di un’immagine per modificarne o crearne una nuova.
  • Attività vocali come trascrizione, traduzione, generazione di domande/risposte e interpretazione della finalità o del significato del testo.

Importante

Anche se molti MODELLI di intelligenza artificiale generativi hanno misure di sicurezza, possono comunque generare informazioni dannose o imprecise.

L’intelligenza artificiale generativa presenta i modelli di progettazione seguenti:

  • Progettazione prompt: creazione di richieste specializzate per guidare il comportamento LLM
  • Generazione aumentata di recupero (RAG): combinazione di un LLM con recupero di conoscenze esterne
  • Ottimizzazione: adattamento di un LLM con training preliminare a set di dati specifici di domini
  • Pre-training: Training di un LLM da zero

Machine Learning in Azure Databricks

Con Mosaic AI, una singola piattaforma serve ogni passaggio dello sviluppo e della distribuzione di Ml, dai dati non elaborati alle tabelle di inferenza che salvano ogni richiesta e risposta per un modello servito. I data scientist, i data engineer, i tecnici di Machine Learning e DevOps possono svolgere il proprio lavoro usando lo stesso set di strumenti e una singola fonte di verità per i dati.

Mosaic AI unifica il livello dati e la piattaforma ml. Tutti gli asset di dati e gli artefatti, ad esempio modelli e funzioni, sono individuabili e regolati in un unico catalogo. L’uso di una singola piattaforma per dati e modelli consente di tenere traccia della derivazione dai dati non elaborati al modello di produzione. Il monitoraggio predefinito dei dati e dei modelli salva le metriche di qualità nelle tabelle archiviate anche nella piattaforma, semplificando l’identificazione della causa radice dei problemi di prestazioni del modello. Per altre informazioni su come Databricks supporta l’intero ciclo di vita di Machine Learning e MLOps, consultare Flussi di lavoro MLOps in Azure Databricks e MLOps Stacks: processo di sviluppo del modello come codice.

Alcuni dei componenti chiave della piattaforma di business intelligence per i dati sono:

Attività Componente
Gestire e gestire dati, funzionalità, modelli e funzioni. Individuazione, controllo delle versioni e derivazione. Catalogo Unity
Tenere traccia delle modifiche apportate a dati, qualità dei dati e qualità del modello Lakehouse Monitoring, tabelle di inferenza
Sviluppo e gestione in Azure Progettazione e gestione delle funzionalità.
Eseguire il training dei modelli Mosaic AutoML, notebook di Databricks
Tenere traccia dello sviluppo di modelli Rilevamento di MLFlow
Condividere modelli personalizzati Mosaic AI Model Serve.
Creare flussi di lavoro automatizzati e pipeline ETL pronte per la produzione Processi Databricks
Integrazione con Git Cartelle Git di Databricks

Deep Learning in Azure Databricks

La configurazione dell’infrastruttura per le applicazioni di Deep Learning può essere difficile. Databricks Runtime per Machine Learning si occupa di questo aspetto, con cluster con versioni compatibili predefinite delle librerie di Deep Learning più comuni, ad esempio TensorFlow, PyTorch e Keras.

I cluster di Machine Learning di Databricks Runtime includono anche il supporto gpu preconfigurato con driver e librerie di supporto. Supporta anche librerie come Ray per parallelizzare l’elaborazione di calcolo per ridimensionare i flussi di lavoro di Machine Learning e le applicazioni ML.

I cluster di Machine Learning di Databricks Runtime includono anche il supporto gpu preconfigurato con driver e librerie di supporto. Mosaic AI Model Serving consente la creazione di endpoint GPU scalabili per i modelli di Deep Learning senza alcuna configurazione aggiuntiva.

Per le applicazioni di Machine Learning, Databricks consiglia di usare un cluster che esegue Databricks Runtime per Machine Learning. Consultare Creare un cluster con Databricks Runtime ML.

Per iniziare a usare l’apprendimento avanzato in Databricks, consultare la sezione:

Passaggi successivi

Per iniziare, consultare la sezione:

Per un flusso di lavoro MLOps consigliato in Databricks Mosaic AI, consultare la sezione:

Per informazioni sulle principali funzionalità di Databricks Mosaic AI, vedere: