Concetti di Azure Databricks

Questo articolo presenta i concetti fondamentali che è necessario comprendere per usare Azure Databricks in modo efficace.

Account e aree di lavoro

In Azure Databricks un'area di lavoro è una distribuzione di Azure Databricks nel cloud che funge da ambiente nel quale il team può accedere agli asset di Databricks. L'organizzazione può scegliere di avere più aree di lavoro o solo una, a seconda delle esigenze.

Un account Azure Databricks rappresenta una singola entità che può includere più aree di lavoro. Gli account abilitati per Unity Catalog possono essere usati per gestire gli utenti e l'accesso ai dati in modo centralizzato in tutte le aree di lavoro nell'account.

Fatturazione: unità Databricks (DBU)

Azure Databricks fattura in base alle unità di Databricks (DBU), cioè unità di funzionalità di elaborazione calcolate all'ora in base al tipo di istanza di macchina virtuale.

Vedere la pagina dei prezzi di Azure Databricks.

Autenticazione e autorizzazione

Questa sezione descrive i concetti che è necessario conoscere quando si gestiscono le identità di Azure Databricks e il relativo accesso agli asset di Azure Databricks.

Utente

Una persona univoca che ha accesso al sistema. Le identità utente sono rappresentate dagli indirizzi di posta elettronica. Pagina Gestisci utenti.

Entità servizio

Un’identità del servizio da usare con processi, strumenti automatizzati e sistemi quali script, app e piattaforme CI/CD. Le entità servizio sono rappresentate da un ID di applicazione. Vedere Gestire le entità servizio.

Raggruppa

Una raccolta di identità. I gruppi semplificano la gestione delle identità, rendendo più facile l'assegnazione dell'accesso a aree di lavoro, dati e altri oggetti a protezione diretta. Tutte le identità di Databricks possono essere assegnate come membri di gruppi. Vedere Gestisci i gruppi.

Elenco di controllo di accesso (ACL)

Un elenco di autorizzazioni associate all'area di lavoro, al cluster, al processo, alla tabella o all'esperimento. Un elenco di controllo di accesso specifica gli utenti o i processi di sistema a cui viene concesso l'accesso agli oggetti, nonché le operazioni consentite per gli asset. Ogni voce in un elenco di controllo di accesso tipico specifica un soggetto e un'operazione. Consultare Elenchi di controllo di accesso.

Token di accesso personale

Un token di accesso personale è una stringa usata per autenticare le chiamate API REST, le connessioni dei partner tecnologici e altri strumenti. Consultare Autenticazione con token di accesso personale di Azure Databricks.

I token di Microsoft Entra ID possono essere usati anche per eseguire l'autenticazione all'API REST.

Interfacce di Azure Databricks

Questa sezione descrive le interfacce per l'accesso agli asset in Azure Databricks.

INTERFACCIA UTENTE

L'interfaccia utente di Azure Databricks è un'interfaccia grafica per interagire con le funzionalità, ad esempio le cartelle dell'area di lavoro e i relativi oggetti contenuti, oggetti dati e risorse di calcolo.

REST API

L'API REST di Databricks fornisce endpoint per la modifica o la richiesta di informazioni sugli oggetti dell'account e dell'area di lavoro di Azure Databricks. Vedere informazioni di riferimento sull’account e informazioni di riferimento sulle aree di lavoro.

API REST di SQL

L'API REST di SQL consente di automatizzare le attività sugli oggetti SQL. Usa API SQL.

CLI

L’interfaccia della riga di comando di Databricks è ospitata in GitHub. L'interfaccia della riga di comando si basa sull'API REST di Databricks.

Gestione dei dati

Questa sezione descrive gli oggetti logici che archiviano i dati inseriti negli algoritmi dell’apprendimento automatico e sui quali si eseguono le analisi. Descrive anche l'interfaccia utente nella piattaforma per l'esplorazione e la gestione degli oggetti dati.

Catalogo Unity

Unity Catalog è una soluzione di governance unificata per gli asset di dati e dell’intelligenza artificiale in Azure Databricks che fornisce funzionalità centralizzate di controllo, audit, derivazione e individuazione dei dati nelle aree di lavoro di Databricks. Vedere Che cos'è Unity Catalog?.

Radice DBFS

Importante

L'archiviazione e l'accesso ai dati tramite la radice DBFS root o i montaggi DBFS è un modello deprecato e non consigliato da Databricks. Per gestire l'accesso a tutti i dati, Databricks consiglia invece di usare Unity Catalog. Vedere Che cos'è Unity Catalog?.

Per impostazione predefinita, la radice DBFS è un percorso di archiviazione disponibile per tutti gli utenti. Vedere Che cos'è DBFS?.

Esplora cataloghi

Esplora Catalog consente di esplorare e gestire i dati e gli asset dell’intelligenza artificiale, inclusi schemi (database), tabelle, modelli, volumi (dati non tabulari), funzioni e modelli di apprendimento automatico registrati. È possibile usarlo per trovare oggetti e proprietari dei dati, comprendere le relazioni tra i dati nelle tabelle e gestire autorizzazioni e condivisioni. Si veda Che cos'è Esplora Catalog?.

Database

Una raccolta di oggetti dati, ad esempio tabelle o viste e funzioni, organizzata in modo che possa essere facilmente accessibili, gestiti e aggiornati. Vedere Che cosa sono gli schemi in Azure Databricks?

Tabella

Una rappresentazione di dati strutturati. È possibile eseguire query sulle tabelle con le API Apache Spark SQL e Apache Spark. Vedere Che cosa sono tabelle e viste?.

Tabella Delta

Per impostazione predefinita, tutte le tabelle create in Azure Databricks sono tabelle Delta. Le tabelle Delta si basano sul progetto open source Delta Lake, un framework per l'archiviazione tabelle ACID ad alte prestazioni negli archivi di oggetti cloud. Una tabella Delta archivia i dati come directory di file nell'archivio oggetti cloud e registra i metadati della tabella nel metastore all'interno di un catalogo e di uno schema.

Scopri di più sulle tecnologie Delta.

Metastore

La componente che archivia tutte le informazioni sulla struttura delle varie tabelle e partizioni nel data warehouse, incluse la colonna e le informazioni sul tipo di colonna, i serializzatori e i deserializzatori necessari per leggere e scrivere dati e i file corrispondenti in cui sono archiviati i dati. Vedere Metastore

Ogni distribuzione di Azure Databricks ha una metastore Hive centrale accessibile da tutti i cluster per salvare in modo permanente i metadati delle tabelle. È anche possibile usare un metastore Hive esterno già esistente.

Gestione dei calcoli

Questa sezione descrive i concetti che è necessario conoscere per eseguire i calcoli in Azure Databricks.

Cluster

Un set di risorse di calcolo e configurazioni in cui si eseguono notebook e processi. Esistono due tipi di cluster: multifunzionale e di processo. Vedere Ambiente di calcolo.

  • È possibile creare un cluster multifunzionale usando l'interfaccia utente, l'interfaccia della riga di comando o l'API REST. È possibile terminare e riavviare manualmente un cluster multifunzionale. Più utenti possono condividere cluster di questo tipo per eseguire un'analisi interattiva in modo collaborativo.
  • L'utilità di pianificazione dei processi di Azure Databricks crea un cluster di processo quando si esegue un processo in un nuovo cluster di processo e termina il cluster al completamento del processo. Non è possibile riavviare un cluster di processi.

Pool

Un set di istanze inattive e pronte all’uso che riducono i tempi di avvio e ridimensionamento automatico del cluster. Quando è collegato a un pool, un cluster assegna dal pool i relativi nodi di lavoro e driver. Vedere Guida di riferimento per la configurazione del pool.

Se il pool non ha alcuna istanza inattiva per soddisfare la richiesta del cluster, si espande allocando una nuova istanza dal provider di istanze. Quando un cluster collegato viene terminato, le istanze usate vengono restituite al pool e possono essere riutilizzate da un cluster diverso.

Databricks Runtime

Il set di componenti di base che vengono eseguiti sui cluster di Azure Databricks. Vedere Ambiente di calcolo. Azure Databricks include i runtime seguenti:

  • Databricks Runtime include Apache Spark, ma anche una serie di componenti e aggiornamenti che migliorano significativamente l'usabilità, le prestazioni e la sicurezza dell'analisi di Big Data.
  • Databricks Runtime per Machine Learning è basato su Databricks Runtime e fornisce un'infrastruttura di Machine Learning predefinita integrata con tutte le funzionalità dell'area di lavoro di Azure Databricks. Il runtime include più librerie di ampia diffusione, tra cui TensorFlow, PyTorch, Keras e XGBoost.

Flussi di lavoro

L'interfaccia utente dell'area di lavoro Flussi di lavoro fornisce l'immissione alle interfacce utente di processi e pipeline DLT, che sono strumenti che consentono di orchestrare e pianificare i flussi di lavoro.

Processi

Un meccanismo non interattivo per orchestrare e pianificare notebook, librerie e altre attività. Vedere Pianificare e orchestrare i flussi di lavoro

Pipeline

Le pipeline di tabelle live delta forniscono un framework dichiarativo per la creazione di pipeline di elaborazione dati affidabili, gestibili e testabili. Che cos'è Delta Live Tables?.

Carico di lavoro

Il carico di lavoro è la quantità di funzionalità di elaborazione necessaria per eseguire un'attività o un gruppo di attività. Azure Databricks identifica due tipi di carichi di lavoro: ingegneria dei dati (processo) e analisi dei dati (multifunzionale).

  • Ingegneria dei dati Un carico di lavoro (automatizzato) viene eseguito in un cluster di processi creato dall'utilità di pianificazione del processo di Azure Databricks per ogni carico di lavoro.
  • Analisi dei dati Un carico di lavoro (interattivo) viene eseguito in un cluster multifunzionale. I carichi di lavoro interattivi in genere eseguono comandi all'interno di un notebook di Azure Databricks. Tuttavia, l'esecuzione di un processo in un cluster multifunzionale esistente viene considerata anche come un carico di lavoro interattivo.

Contesto di esecuzione

Lo stato di un ciclo Read–Eval–Print (REPL) per ogni linguaggio di programmazione supportato. Python, R, Scala e SQL sono gli unici linguaggi supportati.

Ingegneria dei dati

Gli strumenti di ingegneria dei dati facilitano la collaborazione tra data scientist, data engineer, analisti dei dati e ingegneri di Machine Learning.

Area di lavoro

Un'area di lavoro è un ambiente che consente di accedere a tutti gli asset di Azure Databricks. Un'area di lavoro consente di organizzare gli oggetti (notebook, librerie ed esperimenti) in cartelle e fornisce l'accesso a oggetti di dati e a risorse di calcolo.

Notebook

Un’interfaccia basata sul Web per la creazione di flussi di lavoro di data science e machine learning che possono contenere comandi eseguibili, visualizzazioni e testo narrativo. Vedere Introduzione ai notebook di Databricks.

Library

Un pacchetto di codice disponibile per il notebook o il processo in esecuzione nel cluster. I runtime di Databricks includono molte librerie ed è anche possibile caricarne di personalizzati. Vedere Librerie.

Cartella Git (in precedenza Repos)

Cartella il cui contenuto viene co-versionato insieme sincronizzandolo con un repository Git remoto. Le cartelle Git di Databricks si integrano con i provider Git per fornire il controllo del codice sorgente e della versione per i progetti.

IA e Machine Learning

Databricks offre un ambiente end-to-end integrato con servizi gestiti per lo sviluppo e la distribuzione di applicazioni di intelligenza artificiale e Machine Learning.

Mosaic AI

Il nome del marchio per prodotti e servizi di Databricks Mosaic AI Research, un team di ricercatori e ingegneri responsabili delle principali innovazioni di Databricks nell'intelligenza artificiale generativa. I prodotti di Mosaic AI includono le funzionalità di Machine Learning e intelligenza artificiale in Databricks. Vedere Ricerca Mosaic.

Runtime di Machine Learning

Per semplificare lo sviluppo di modelli di Machine Learning e IA, Databricks offre un runtime di Databricks per Machine Learning, che automatizza la creazione di calcolo con l'infrastruttura di Machine Learning e Deep Learning predefinita, incluse le librerie ML e DL più comuni. Include anche il supporto predefinito della GPU, inclusi i driver e le librerie di supporto. Passare a informazioni sulle versioni di runtime più recenti delle Note sulla versione e sulla compatibilità di Databricks Runtime.

Esperimento

Una raccolta di esecuzioni MLflow per il training di un modello di Machine Learning. Vedere Organizzare le esecuzioni di training con esperimenti MLflow.

Funzionalità

Le funzionalità sono un componente importante dei modelli di Machine Learning. Un archivio delle funzionalità consente la condivisione e l'individuazione delle funzionalità nell'organizzazione e garantisce anche che lo stesso codice di calcolo delle funzionalità venga usato per il training e l'inferenza del modello. Vedere Progettazione e gestione delle funzionalità.

Modelli GenAI

Databricks supporta l'esplorazione, lo sviluppo e la distribuzione di modelli di IA generativa, tra cui:

Registro di modello

Databricks offre una versione ospitata di MLflow Model Registry nel catalogo unity. I modelli registrati nel catalogo Unity ereditano il controllo di accesso centralizzato, la derivazione e l'individuazione e l'accesso tra aree di lavoro. Vedere Gestire il ciclo di vita del modello nel catalogo Unity.

Gestione dei modelli

Mosaic AI Model Serving offre un'interfaccia unificata per implementare, gestire ed eseguire query sui modelli di IA. Ogni modello usato è disponibile come API REST che è possibile integrare nell'applicazione Web o client. Con Mosaic AI Model Serving è possibile distribuire modelli, modelli di base o modelli di terze parti ospitati all'esterno di Databricks. Vedere Servizio modelli con Azure Databricks.

Data warehousing

Il data warehousing si riferisce alla raccolta e all'archiviazione di dati da più origini, in modo che sia possibile accedervi rapidamente per informazioni dettagliate e report aziendali. Databricks SQL è la raccolta di servizi che offrono funzionalità di data warehousing e prestazioni ai data lake esistenti. Vedere Che cos'è il data warehousing in Azure Databricks?.

Query

Una query è un'istruzione SQL valida che consente di interagire con i dati. È possibile creare query usando l'editor SQL della piattaforma o connettersi usando un connettore SQL, un driver o un'API. Vedere Accedere e gestire le query salvate per informazioni su come usare le query.

Warehouse SQL

Risorsa di calcolo in cui si eseguono query SQL. Esistono tre tipi di warehouse SQL: classico, pro e serverless. Azure Databricks consiglia di usare i warehouse serverless, quando disponibili. Vedere Tipi di warehouse SQL per confrontare le funzionalità disponibili per ogni tipo di warehouse.

Cronologia delle query

Elenco delle query eseguite e delle relative caratteristiche di prestazioni. La cronologia delle query consente di monitorare le prestazioni delle query, consentendo di identificare i colli di bottiglia e ottimizzare i runtime di query. Vedere Cronologia delle query.

Visualizzazione

Presentazione grafica del risultato dell'esecuzione di una query. Vedere Visualizzazioni nei notebook di Databricks.

Dashboard

Una presentazione di visualizzazioni e commenti dei dati. È possibile usare i dashboard per inviare automaticamente report a chiunque nell'account Azure Databricks. Usare Databricks Assistant per creare visualizzazioni basate su richieste di linguaggio naturale. Vedere Dashboard. È anche possibile creare un dashboard da un notebook. Vedere Dashboard nei notebook.

Per i dashboard legacy, vedere Dashboard legacy.

Importante

  • Databricks consiglia di usare i dashboard di IA/BI (in precedenza dashboard Lakeview). Le versioni precedenti dei dashboard, definite in precedenza dashboard SQL di Databricks, sono ora denominate dashboard legacy. Databricks non consiglia di creare nuovi dashboard legacy.
  • Convertire i dashboard legacy usando lo strumento di migrazione o l'API REST. Per istruzioni sull'uso dello strumento di migrazione predefinito, vedere Clonare un dashboard legacy in un dashboard AI/BI. Vedere Esercitazioni sui dashboard per esercitazioni sulla creazione e la gestione di dashboard con l'API REST.