Concetti di Azure Databricks

Articolo
02/04/2025

Questo articolo presenta i concetti fondamentali che è necessario comprendere per usare Azure Databricks in modo efficace.

Account e aree di lavoro

In Azure Databricks un'area di lavoro è una distribuzione di Azure Databricks nel cloud che funge da ambiente nel quale il team può accedere agli asset di Databricks. L'organizzazione può scegliere di avere più aree di lavoro o solo una, a seconda delle esigenze.

Un account Azure Databricks rappresenta una singola entità che può includere più aree di lavoro. Gli account abilitati per Unity Catalog possono essere usati per gestire gli utenti e il loro accesso ai dati in modo centralizzato in tutte le aree di lavoro dell'account.

Fatturazione: unità Databricks (DBU)

Azure Databricks fattura in base alle unità di Databricks (DBU), cioè unità di funzionalità di elaborazione calcolate all'ora in base al tipo di istanza di macchina virtuale.

Vedere la pagina dei prezzi di Azure Databricks.

Autenticazione e autorizzazione

Questa sezione descrive i concetti che è necessario conoscere quando si gestiscono le identità di Azure Databricks e il relativo accesso agli asset di Azure Databricks.

Utente

Una persona univoca che ha accesso al sistema. Le identità utente sono rappresentate dagli indirizzi di posta elettronica. Pagina Gestisci utenti.

Entità servizio

Un’identità del servizio da usare con processi, strumenti automatizzati e sistemi quali script, app e piattaforme CI/CD. Le entità servizio sono rappresentate da un ID di applicazione. Vedere Gestire le entità servizio.

Raggruppa

Una raccolta di identità. I gruppi semplificano la gestione delle identità, rendendo più facile l'assegnazione dell'accesso a aree di lavoro, dati e altri oggetti a protezione diretta. Tutte le identità di Databricks possono essere assegnate come membri di gruppi. Vedere Gestisci i gruppi.

Elenco di controllo di accesso (ACL)

Elenco di autorizzazioni associate all'area di lavoro, al cluster, al processo, alla tabella o all'esperimento. Un elenco di controllo di accesso specifica gli utenti o i processi di sistema a cui viene concesso l'accesso agli oggetti, nonché le operazioni consentite per gli asset. Ogni voce in un elenco di controllo di accesso tipico specifica un soggetto e un'operazione. Consultare Elenchi di controllo di accesso.

Token di accesso personale

Un token di accesso personale è una stringa usata per autenticare le chiamate API REST, partner tecnologici connessioni e altri strumenti. Consultare Autenticazione con token di accesso personale di Azure Databricks.

I token di Microsoft Entra ID possono essere usati anche per eseguire l'autenticazione all'API REST.

Interfacce di Azure Databricks

Questa sezione descrive le interfacce per l'accesso agli asset in Azure Databricks.

INTERFACCIA UTENTE

L'interfaccia utente di Azure Databricks è un'interfaccia grafica per interagire con le funzionalità, ad esempio le cartelle dell'area di lavoro e i relativi oggetti contenuti, oggetti dati e risorse di calcolo.

REST API

L'API REST di Databricks fornisce endpoint per la modifica o la richiesta di informazioni sugli oggetti dell'account e dell'area di lavoro di Azure Databricks. Vedere informazioni di riferimento sull’account e informazioni di riferimento sulle aree di lavoro.

API REST di SQL

L'API REST di SQL consente di automatizzare le attività sugli oggetti SQL. Usa API SQL.

CLI

L’interfaccia della riga di comando di Databricks è ospitata in GitHub. L'interfaccia della riga di comando si basa sull'API REST di Databricks.

Gestione dei dati

Questa sezione descrive gli strumenti e gli oggetti logici usati per organizzare e gestire i dati in Azure Databricks. Consulta gli oggetti del database in Azure Databricks.

Unity Catalog

Unity Catalog è una soluzione di governance unificata per i dati e le risorse di intelligenza artificiale su Azure Databricks, che fornisce funzionalità centralizzate di controllo dell'accesso, auditing, tracciabilità e scoperta dei dati nelle aree di lavoro di Databricks. Consulta Che cos'è il Catalogo Unity?.

Catalogo

I cataloghi sono il contenitore di livello più alto per organizzare e isolare i dati in Azure Databricks. È possibile condividere cataloghi tra aree di lavoro all'interno della stessa area e dello stesso account. Consulta Che cosa sono i cataloghi in Azure Databricks?.

Schema

Gli schemi, noti anche come database, sono contenuti all'interno dei cataloghi e forniscono un livello di organizzazione più granulare. Contengono oggetti di database e asset di intelligenza artificiale, ad esempio volumi, tabelle, funzioni e modelli. Vedere Che cosa sono gli schemi in Azure Databricks?.

Tavolo

Le tabelle organizzano e regolano l'accesso ai dati strutturati. È possibile eseguire query sulle tabelle con Apache Spark SQL e le API di Apache Spark. Consulta Che cosa sono tabelle e viste?.

Visualizza

Una vista è un oggetto di sola lettura derivato da una o più tabelle e viste. Le visualizzazioni salvano le query definite sulle tabelle. Vedere Che cos'è una visualizzazione?.

Volume

I volumi rappresentano un volume logico di archiviazione in un percorso di archiviazione di oggetti cloud e organizzano e regolano l'accesso ai dati non tabulari. Databricks consiglia di usare volumi per la gestione di tutti gli accessi a dati non tabulari nell'archiviazione di oggetti cloud. Consulta Che cosa sono i volumi di Unity Catalog?.

Tabella Delta

Per impostazione predefinita, tutte le tabelle create in Azure Databricks sono tabelle Delta. Le tabelle Delta si basano sul progetto open source Delta Lake, un framework per l'archiviazione tabelle ACID ad alte prestazioni negli archivi di oggetti cloud. Una tabella Delta archivia i dati come directory di file nell'archivio oggetti cloud e registra i metadati della tabella nel metastore all'interno di un catalogo e di uno schema.

Scopri di più sulle tecnologie Delta.

Metastore

Unity Catalog fornisce un metastore a livello di account che registra i metadati relativi a dati, intelligenza artificiale e autorizzazioni su cataloghi, schemi e tabelle. Vedi Metastores.

Azure Databricks offre un metastore Hive legacy per i clienti che non hanno adottato Unity Catalog. Vedere Controllo di accesso alle tabelle metastore Hive (legacy).

Esploratore del Catalogo

"Catalog Explorer consente di esplorare e gestire i dati e le risorse di intelligenza artificiale, inclusi schemi (database), tabelle, modelli, volumi (dati non tabulari), funzioni e modelli di Machine Learning registrati." È possibile usarlo per trovare oggetti dati e proprietari, comprendere le relazioni tra i dati tra tabelle e gestire autorizzazioni e condivisione. Vedere Che cos'è Esplora cataloghi?.

Radice DBFS

Importante

L'archiviazione e l'accesso ai dati tramite la radice DBFS root o i montaggi DBFS è un modello deprecato e non consigliato da Databricks. Databricks consiglia invece di usare Unity Catalog per gestire l'accesso a tutti i dati. Consulta Che cos'è il Catalogo Unity?.

Per impostazione predefinita, la radice DBFS è un percorso di archiviazione disponibile per tutti gli utenti. Vedere Che cos'è DBFS?.

Gestione dei calcoli

Questa sezione descrive i concetti che è necessario conoscere per eseguire i calcoli in Azure Databricks.

Cluster

Set di risorse di calcolo e configurazioni in cui si eseguono notebook e processi. Esistono due tipi di cluster: multifunzionale e di processo. Vedere Ambiente di calcolo.

È possibile creare un cluster multifunzionale usando l'interfaccia utente, l'interfaccia della riga di comando o l'API REST. È possibile terminare e riavviare manualmente un cluster multifunzionale. Più utenti possono condividere cluster di questo tipo per eseguire un'analisi interattiva in modo collaborativo.
L'utilità di pianificazione dei processi di Azure Databricks crea un cluster di processo quando si esegue un processo in un nuovo cluster di processo e termina il cluster al completamento del processo. Non è possibile riavviare un cluster di processi.

Pool

Set di istanze inattive, pronte all'uso, che riducono i tempi di avvio e di ridimensionamento automatico del cluster. Quando è collegato a un pool, un cluster assegna dal pool i relativi nodi di lavoro e driver. Vedere Guida di riferimento per la configurazione del pool.

Se il pool non ha alcuna istanza inattiva per soddisfare la richiesta del cluster, si espande allocando una nuova istanza dal provider di istanze. Quando un cluster collegato viene terminato, le istanze usate vengono restituite al pool e possono essere riutilizzate da un cluster diverso.

Databricks Runtime

Set di componenti di base eseguiti nei cluster gestiti da Azure Databricks. Vedere Ambiente di calcolo. Azure Databricks include i runtime seguenti:

Databricks Runtime include Apache Spark, ma anche una serie di componenti e aggiornamenti che migliorano significativamente l'usabilità, le prestazioni e la sicurezza dell'analisi di Big Data.
Databricks Runtime per Machine Learning è basato su Databricks Runtime e fornisce un'infrastruttura di Machine Learning predefinita integrata con tutte le funzionalità dell'area di lavoro di Azure Databricks. Il runtime include più librerie di ampia diffusione, tra cui TensorFlow, PyTorch, Keras e XGBoost.

Flussi di lavoro

L'interfaccia utente dell'area di lavoro Flussi di lavoro fornisce l'immissione alle interfacce utente di processi e pipeline DLT, che sono strumenti che consentono di orchestrare e pianificare i flussi di lavoro.

Processi

Un meccanismo non interattivo per orchestrare e pianificare notebook, librerie e altre attività. Consultare Panoramica dell'orchestrazione su Databricks

Pipeline

Le pipeline di Delta Live Tables forniscono un framework dichiarativo per la creazione di pipeline di elaborazione dati affidabili, manutenibili e testabili. Vedere Che cos'è Delta Live Tables?.

Carico di lavoro

Il carico di lavoro è la quantità di funzionalità di elaborazione necessaria per eseguire un'attività o un gruppo di attività. Azure Databricks identifica due tipi di carichi di lavoro: ingegneria dei dati (processo) e analisi dei dati (multifunzionale).

Ingegneria dei dati Un carico di lavoro (automatizzato) viene eseguito in un cluster di processi creato dall'utilità di pianificazione del processo di Azure Databricks per ogni carico di lavoro.
Analisi dei dati Un carico di lavoro (interattivo) viene eseguito in un cluster multifunzionale. I carichi di lavoro interattivi in genere eseguono comandi all'interno di un notebook di Azure Databricks. Tuttavia, l'esecuzione di un processo in un cluster multifunzionale esistente viene considerata anche come un carico di lavoro interattivo.

Contesto di esecuzione

Lo stato di un ciclo Read–Eval–Print (REPL) per ogni linguaggio di programmazione supportato. Python, R, Scala e SQL sono gli unici linguaggi supportati.

Ingegneria dei dati

Gli strumenti di ingegneria dei dati facilitano la collaborazione tra data scientist, data engineer, analisti dei dati e ingegneri di Machine Learning.

Area di lavoro

Un'area di lavoro è un ambiente che consente di accedere a tutti gli asset di Azure Databricks. Un'area di lavoro consente di organizzare gli oggetti (notebook, librerie ed esperimenti) in cartelle e fornisce l'accesso a oggetti di dati e a risorse di calcolo.

Notebook

Un’interfaccia basata sul Web per la creazione di flussi di lavoro di data science e machine learning che possono contenere comandi eseguibili, visualizzazioni e testo narrativo. Vedere Introduzione ai notebook di Databricks.

Library

Un pacchetto di codice disponibile per il notebook o il processo in esecuzione nel cluster. I runtime di Databricks includono molte librerie ed è anche possibile caricarne di personalizzati. Vedere Librerie.

Cartella Git (in precedenza Repos)

Cartella il cui contenuto viene co-versionato insieme sincronizzandolo con un repository Git remoto. Le cartelle Git di Databricks si integrano con i provider Git per fornire il controllo del codice sorgente e della versione per i progetti.

IA e Machine Learning

Databricks offre un ambiente end-to-end integrato con servizi gestiti per lo sviluppo e la distribuzione di applicazioni di intelligenza artificiale e Machine Learning.

Mosaic AI

Il nome del marchio per prodotti e servizi di Databricks Mosaic AI Research, un team di ricercatori e ingegneri responsabili delle principali innovazioni di Databricks nell'intelligenza artificiale generativa. I prodotti di Mosaic AI includono le funzionalità di Machine Learning e intelligenza artificiale in Databricks. Vedere Ricerca Mosaic.

Runtime di Machine Learning

Per semplificare lo sviluppo di modelli di Machine Learning e IA, Databricks offre un runtime di Databricks per Machine Learning, che automatizza la creazione di calcolo con l'infrastruttura di Machine Learning e Deep Learning predefinita, incluse le librerie ML e DL più comuni. Include anche il supporto predefinito della GPU, inclusi i driver e le librerie di supporto. Passare a informazioni sulle versioni di runtime più recenti delle Note sulla versione e sulla compatibilità di Databricks Runtime.

Esperimento

Una raccolta di esecuzioni MLflow per il training di un modello di Machine Learning. Vedere Organizzare le esecuzioni di training con esperimenti MLflow.

Funzionalità

Le funzionalità sono un componente importante dei modelli di Machine Learning. Un archivio delle funzionalità consente la condivisione e l'individuazione delle funzionalità nell'organizzazione e garantisce anche che lo stesso codice di calcolo delle funzionalità venga usato per il training e l'inferenza del modello. Vedere Progettazione e gestione delle funzionalità.

Modelli GenAI

Databricks supporta l'esplorazione, lo sviluppo e la distribuzione di modelli di IA generativa, tra cui:

AI playground, un ambiente simile a una chat nell'area di lavoro in cui è possibile testare, fornire input a e confrontare grandi modelli linguistici. Vedere Chat con le app di LLMs e di GenAI prototipo usando AI Playground.
Set di modelli di base preconfigurati integrato su cui è possibile eseguire query:
- Vedere API del modello foundation con pagamento in base al token.
- Vedere [Consigliato] Distribuire modelli di base dal catalogo Unity per i modelli di base che è possibile usare con un solo clic.
LLMs ospitati da terze parti, denominati modelli esterni. Questi modelli devono essere usati così come sono.
Funzionalità per personalizzare un modello di base per ottimizzare le prestazioni per l'applicazione specifica (spesso detta ottimizzazione). Vedere Ottimizzazione del modello di base.

Registro di modello

Databricks offre una versione ospitata di MLflow Model Registry nel Unity Catalog. I modelli registrati in Unity Catalog ereditano il controllo di accesso centralizzato, la tracciabilità e l'individuazione e l'accesso tra diversi spazi di lavoro. Consulta Gestire il ciclo di vita del modello in Unity Catalog.

Gestione dei modelli

Mosaic AI Model Serving offre un'interfaccia unificata per implementare, gestire ed eseguire query sui modelli di IA. Ogni modello usato è disponibile come API REST che è possibile integrare nell'applicazione Web o client. Con Mosaic AI Model Serving è possibile distribuire modelli, modelli di base o modelli di terze parti ospitati all'esterno di Databricks. Vedere Distribuire modelli con Mosaic AI Model Serving.

Data warehousing

Il data warehousing si riferisce alla raccolta e all'archiviazione di dati da più origini, in modo che sia possibile accedervi rapidamente per informazioni dettagliate e report aziendali. Databricks SQL è la raccolta di servizi che offrono funzionalità di data warehousing e prestazioni ai data lake esistenti. Vedere Che cos'è il data warehousing in Azure Databricks?.

Query

Una query è un'istruzione SQL valida che consente di interagire con i dati. È possibile creare query usando l'editor SQL della piattaforma o connettersi usando un connettore SQL, un driver o un'API. Vedere Accedere e gestire le query salvate per informazioni su come usare le query.

Warehouse SQL

Risorsa di calcolo in cui si eseguono query SQL. Esistono tre tipi di warehouse SQL: classico, pro e serverless. Azure Databricks consiglia di usare spazi di archiviazione serverless, se disponibili. Vedere Tipi di warehouse SQL per confrontare le funzionalità disponibili per ogni tipo di warehouse.

Cronologia delle query

Elenco delle query eseguite e delle relative caratteristiche di prestazioni. La cronologia delle query consente di monitorare le prestazioni delle interrogazioni, aiutando a identificare i colli di bottiglia e ottimizzare i tempi di esecuzione delle interrogazioni. Vedere Cronologia delle query.

Visualizzazione

Presentazione grafica del risultato dell'esecuzione di una query. Vedere Visualizzazioni nei notebook di Databricks.

Dashboard

Una presentazione di visualizzazioni e commenti dei dati. È possibile usare i dashboard per inviare automaticamente report a chiunque nell'account Azure Databricks. Usare Databricks Assistant per creare visualizzazioni basate su richieste di linguaggio naturale. Vedere Dashboard. È anche possibile creare un dashboard da un notebook. Vedere Dashboard nei notebook.

Per i dashboard legacy, vedere Dashboard legacy.