Che cos'è il data warehousing in Azure Databricks?

Il data warehousing si riferisce alla raccolta e all'archiviazione di dati da più origini, in modo che sia possibile accedervi rapidamente per informazioni dettagliate e report aziendali. Questo articolo contiene i concetti chiave per la creazione di un data warehouse nel data lakehouse.

Data warehousing in un lakehouse

L'architettura lakehouse e Databricks SQL offrono funzionalità di data warehousing cloud ai data lake. Usando strutture di dati, relazioni e strumenti di gestione familiari, è possibile modellare un data warehouse a prestazioni elevate e conveniente che viene eseguito direttamente nel data lake. Per altre informazioni, vedere Che cos'è un data lakehouse?

Architettura di Lakehouse con un livello superiore che include data warehousing, ingegneria dei dati, flusso di dati e data science e Machine Learning

Come per un data warehouse tradizionale, i dati vengono modellati in base ai requisiti aziendali e quindi vengono usati agli utenti finali per l'analisi e i report. A differenza di un data warehouse tradizionale, è possibile evitare di dislocare i dati di analisi aziendale o creare copie ridondanti che diventano rapidamente obsoleti.

La creazione di un data warehouse all'interno del lakehouse consente di inserire tutti i dati in un unico sistema e di sfruttare le funzionalità come Unity Catalog e Delta Lake.

Unity Catalog aggiunge un modello di governance unificato in modo che sia possibile proteggere e controllare l'accesso ai dati e fornire informazioni di derivazione sulle tabelle downstream. Delta Lake aggiunge transazioni ACID ed evoluzione dello schema, tra gli altri potenti strumenti per mantenere i dati affidabili, scalabili e di alta qualità.

Che cos'è Databricks SQL?

Nota

Databricks SQL Serverless non è disponibile in Azure Cina. Databricks SQL non è disponibile nelle aree Azure per enti pubblici.

Databricks SQL è la raccolta di servizi che offrono funzionalità di data warehousing e prestazioni ai data lake esistenti. Databricks SQL supporta formati aperti e SQL ANSI standard. Un editor SQL nella piattaforma e gli strumenti di dashboard consentono ai membri del team di collaborare con altri utenti di Databricks direttamente nell'area di lavoro. Databricks SQL si integra anche con un'ampia gamma di strumenti in modo che gli analisti possano creare query e dashboard nei propri ambienti preferiti senza adattarsi a una nuova piattaforma.

Databricks SQL fornisce risorse di calcolo generali eseguite sulle tabelle nella lakehouse. Databricks SQL è basato su SQL Warehouse, denominato in precedenza endpoint SQL, che offre risorse di calcolo SQL scalabili separate dall'archiviazione.

Per altre informazioni sulle opzioni e le impostazioni predefinite di SQL Warehouse, vedere Connettersi a un'istanza di SQL Warehouse .

Databricks SQL si integra con Unity Catalog in modo che sia possibile individuare, controllare e gestire gli asset di dati da un'unica posizione. Per altre informazioni, vedere Che cos'è il catalogo unity?

Modellazione dei dati in Azure Databricks

Una lakehouse supporta una varietà di stili di modellazione. L'immagine seguente mostra come i dati vengono curati e modellati mentre si spostano attraverso diversi livelli di una lakehouse.

Diagramma che mostra vari modelli di dati a ogni livello dell'archtectura del lago medallion.

Architettura medallion

L'architettura medallion è un modello di progettazione dei dati che descrive una serie di livelli di dati perfezionati in modo incrementale che forniscono una struttura di base nella lakehouse. I livelli bronzo, argento e oro indicano un aumento della qualità dei dati a ogni livello, con oro che rappresenta la massima qualità. Per altre informazioni, vedere Che cos'è l'architettura a medaglione del lakehouse?.

All'interno di un lago, ogni livello può contenere una o più tabelle. Il data warehouse viene modellato a livello silver e feed di data mart specializzati nel livello oro.

Livello bronzo

I dati possono entrare nel lakehouse in qualsiasi formato e tramite qualsiasi combinazione di transazioni batch o di vapore. Il livello bronzo fornisce lo spazio di destinazione per tutti i dati non elaborati nel formato originale. Tali dati vengono convertiti in tabelle Delta.

Livello argento

Il livello silver riunisce i dati di origini diverse. Per la parte dell'azienda che si concentra sulle applicazioni di data science e machine learning, è qui che si inizia a curare asset di dati significativi. Questo processo è spesso contrassegnato da un focus sulla velocità e l'agilità.

Il livello silver è anche il punto in cui è possibile integrare con attenzione i dati provenienti da origini diverse per creare un data warehouse in linea con i processi aziendali esistenti. Spesso, questi dati seguono un modello terzo formato normale (3NF) o Data Vault. Se si specificano vincoli di chiave primaria ed esterna, gli utenti finali possono comprendere le relazioni tra tabelle quando si usa Il catalogo unity. Il data warehouse deve fungere da unica fonte di verità per i data mart.

Il data warehouse stesso è di tipo schema-on-write e atomic. È ottimizzato per la modifica, in modo da poter modificare rapidamente il data warehouse in base alle esigenze correnti quando i processi aziendali cambiano o si evolvono.

Livello oro

Il livello oro è il livello di presentazione, che può contenere uno o più data mart. Spesso i data mart sono modelli dimensionali sotto forma di un set di tabelle correlate che acquisiscono una prospettiva aziendale specifica.

Il livello gold ospita anche sandbox di data science e di reparto per abilitare l'analisi self-service e l'analisi scientifica dei dati in tutta l'azienda. La fornitura di questi sandbox e dei propri cluster di calcolo separati impedisce ai team aziendali di creare copie di dati all'esterno del lakehouse.

Passaggio successivo

Per altre informazioni sui principi e sulle procedure consigliate per l'implementazione e la gestione di un lakehouse con Databricks, vedere Introduzione alla data lakehouse ben progettata.