Panoramica di Azure Data Lake Storage per l'analisi su scala cloud

Articolo
10/19/2024

Azure Data Lake è un'archiviazione dati altamente scalabile e sicura per carichi di lavoro di analisi ad alte prestazioni. È possibile creare account di archiviazione all'interno di un singolo gruppo di risorse per l'analisi su scala cloud. È consigliabile effettuare il storage-rg provisioning di tre account Azure Data Lake Storage Gen2 all'interno di un singolo gruppo di risorse simile al gruppo di risorse descritto nell'articolo Panoramica della zona di destinazione dei dati dell'architettura di analisi su scala cloud.

Ogni account di archiviazione all'interno della zona di destinazione dei dati archivia i dati in una delle tre fasi, allineati a un'architettura medallion:

Dati non elaborati (bronzo)
Dati arricchiti (argento) e curati (oro)
Data lake di sviluppo

Un'applicazione dati può utilizzare dati arricchiti e curati da un account di archiviazione che è stato inserito in un servizio di inserimento automatico dei dati indipendente. È possibile creare un'applicazione dati allineata all'origine se non si implementa un motore indipendente dai dati o si facilitano connessioni complesse per l'inserimento di dati da origini operative. Questa applicazione dati segue lo stesso flusso di un motore indipendente dai dati durante l'inserimento di dati da origini dati esterne.

Data Lake Storage Gen2 supporta elenchi di controllo di accesso con granularità fine (ACL) che proteggono i dati a livello di file e cartelle. Gli elenchi di controllo di accesso consentono all'organizzazione di implementare misure di sicurezza rigorose per l'autenticazione e l'autorizzazione per i prodotti dati per:

Archiviare i dati in modo sicuro tramite la crittografia dei dati inattivi.
Controlli di accesso per utenti e gruppi di sicurezza di Microsoft Entra tramite l'integrazione di Microsoft Entra.

Pianificazione dei data lake

Quando si pianifica un data lake, prendere sempre in considerazione la struttura, la governance e la sicurezza appropriate. Più fattori influenzano la struttura e l'organizzazione di ogni data lake:

Tipo di dati archiviati
Come vengono trasformati i dati
Chi accede ai dati
Quali sono i modelli di accesso tipici

Raggruppare consumer e produttori in base alle esigenze di accesso ai dati. È consigliabile pianificare la governance dell'implementazione e del controllo di accesso nel data lake.

Se il data lake contiene alcuni asset di dati e processi automatizzati, ad esempio estrazione, trasformazione, caricamento (ETL), è probabile che la pianificazione sia piuttosto semplice. Se il data lake contiene centinaia di asset di dati e comporta un'interazione automatizzata e manuale, aspettarsi di dedicare più tempo alla pianificazione, in quanto è necessaria molto più collaborazione da parte dei proprietari dei dati.

Analogia della palude dei dati

Una palude dei dati è un data lake non gestito quasi inaccessibile agli utenti. Le paludi dei dati si verificano quando non si implementano misure di governance della qualità dei dati e dei dati. A volte è possibile visualizzare una palude dei dati in un data warehouse con modelli ibridi esistenti.

La governance e l'organizzazione appropriate impediscono paludi dei dati. Quando si crea una solida base per il data lake, aumenta la possibilità di sostenere il successo del data lake e il valore aziendale.

Man mano che aumentano le dimensioni, la complessità, il numero di asset di dati e il numero di utenti o reparti del data lake, è sempre più fondamentale avere un sistema di catalogo dati affidabile. Il sistema del catalogo dati garantisce che gli utenti possano trovare, contrassegnare e classificare i dati durante l'elaborazione, l'utilizzo e la governance del data lake.

Per altre informazioni, vedere Panoramica della governance dei dati.

Account di archiviazione in un data lake logico

Valutare se l'organizzazione necessita di uno o più account di archiviazione e prendere in considerazione i file system necessari per compilare il data lake logico. La tecnologia di archiviazione singola offre più metodi di accesso ai dati e consente di standardizzare l'intera organizzazione.

Data Lake Storage Gen2 è una piattaforma distribuita come servizio (PaaS) completamente gestita. Più account di archiviazione o file system non possono comportare costi monetari fino a quando non si accede o si archiviano i dati. Ogni risorsa di Azure presenta un sovraccarico amministrativo e operativo durante il provisioning, la sicurezza e la governance, inclusi i backup e il ripristino di emergenza.

Nota

Tre data lake sono illustrati in ogni zona di destinazione dei dati. Tuttavia, a seconda dei requisiti, potrebbe essere possibile consolidare i livelli non elaborati, arricchiti e curati in un unico account di archiviazione. È possibile creare un altro account di archiviazione denominato "sviluppo" in cui i consumer di dati possono portare altri prodotti dati utili.

Quando si decide tra un approccio consolidato o tre account di archiviazione, prendere in considerazione i fattori seguenti:

Isolamento degli ambienti dati e prevedibilità
- È possibile isolare le attività eseguite nelle zone non elaborate e di sviluppo per evitare potenziali effetti sulla zona curata, che contiene dati con un grande valore aziendale necessario per il processo decisionale critico
Funzionalità a livello di account di archiviazione
- È possibile scegliere se le opzioni di gestione del ciclo di vita o le regole del firewall devono essere applicate a livello di data lake o zona di destinazione dei dati.
- Creare più account di archiviazione, ma non silo indesiderati.
- Evitare progetti di dati duplicati dalla mancanza di visibilità o di condivisione delle conoscenze nell'organizzazione.
- Assicurarsi di disporre di una buona governance dei dati, degli strumenti di rilevamento dei progetti e di un catalogo dati sul posto.
Interazione di strumenti e tecnologie di elaborazione dati con i dati in più laghi in base alle autorizzazioni configurate
Laghi regionali e globali
- I consumer o i processi distribuiti a livello globale nel lago sono sensibili alla latenza causata da distanze geografiche.
- L'archiviazione dei dati in locale è una procedura consigliata.
- I vincoli normativi e la sovranità dei dati possono richiedere che i dati rimangano in una determinata area.
- Per altre informazioni, vedere Distribuzioni in più aree.

Distribuzione in più aree

Quando sono definite dalle regole di residenza dei dati o da un requisito per mantenere i dati vicini a una base utente, potrebbe essere necessario creare account Azure Data Lake in più aree di Azure. È necessario creare una zona di destinazione dei dati in un'area, quindi replicare i dati globali usando AzCopy, Azure Data Factory o i prodotti partner. I dati locali si trovano in un'area, mentre i dati globali vengono replicati in più aree.

Passaggi successivi

Zone e contenitori data lake

Condividi tramite