Introduzione ad Azure Data Lake Storage

Azure Data Lake Storage è un set di funzionalità dedicate all'analisi dei Big Data integrate in Archiviazione BLOB di Azure.

Azure Data Lake Storage riunisce le funzionalità di Azure Data Lake Storage Gen1 e dell'Archiviazione BLOB di Azure. Offre ad esempio semantica dei file system, sicurezza a livello di file e scalabilità. Poiché queste funzionalità sono basate sull'archiviazione BLOB, è anche possibile ottenere un archivio a basso costo, a livelli, con funzionalità di disponibilità elevata/ripristino di emergenza.

Data Lake Storage usa Archiviazione di Azure come base per la compilazione di Enterprise Data Lake (EDL) in Azure. Progettato dall'inizio per servire più petabyte di informazioni supportando al contempo centinaia di Gigabit di velocità effettiva, Data Lake Storage consente di gestire facilmente grandi quantità di dati.

Che cos'è un Data Lake?

Un data lake è un singolo repository centralizzato in cui è possibile archiviare tutti i dati, sia strutturati che non strutturati. Un data lake consente all'organizzazione di archiviare, accedere e analizzare in modo semplice e rapido un'ampia gamma di dati in un'unica posizione. Con un data lake, non è necessario adattare i dati a una struttura esistente. È invece possibile archiviare i dati nel formato non elaborato o nativo, in genere come file o come oggetti binari di grandi dimensioni (BLOB).

Azure Data Lake Storage è una soluzione di data lake aziendali basata sul cloud. È progettata per archiviare grandi quantità di dati in qualsiasi formato e per facilitare carichi di lavoro analitici per i Big Data. È possibile usarla per acquisire dati di qualsiasi tipo e velocità di inserimento in un'unica posizione per un facile accesso e analisi usando framework diversi.

Data Lake Storage

Azure Data Lake Storage non è un servizio dedicato né un tipo di account di archiviazione. Viene invece implementato come set di funzionalità usate con il servizio di archiviazione BLOB dell'account di archiviazione di Azure. È possibile sbloccare queste funzionalità abilitando l'impostazione dello spazio dei nomi gerarchico.

Data Lake Storage include le funzionalità riportate di seguito.

✓ Accesso compatibile con Hadoop

✓ Struttura delle directory gerarchica

✓ Costi e prestazioni ottimizzati

✓ Modello di sicurezza più specifico

✓ Scalabilità elevata

Accesso compatibile con Hadoop

Azure Data Lake Storage è progettato principalmente per l'uso con Hadoop e con tutti i framework che usano Hadoop Distributed File System (HDFS) di Apache come livello di accesso ai dati. Le distribuzioni di Hadoop includono il driver ABFS (Azure Blob File System), che consente a molte applicazioni e framework di accedere direttamente ai dati di Archiviazione BLOB di Azure. il driver ABFS è ottimizzato appositamente per l'analisi dei Big Data. Le API REST corrispondenti vengono rilevate tramite l'endpoint dfs.core.windows.net.

I framework di analisi dei dati che usano HDFS come livello di accesso ai dati possono accedere direttamente ai dati di Azure Data Lake Storage tramite ABFS. Esempi di questo tipo di framework sono il motore di analisi Apache Spark e il motore query Presto SQL.

Per altre informazioni su servizi e piattaforme supportati, vedere servizi di Azure che supportano Azure Data Lake Storage e piattaforme open source che supportano Azure Data Lake Storage.

Struttura di directory gerarchica

Lo spazio dei nomi gerarchico è una funzionalità chiave che consente ad Azure Data Lake Storage di fornire l'accesso ai dati ad alte prestazioni a livello di scalabilità e prezzo di archiviazione di oggetti. È possibile usare questa funzionalità per organizzare tutti gli oggetti e i file all'interno dell'account di archiviazione in una gerarchia di directory e sottodirectory annidate. In altre parole, i dati di Azure Data Lake Storage sono organizzati in modo simile a quello dei file nel computer.

Operazioni come la ridenominazione o l'eliminazione di una directory diventano singole operazioni atomiche sui metadati della directory. Non è necessario enumerare ed elaborare tutti gli oggetti che condividono il prefisso del nome della directory.

Costi e prestazioni ottimizzati

Azure Data Lake Storage è distribuito al prezzo dei livelli di Archiviazione BLOB di Azure. È basato sulle funzionalità di Archiviazione BLOB di Azure, ad esempio la gestione automatica dei criteri del ciclo di vita e l'organizzazione a livello di oggetto per gestire i costi di archiviazione dei Big Data.

Le prestazioni sono ottimizzate perché non è necessario copiare o trasformare i dati come prerequisiti per l'analisi. La funzionalità dello spazio dei nomi gerarchico di Azure Data Lake Storage consente un accesso e una navigazione efficienti. Con questa architettura l'elaborazione dei dati richiede meno risorse di calcolo, riducendo così sia la velocità che il costo di accesso ai dati.

Modello di sicurezza con granularità più fine

Il modello di controllo di accesso di Azure Data Lake Storage supporta sia il controllo degli accessi in base al ruolo di Azure che l'interfaccia del sistema operativo portabile per gli elenchi di controllo di accesso UNIX (POSIX). Sono disponibili anche alcune impostazioni di sicurezza aggiuntive specifiche di Azure Data Lake Storage. È possibile impostare le autorizzazioni a livello di directory o a livello di file. Tutti i dati archiviati vengono crittografati mentre sono inattivi usando chiavi di crittografia gestite da Microsoft o gestite dal cliente.

Scalabilità elevata

Azure Data Lake Storage offre la possibilità di archiviare grandi quantità di dati e accetta numerosi tipi di dati per l'analisi. Non viene imposto alcun limite alle dimensioni degli account, alle dimensioni dei file o alla quantità di dati che è possibile archiviare in un data lake. I singoli file possono avere dimensioni da pochi kilobyte (KB) a pochi petabyte (PB). L'elaborazione viene eseguita a una latenza per richiesta quasi costante, misurata a livello di servizio, account e file.

Grazie a questo design, Azure Data Lake Storage può aumentare le prestazioni in modo semplice e rapido per soddisfare i carichi di lavoro più impegnativi. È in grado anche di dimensionarsi facilmente quando la domanda si riduce.

Basato su Archiviazione BLOB di Azure

I dati inseriti vengono mantenuti come BLOB nell'account di archiviazione. Il servizio che gestisce i BLOB è il servizio Archiviazione BLOB di Azure. Data Lake Storage descrive le funzionalità o i "miglioramenti" per questo servizio che soddisfa le esigenze dei carichi di lavoro analitici di Big Data.

Poiché queste funzionalità sono basate sull'archiviazione BLOB, sono disponibili funzionalità come la registrazione diagnostica, i livelli di accesso e i criteri di gestione del ciclo di vita per l'account. La maggior parte delle funzionalità di archiviazione BLOB è completamente supportata, ma alcune funzionalità potrebbero essere supportate solo a livello di anteprima mentre alcune funzionalità non sono ancora supportate. Per un elenco completo delle istruzioni di supporto, vedere Supporto delle funzionalità di archiviazione BLOB negli account di archiviazione di Azure. Lo stato di ogni funzionalità elencata cambierà nel corso del tempo man mano che il supporto continua ad espandersi.

Documentazione e terminologia

Il sommario di Archiviazione BLOB di Azure include due sezioni di contenuto. La sezione Data Lake Storage di contenuto fornisce procedure consigliate e linee guida per l'uso delle funzionalità di Data Lake Storage. La sezione archiviazione BLOB del contenuto fornisce indicazioni per le funzionalità dell'account non specifiche di Data Lake Storage.

Durante lo spostamento tra le sezioni, è possibile notare alcune lievi differenze di terminologia. Ad esempio, il contenuto incluso nella documentazione di Archiviazione BLOB userà il termine BLOB anziché file. Tecnicamente, i file inseriti nell'account di archiviazione diventano BLOB nell'account. Pertanto, il termine è corretto. Tuttavia, il termine BLOB può causare confusione se si usa il termine file. Verrà anche visualizzato il termine contenitore usato per fare riferimento a un file system. È opportuno considerare questi termini come sinonimi.

Vedi anche