Che cos'è Azure Data Lake Storage Gen1?

Nota

Azure Data Lake Storage Gen1 è ora ritirato. Vedere l'annuncio di ritiro qui. Le risorse di Data Lake Storage Gen1 non sono più accessibili.

Azure Data Lake Storage Gen1 è un repository su vasta scala a livello aziendale per carichi di lavoro di analisi di Big Data. Azure Data Lake consente di acquisire dati di qualsiasi dimensione, tipo e velocità di inserimento in un'unica posizione per le analisi esplorative e operative.

Si può accedere a Data Lake Storage Gen1 da Hadoop (disponibile con i cluster HDInsight) mediante le API REST compatibili con WebHDFS. È progettato per consentire l'analisi dei dati archiviati e ottimizzato per offrire prestazioni elevate in scenari di analisi dei dati. Azure Data Lake Storage Gen1 include tutte le funzionalità di livello aziendale: sicurezza, gestibilità, scalabilità, affidabilità e disponibilità.

Azure Data Lake

Funzionalità chiave

Di seguito sono riportate alcune delle principali funzionalità di Data Lake Storage Gen1.

Creato per Hadoop

Data Lake Storage Gen1 è un file system Apache Hadoop compatibile con HDFS (Hadoop Distributed File System) e con l'ecosistema Hadoop. Le applicazioni HDInsight esistenti o i servizi che usano l'API WebHDFS possono integrarsi facilmente con Data Lake Storage Gen1. Data Lake Storage Gen1 presenta anche un'interfaccia REST compatibile con WebHDFS per le applicazioni.

I dati archiviati in Data Lake Storage Gen1 possono essere analizzati facilmente mediante framework di analisi di Hadoop come MapReduce o Hive. È possibile effettuare il provisioning dei cluster Azure HDInsight e configurarli per accedere direttamente ai dati archiviati in Data Lake Storage Gen1.

Archiviazione illimitata, file dei petabyte

Data Lake Storage Gen1 offre un'archiviazione illimitata e può archiviare una varietà di dati per l'analisi. Non impone alcun limite per le dimensioni degli account, le dimensioni dei file o la quantità di dati che possono essere archiviati in un data lake. Le dimensioni dei singoli file possono spaziare da pochi kilobyte a diversi petabyte. I dati vengono archiviati in modo permanente mediante la creazione di più copie. Non esiste alcun limite sulla durata del periodo di archiviazione dei dati nel data lake.

Prestazioni ottimizzate per l'analisi di Big Data

Data Lake Storage Gen1 è progettato per l'esecuzione di sistemi di analisi su larga scala che richiedono una velocità effettiva molto elevata per eseguire query e analisi su grandi quantità di dati. Il Data Lake propaga parti di un file su un numero di singoli server di archiviazione. Ciò migliora la velocità effettiva di lettura durante la lettura in parallelo del file per l'esecuzione dell’analisi dei dati.

Pronto per le aziende: disponibilità elevata e sicurezza

Data Lake Storage Gen1 offre affidabilità e disponibilità standard del settore. Gli asset di dati vengono archiviati in modo permanente creando copie ridondanti per salvaguardarsi da eventuali errori imprevisti.

Data Lake Storage Gen1 offre anche la protezione a livello aziendale per i dati archiviati. Per altre informazioni, vedere Protezione dei dati in Azure Data Lake Storage Gen1.

Tutti i dati

Data Lake Storage Gen1 può archiviare qualsiasi tipo dii dati nel formato nativo, senza alcuna trasformazione preliminare. Data Lake Storage Gen1 non richiede la definizione di uno schema prima che i dati vengano caricati, lasciando al singolo framework di analisi l'interpretazione dei dati e la definizione di uno schema al momento dell'analisi. La capacità di archiviare file di qualsiasi dimensione e formato consente a Data Lake Storage Gen1 di gestire dati strutturati, semi-strutturati e non strutturati.

I contenitori Data Lake Storage Gen1 per i dati sono essenzialmente cartelle e file. I dati archiviati vengono eseguiti usando SDK, i portale di Azure e Azure PowerShell. Se si inseriscono i dati nell'archivio usando queste interfacce e i contenitori appropriati, è possibile archiviare qualsiasi tipo di dati. Data Lake Storage Gen1 non esegue una gestione particolare dei dati in base al tipo di dati archiviati.

Protezione dei dati

Data Lake Storage Gen1 usa Microsoft Entra ID per l'autenticazione e gli elenchi di controllo di accesso (ACL) per gestire l'accesso ai dati.

Funzionalità Descrizione
Autenticazione Data Lake Storage Gen1 si integra con Microsoft Entra ID per la gestione delle identità e degli accessi per tutti i dati archiviati in Data Lake Storage Gen1. A causa dell'integrazione, Data Lake Storage Gen1 trae vantaggio da tutte le funzionalità di Microsoft Entra, ad esempio l'autenticazione a più fattori, l'accesso condizionale, il controllo degli accessi in base al ruolo di Azure, il monitoraggio dell'utilizzo delle applicazioni, il monitoraggio della sicurezza e gli avvisi e così via. Data Lake Storage Gen1 supporta il protocollo OAuth 2.0 per l'autenticazione nell'interfaccia REST. Vedere Autenticazione di Data Lake Storage Gen1.
Controllo di accesso Data Lake Storage Gen1 offre il controllo di accesso mediante il supporto delle autorizzazioni di tipo POSIX esposte dal protocollo WebHDFS. È possibile abilitare gli elenchi di controllo di accesso nella cartella radice, nelle sottocartelle e nei singoli file. Per altre informazioni sul funzionamento di questi elenchi nel contesto di Data Lake Storage Gen1, vedere Controllo di accesso in Data Lake Storage Gen1.
Crittografia Data Lake Storage Gen1 offre anche la crittografia dei dati archiviati nell'account. Le impostazioni della crittografia vengono specificate durante la creazione di un account Data Lake Storage Gen1. È possibile scegliere di crittografare i dati oppure di fare a meno della crittografia. Per altre informazioni, vedere Crittografia in Data Lake Storage Gen1. Per istruzioni su come specificare la configurazione relativa alla crittografia, vedere Iniziare a usare Data Lake Storage Gen1 tramite il portale di Azure.

Per istruzioni su come proteggere i dati in Data Lake Storage Gen1, vedere Protezione dei dati in Azure Data Lake Storage Gen1.

Compatibilità delle applicazioni

Data Lake Storage Gen1 è compatibile con la maggior parte dei componenti open source nell'ecosistema Hadoop. Si integra bene anche con altri servizi di Azure. Per altre informazioni su come usare Data Lake Storage Gen1 con componenti open source e altri servizi di Azure, usare i collegamenti seguenti:

File system di Data Lake Storage Gen1

È possibile accedere a Data Lake Storage Gen1 tramite il file system AzureDataLakeFilesystem (adl://) negli ambienti Hadoop (disponibile con il cluster HDInsight). Le applicazioni e i servizi che usano adl:// possono sfruttare altre ottimizzazioni delle prestazioni che non sono attualmente disponibili in WebHDFS. Di conseguenza, Data Lake Storage Gen1 offre la flessibilità di scegliere se ottenere prestazioni ottimali con l'uso consigliato di adl:// o mantenere il codice esistente continuando a usare direttamente l'API WebHDFS. Azure HDInsight usa AzureDataLakeFilesystem per offrire le migliori prestazioni in Data Lake Storage Gen1.

È possibile accedere ai dati in Data Lake Storage Gen1 usando adl://<data_lake_storage_gen1_name>.azuredatalakestore.net. Per altre informazioni su come accedere ai dati in Data Lake Storage Gen1, vedere Visualizzare le proprietà dei dati archiviati.

Passaggi successivi