Scegliere una tecnologia per l'archiviazione di Big Data in Azure

L'articolo mette a confronto le opzioni di archiviazione disponibili per le soluzioni di Big Data, in particolare l'inserimento di dati in blocco e l'elaborazione batch, e le tecnologie per gli archivi dati analitici o l'inserimento streaming in tempo reale.

Opzioni disponibili per la scelta di una tecnologia per l'archiviazione di dati in Azure

Sono disponibili diverse opzioni per l'inserimento di dati in Azure, in base alle esigenze specifiche.

Data Lake logico unificato:

Archiviazione file:

Database NoSQL:

Database analitici:

OneLake in Fabric

OneLake in Fabric è un data lake unificato e logico personalizzato per l'intera organizzazione. Funge da hub centrale per tutti i dati di analisi ed è incluso in ogni tenant di Microsoft Fabric. OneLake in Fabric si basa sulla base di Data Lake Storage Gen2.

OneLake in Fabric:

  • Supporta tipi di file strutturati e non strutturati.
  • Archivia tutti i dati tabulari in formato Delta Parquet.
  • Fornisce un singolo data lake entro i limiti del tenant regolati per impostazione predefinita.
  • Supporta la creazione di aree di lavoro all'interno di un tenant in modo che un'organizzazione possa distribuire i criteri di proprietà e accesso.
  • Supporta la creazione di vari elementi di dati, ad esempio lakehouse e warehouse, da cui è possibile accedere ai dati.

OneLake in Fabric funge da posizione di archiviazione comune per l'acquisizione, la trasformazione, le informazioni dettagliate in tempo reale e le visualizzazioni di business intelligence. Centralizza vari servizi di Fabric e archivia gli elementi di dati usati da tutti i carichi di lavoro in Fabric. Per scegliere l'archivio dati corretto per i carichi di lavoro di Infrastruttura, vedere Guida alle decisioni sull'infrastruttura: scegliere un archivio dati.

BLOB di Archiviazione di Azure

Archiviazione di Azure è un servizio di archiviazione gestito altamente disponibile, sicuro, affidabile, scalabile e ridondante. Microsoft si occupa della manutenzione e gestisce i problemi critici per conto dell'utente. Archiviazione di Azure è la soluzione di archiviazione più diffusa offerta da Azure grazie alla possibilità di integrazione di un numero elevato di servizi e strumenti.

In Archiviazione di Azure sono disponibili vari servizi per archiviare i dati. L'opzione più flessibile per l'archiviazione di BLOB da più origini dati è Archiviazione BLOB. I BLOB sono essenzialmente file in cui vengono archiviati dati di qualsiasi tipo, ad esempio immagini, documenti, file HTML, dischi rigidi virtuali, Big Data come log, backup di database. I BLOB vengono archiviati nei contenitori, che sono simili alle cartelle. Un contenitore consente di raggruppare un set di BLOB. Un account di archiviazione può contenere un numero illimitato di contenitori, ciascuno dei quali può archiviare un numero illimitato di BLOB.

Archiviazione di Azure è una scelta ottimale per le soluzioni per l'analisi e i Big Data, grazie alla flessibilità, alla disponibilità elevata e ai costi contenuti. Offre diversi livelli di archiviazione, ad accesso frequente, ad accesso sporadico e archivio, per diversi casi d'uso. Per altre informazioni, vedere Archivio BLOB di Azure: livelli di archiviazione ad accesso frequente, ad accesso sporadico e archivio.

Archiviazione BLOB di Azure è accessibile da Hadoop (disponibile tramite HDInsight). HDInsight può usare un contenitore BLOB in Archiviazione di Azure come file system predefinito per il cluster. Grazie a un'interfaccia HDFS (Hadoop Distributed File System) fornita da un driver WASB, tutti i componenti disponibili in HDInsight possono agire direttamente sui dati strutturati o non strutturati archiviati come BLOB. Archiviazione BLOB di Azure è accessibile anche tramite Azure Synapse Analytics con la funzionalità PolyBase.

Archiviazione di Azure rappresenta un'ottima scelta anche per altre funzionalità, in particolare:

Data Lake Storage Gen2

Data Lake Storage Gen2 è un singolo repository centralizzato in cui è possibile archiviare tutti i dati, sia strutturati che non strutturati. Un data lake consente all'organizzazione di archiviare, accedere e analizzare in modo semplice e rapido un'ampia gamma di dati in un'unica posizione. Con un data lake, non è necessario adattare i dati a una struttura esistente. È invece possibile archiviare i dati nel formato non elaborato o nativo, in genere come file o come oggetti binari di grandi dimensioni (BLOB).

Data Lake Storage Gen2 converge le funzionalità di Azure Data Lake Storage Gen1 con Archiviazione BLOB di Azure. Offre ad esempio semantica dei file system, sicurezza a livello di file e scalabilità. Poiché queste funzionalità sono basate sull'archiviazione BLOB, è anche possibile ottenere un archivio a basso costo, a livelli, con funzionalità di disponibilità elevata/ripristino di emergenza.

Data Lake Storage Gen2 usa Archiviazione di Azure come base per la compilazione di Enterprise Data Lake (EDL) in Azure. Progettato dall'inizio per servire più petabyte di informazioni supportando al contempo centinaia di Gigabit di velocità effettiva, Data Lake Storage Gen2 consente di gestire facilmente grandi quantità di dati.

Azure Cosmos DB

Azure Cosmos DB è il database multimodello distribuito a livello globale di Microsoft. Azure Cosmos DB garantisce latenze di pochi millisecondi al 99° percentile ovunque nel mondo, offre più modelli di coerenza ben definiti per ottimizzare le prestazioni e garantisce la disponibilità elevata con funzionalità di multihosting.

Azure Cosmos DB è completamente indipendente dallo schema. Indicizza automaticamente tutti i dati senza che sia necessario gestire manualmente indici e schemi. È anche un database multimodello e supporta in modalità nativa modelli di dati basati su documenti, coppie chiave-valore, grafi e famiglie di colonne.

Funzionalità di Azure Cosmos DB:

HBase in HDInsight

Apache HBase è un database NoSQL open source basato su Hadoop e modellato su Google BigTable. HBase fornisce accesso casuale e coerenza assoluta per quantità elevate di dati non strutturati e semistrutturati in un database privo di schema organizzato in base a famiglie di colonne.

I dati sono archiviati nelle righe di una tabella e i dati di ogni riga sono raggruppati in base al tipo di colonna. HBase è un database privo di schema poiché non è necessario definire le colonne o il tipo di dati archiviati nelle colonne prima dell'uso. Il codice open source offre scalabilità lineare, in modo da gestire petabyte di dati in migliaia di nodi. Può contare su ridondanza dei dati, elaborazione batch e altre funzionalità offerte dalle applicazioni distribuite nell'ecosistema di Hadoop.

L'implementazione di HDInsight usa l'architettura con scalabilità orizzontale di HBase per automatizzare il partizionamento orizzontale delle tabelle, la coerenza assoluta delle operazioni di lettura e scrittura e il failover automatico. Le prestazioni sono ottimizzate dalla cache in memoria per le operazioni di lettura e da flussi a velocità effettiva elevata per quelle di scrittura. Nella maggior parte dei casi è opportuno creare il cluster HBase all'interno di una rete virtuale per consentire ad altri cluster e applicazioni HDInsight di accedere direttamente alle tabelle.

Esplora dati di Azure

Esplora dati di Azure è un servizio di esplorazione dati rapido e a scalabilità elevata per dati di log e di telemetria. Consente di gestire i numerosi flussi di dati generati dal software moderno, in modo da poter raccogliere, archiviare e analizzare i dati. Esplora dati di Azure è ideale per l'analisi di grandi volumi di dati eterogenei da qualsiasi origine dati, ad esempio siti Web, applicazioni, dispositivi IoT e altro ancora. Questi dati vengono usati per la diagnostica, il monitoraggio, la creazione di report, l'apprendimento automatico e altre funzionalità di analisi. Esplora dati di Azure semplifica l'inserimento dei dati e consente di eseguire complesse query ad hoc sui dati in pochi secondi.

Esplora dati di Azure supporta l'aumento lineare per l'incremento della velocità effettiva di elaborazione delle query e dell'inserimento dati. Per abilitare le reti private, è possibile distribuire in una rete virtuale un cluster di Esplora dati di Azure.

Criteri di scelta principali

Per limitare le possibilità di scelta, rispondere prima di tutto a queste domande:

  • È necessario un data lake unificato con supporto multicloud, governance affidabile e integrazione senza problemi con gli strumenti analitici? In caso affermativo, scegliere OneLake in Fabric per semplificare la gestione dei dati e la collaborazione avanzata.

  • È necessaria una soluzione di archiviazione gestita, ad alta velocità, basata sul cloud per qualsiasi tipo di dati di testo o binari? In caso affermativo, scegliere una delle opzioni di analisi o archiviazione di file.

  • È necessaria una soluzione di archiviazione di file ottimizzata per carichi di lavoro di analisi paralleli, alta velocità effettiva e numero elevato di operazioni di I/O al secondo? In caso affermativo, scegliere un'opzione ottimizzata per le prestazioni richieste dai carichi di lavoro di analisi.

  • È necessario archiviare dati non strutturati o semistrutturati in un database privo di schema? In caso affermativo, scegliere una delle opzioni di analisi o non relazionali. Mettere a confronto le opzioni per i modelli di indicizzazione e database. A seconda del tipo di dati da archiviare, i modelli di database primario possono offrire la massima capacità.

  • È possibile usare il servizio nella propria area? Controllare la disponibilità di ogni servizio di Azure a livello di area. Per altre informazioni, vedere Prodotti disponibili in base all'area.

Matrice delle funzionalità

Le tabelle seguenti contengono un riepilogo delle differenze principali in termini di funzionalità.

Funzionalità di OneLake in Fabric

Funzionalità OneLake in Fabric
Unified Data Lake Fornisce un singolo data lake unificato per l'intera organizzazione, che elimina i silo di dati.
Supporto per più cloud: Supporta l'integrazione e la compatibilità con varie piattaforme cloud.
Governance dei dati Include funzionalità come la derivazione dei dati, la protezione dei dati, la certificazione e l'integrazione del catalogo.
Hub dati centralizzato Funge da hub centralizzato per l'individuazione e la gestione dei dati.
Supporto del motore analitico Compatibile con più motori analitici. Questa compatibilità consente a diversi strumenti e tecnologie di operare sugli stessi dati.
Sicurezza e conformità Garantisce che i dati sensibili rimangano sicuri e l'accesso sia limitato solo agli utenti autorizzati.
Semplicità d'uso Fornisce una progettazione intuitiva che è automaticamente disponibile con ogni tenant di Fabric e non richiede alcuna configurazione.
Scalabilità In grado di gestire grandi volumi di dati da varie origini.

Funzionalità per l'archiviazione di file

Funzionalità Data Lake Storage Gen2 Contenitori di Archiviazione BLOB di Azure
Scopo Archiviazione ottimizzata per carichi di lavoro di analisi dei Big Data Archivio di oggetti generico per un'ampia gamma di scenari di archiviazione
Casi d'uso Dati batch, analisi di flusso e di apprendimento automatico come file di log, dati IoT, dati clickstream e set di dati di grandi dimensioni Qualsiasi tipo di dati di testo o binari, come back-end di applicazioni, dati di backup, archiviazione di supporti per streaming e dati di utilizzo generico
Struttura File system gerarchico Archivio di oggetti con spazio dei nomi flat
Autenticazione In base alle identità di Microsoft Entra Basata su segreti condivisi, chiavi di accesso dell'account e chiavi di firma di accesso condiviso, e Controllo degli accessi in base al ruolo (Azure RBAC)
Protocollo di autenticazione Aprire l'autorizzazione (OAuth) 2.0. Le chiamate devono contenere un token JWT valido (token Web JSON) rilasciato dall'ID Microsoft Entra Hash-based Message Authentication Code (HMAC). Le chiamate devono contenere un hash SHA-256 con codifica Base64 su una parte della richiesta HTTP.
Autorizzazione Elenchi di controllo di accesso POSIX (Portable Operating System Interface). Gli ACL basati sulle identità di Microsoft Entra possono essere impostati a livello di file e cartelle. Per l'autorizzazione a livello di account, usare chiavi di accesso dell'account e per l'autorizzazione relativa ad account, contenitori o BLOB, usare chiavi di firma di accesso condiviso
Eseguire i controlli Disponibile. Disponibile
Crittografia di dati inattivi Trasparente, lato server Trasparente, lato server; crittografia lato client
SDK per sviluppatori .NET, Java, Python, Node.js .NET, Java, Python, Node.js, C++, Ruby
Prestazioni per carichi di lavoro di analisi Prestazioni ottimizzate per carichi di lavoro di analisi paralleli, alta velocità effettiva e numero elevato di operazioni di I/O al secondo Non è ottimizzato per carichi di lavoro di analisi.
Limiti di dimensione Nessun limite di dimensioni per l'account, i file o il numero di file Limiti specifici documentati qui
Ridondanza geografica Ridondanza locale (archiviazione con ridondanza locale), ridondanza globale (archiviazione con ridondanza geografica), ridondanza globale dell'accesso in lettura (archiviazione con ridondanza geografica e accesso in lettura), ridondanza della zona (archiviazione con ridondanza della zona)). Archiviazione con ridondanza locale, archiviazione con ridondanza geografica, archiviazione con ridondanza geografica e accesso in lettura e archiviazione con ridondanza della zona. Per altre informazioni, vedere Ridondanza di Archiviazione di Azure.

Funzionalità di database NoSQL

Funzionalità Azure Cosmos DB HBase in HDInsight
Modello di database primario Archivio a documenti, a grafo, a chiave-valore, a colonne esteso Archivio a colonne esteso
Indici secondari No
Supporto per il linguaggio SQL Sì (con il driver JDBC Phoenix)
Coerenza Assoluta, decadimento ristretto, sessione, coerenza del prefisso, finale Assoluto
Integrazione nativa di Funzioni di Azure No
Distribuzione globale automatica Non è possibile configurare una replica di cluster HBase in aree geografiche con coerenza finale
Modello di determinazione prezzi Unità richiesta (RU) scalabili in modo elastico addebitate al secondo in base alle esigenze, archiviazione scalabile in modo elastico Prezzi al minuto per il cluster HDInsight (scalabilità orizzontale dei nodi), archiviazione

Funzionalità di database analitici

Funzionalità Esplora dati di Azure
Modello di database primario Archivio relazionale (archivio colonne), dati di telemetria e serie temporali
Supporto per il linguaggio SQL
Modello di determinazione prezzi Istanze del cluster con scalabilità elastica
Autenticazione In base alle identità di Microsoft Entra
Crittografia di dati inattivi Chiavi gestite dal cliente supportate
Prestazioni per carichi di lavoro di analisi Prestazioni ottimizzate per carichi di lavoro di analisi parallela
Limiti di dimensione Scalabilità lineare

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autore principale:

Passaggi successivi