Scegliere una tecnologia di elaborazione batch in Azure

Articolo
08/13/2024

Le soluzioni Big Data spesso sono costituite da attività di elaborazione batch discrete che contribuiscono alla soluzione di elaborazione dei dati complessiva. È possibile usare l'elaborazione batch per i carichi di lavoro che non richiedono l'accesso immediato alle informazioni dettagliate. L'elaborazione batch può integrare i requisiti di elaborazione in tempo reale. È anche possibile usare l'elaborazione batch per bilanciare la complessità e ridurre i costi per l'implementazione complessiva.

Il requisito fondamentale dei motori di elaborazione batch consiste nell'aumentare le istanze dei calcoli per gestire un volume elevato di dati. A differenza dell'elaborazione in tempo reale, l'elaborazione batch ha latenze o il tempo tra l'inserimento dei dati e il calcolo di un risultato, di minuti o ore.

Scegliere una tecnologia per l'elaborazione batch

Microsoft offre diversi servizi che è possibile usare per eseguire l'elaborazione batch.

Microsoft Fabric

Microsoft Fabric è una piattaforma dati e analitica all-in-one per le organizzazioni. Si tratta di un'offerta software as a service che semplifica il provisioning, la gestione e la governance di una soluzione di analitica end-to-end. Fabric gestisce lo spostamento, l'elaborazione, l'inserimento, la trasformazione e la creazione di report. Le funzionalità di infrastruttura usate per l'elaborazione batch includono progettazione dei dati, data warehouse, lakehouse ed elaborazione di Apache Spark. Azure Data Factory in Fabric supporta anche lakehouse. Per semplificare e accelerare lo sviluppo, è possibile abilitare copilot guidato dall'intelligenza artificiale.

Linguaggi: R, Python, Java, Scala e SQL
Sicurezza: rete virtuale gestita e controllo degli accessi in base al ruolo (RBAC) di OneLake
Archiviazione primaria: OneLake, con scelte rapide e opzioni di mirroring
Spark: un pool di avvio preidratato e un pool di Spark personalizzato con dimensioni predefinite dei nodi

Azure Synapse Analytics

Azure Synapse Analitica è un servizio di analitica aziendale che riunisce tecnologie SQL e Spark in un singolo costrutto di un'area di lavoro. Azure Synapse Analitica semplifica la sicurezza, la governance e la gestione. Ogni area di lavoro include pipeline di dati integrate che è possibile usare per creare flussi di lavoro end-to-end. È anche possibile effettuare il provisioning di un pool SQL dedicato per analitica su larga scala, un endpoint SQL serverless che è possibile usare per eseguire direttamente query sul lake e un runtime Spark per l'elaborazione dei dati distribuita.

Linguaggi: Python, Java, Scala e SQL
Sicurezza: rete virtuale gestita, controllo degli accessi in base al ruolo e controllo di accesso e elenchi di controllo di accesso alle risorse di archiviazione in Azure Data Lake Storage
Archiviazione primaria: Data Lake Storage e si integra anche con altre origini
Spark: configurazione di Spark personalizzata con dimensioni predefinite dei nodi

Azure Databricks

Azure Databricks è una piattaforma di analitica basata su Spark. Offre funzionalità Spark avanzate e premium basate su Spark open source. Azure Databricks è un servizio Microsoft che si integra con il resto dei servizi di Azure. Offre configurazioni aggiuntive per le distribuzioni di cluster Spark. Unity Catalog semplifica la governance degli oggetti Spark di Azure Databricks.

Linguaggi: R, Python, Java, Scala e Spark SQL.
Sicurezza: autenticazione utente con MICROSOFT Entra ID.
Archiviazione primaria: integrazione predefinita con Archiviazione BLOB di Azure, Data Lake Storage, Azure Synapse Analitica e altri servizi. Per altre informazioni, vedere Origini dati.

Altri vantaggi includono:

Notebook basati sul Web per la collaborazione e l'esplorazione dei dati.
Tempi di avvio rapidi del cluster, terminazione automatica e scalabilità automatica.
Supporto per i cluster abilitati per GPU.

Criteri di scelta principali

Per scegliere la tecnologia per l'elaborazione batch, considerare le domande seguenti:

Si vuole un servizio gestito o si vogliono gestire i propri server?
Si desidera creare la logica di elaborazione batch in modo dichiarativo o imperativo?
Si esegue l'elaborazione batch in burst? In caso affermativo, prendere in considerazione le opzioni che consentono di terminare automaticamente un cluster o che dispongono di modelli di prezzi per ogni processo batch.
È necessario eseguire query sugli archivi dati relazionali durante l'elaborazione batch, ad esempio per cercare dati di riferimento? In caso affermativo, prendere in considerazione le opzioni che consentono di eseguire query su archivi relazionali esterni.

Matrice delle funzionalità

Le tabelle seguenti riepilogano le differenze principali nelle funzionalità tra i servizi.

Funzionalità generali

Funzionalità	Infrastruttura	Azure Synapse Analytics	Azure Databricks
Software come un servizio	Sì¹	No	No
Servizio gestito	No	Sì	Sì
Archivio dati relazionale	Sì	Sì	Sì
Modello di determinazione prezzi	Unità di capacità	Ora del pool SQL o del cluster	Unità ^{di Azure Databricks 2} e ora del cluster

[1] Capacità dell'infrastruttura assegnata.

[2] Un'unità di Azure Databricks è la funzionalità di elaborazione all'ora.

Altre funzionalità

Funzionalità	Infrastruttura	Azure Synapse Analytics	Azure Databricks
Scalabilità automatica	No	No	Sì
Granularità della scalabilità orizzontale	SKU per infrastruttura	Per cluster o per pool SQL	Per cluster
Memorizzazione nella cache dei dati in memoria	No	Sì	Sì
Query da archivi relazionali esterni	Sì	No	Sì
Autenticazione	Microsoft Entra ID	SQL o Microsoft Entra ID	Microsoft Entra ID
Controllo	Sì	Sì	Sì
Sicurezza a livello di riga	Sì	Sì ¹	Sì
Supporto dei firewall	Sì	Sì	Sì
Maschera dati dinamica	Sì	Sì	Sì

[1] Solo predicati filtro. Per altre informazioni, vedere Sicurezza a livello di riga.

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autori principali:

Zoiner Tejada | CEO e architetto
Pratima Valavala | Principal Solutions Architect

Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.

Condividi tramite

Scegliere una tecnologia di elaborazione batch in Azure

Scegliere una tecnologia per l'elaborazione batch

Microsoft Fabric

Azure Synapse Analytics

Azure Databricks

Criteri di scelta principali

Matrice delle funzionalità

Funzionalità generali

Altre funzionalità

Collaboratori

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Scegliere una tecnologia di elaborazione batch in Azure

Scegliere una tecnologia per l'elaborazione batch

Microsoft Fabric

Azure Synapse Analytics

Azure Databricks

Criteri di scelta principali

Matrice delle funzionalità

Funzionalità generali

Altre funzionalità

Collaboratori

Passaggi successivi

Risorse correlate

Commenti e suggerimenti

Risorse aggiuntive