Scegliere una tecnologia di elaborazione batch in Azure

Le soluzioni Big Data spesso sono costituite da attività di elaborazione batch discrete che contribuiscono alla soluzione di elaborazione dei dati complessiva. È possibile usare l'elaborazione batch per i carichi di lavoro che non richiedono l'accesso immediato alle informazioni dettagliate. L'elaborazione batch può integrare i requisiti di elaborazione in tempo reale. È anche possibile usare l'elaborazione batch per bilanciare la complessità e ridurre i costi per l'implementazione complessiva.

Il requisito fondamentale dei motori di elaborazione batch consiste nell'aumentare le istanze dei calcoli per gestire un volume elevato di dati. A differenza dell'elaborazione in tempo reale, l'elaborazione batch ha latenze o il tempo tra l'inserimento dei dati e il calcolo di un risultato, di minuti o ore.

Scegliere una tecnologia per l'elaborazione batch

Microsoft offre diversi servizi che è possibile usare per eseguire l'elaborazione batch.

Microsoft Fabric

Microsoft Fabric è una piattaforma dati e analitica all-in-one per le organizzazioni. Si tratta di un'offerta software as a service che semplifica il provisioning, la gestione e la governance di una soluzione di analitica end-to-end. Fabric gestisce lo spostamento, l'elaborazione, l'inserimento, la trasformazione e la creazione di report. Le funzionalità di infrastruttura usate per l'elaborazione batch includono progettazione dei dati, data warehouse, lakehouse ed elaborazione di Apache Spark. Azure Data Factory in Fabric supporta anche lakehouse. Per semplificare e accelerare lo sviluppo, è possibile abilitare copilot guidato dall'intelligenza artificiale.

  • Linguaggi: R, Python, Java, Scala e SQL

  • Sicurezza: rete virtuale gestita e controllo degli accessi in base al ruolo (RBAC) di OneLake

  • Archiviazione primaria: OneLake, con scelte rapide e opzioni di mirroring

  • Spark: un pool di avvio preidratato e un pool di Spark personalizzato con dimensioni predefinite dei nodi

Azure Synapse Analytics

Azure Synapse Analitica è un servizio di analitica aziendale che riunisce tecnologie SQL e Spark in un singolo costrutto di un'area di lavoro. Azure Synapse Analitica semplifica la sicurezza, la governance e la gestione. Ogni area di lavoro include pipeline di dati integrate che è possibile usare per creare flussi di lavoro end-to-end. È anche possibile effettuare il provisioning di un pool SQL dedicato per analitica su larga scala, un endpoint SQL serverless che è possibile usare per eseguire direttamente query sul lake e un runtime Spark per l'elaborazione dei dati distribuita.

  • Linguaggi: Python, Java, Scala e SQL

  • Sicurezza: rete virtuale gestita, controllo degli accessi in base al ruolo e controllo di accesso e elenchi di controllo di accesso alle risorse di archiviazione in Azure Data Lake Storage

  • Archiviazione primaria: Data Lake Storage e si integra anche con altre origini

  • Spark: configurazione di Spark personalizzata con dimensioni predefinite dei nodi

Azure Databricks

Azure Databricks è una piattaforma di analitica basata su Spark. Offre funzionalità Spark avanzate e premium basate su Spark open source. Azure Databricks è un servizio Microsoft che si integra con il resto dei servizi di Azure. Offre configurazioni aggiuntive per le distribuzioni di cluster Spark. Unity Catalog semplifica la governance degli oggetti Spark di Azure Databricks.

  • Linguaggi: R, Python, Java, Scala e Spark SQL.

  • Sicurezza: autenticazione utente con MICROSOFT Entra ID.

  • Archiviazione primaria: integrazione predefinita con Archiviazione BLOB di Azure, Data Lake Storage, Azure Synapse Analitica e altri servizi. Per altre informazioni, vedere Origini dati.

Altri vantaggi includono:

  • Notebook basati sul Web per la collaborazione e l'esplorazione dei dati.

  • Tempi di avvio rapidi del cluster, terminazione automatica e scalabilità automatica.

  • Supporto per i cluster abilitati per GPU.

Criteri di scelta principali

Per scegliere la tecnologia per l'elaborazione batch, considerare le domande seguenti:

  • Si vuole un servizio gestito o si vogliono gestire i propri server?

  • Si desidera creare la logica di elaborazione batch in modo dichiarativo o imperativo?

  • Si esegue l'elaborazione batch in burst? In caso affermativo, prendere in considerazione le opzioni che consentono di terminare automaticamente un cluster o che dispongono di modelli di prezzi per ogni processo batch.

  • È necessario eseguire query sugli archivi dati relazionali durante l'elaborazione batch, ad esempio per cercare dati di riferimento? In caso affermativo, prendere in considerazione le opzioni che consentono di eseguire query su archivi relazionali esterni.

Matrice delle funzionalità

Le tabelle seguenti riepilogano le differenze principali nelle funzionalità tra i servizi.

Funzionalità generali

Funzionalità Infrastruttura Azure Synapse Analytics Azure Databricks
Software come un servizio 1 No No
Servizio gestito No
Archivio dati relazionale
Modello di determinazione prezzi Unità di capacità Ora del pool SQL o del cluster Unità di Azure Databricks 2 e ora del cluster

[1] Capacità dell'infrastruttura assegnata.

[2] Un'unità di Azure Databricks è la funzionalità di elaborazione all'ora.

Altre funzionalità

Funzionalità Infrastruttura Azure Synapse Analytics Azure Databricks
Scalabilità automatica No No
Granularità della scalabilità orizzontale SKU per infrastruttura Per cluster o per pool SQL Per cluster
Memorizzazione nella cache dei dati in memoria No
Query da archivi relazionali esterni No
Autenticazione Microsoft Entra ID SQL o Microsoft Entra ID Microsoft Entra ID
Controllo
Sicurezza a livello di riga 1
Supporto dei firewall
Maschera dati dinamica

[1] Solo predicati filtro. Per altre informazioni, vedere Sicurezza a livello di riga.

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autori principali:

Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.

Passaggi successivi