Analisi e Business Intelligence (BI) sui dati di Azure Cosmos DB

Azure Cosmos DB offre diverse opzioni per abilitare l'analisi su larga scala e la creazione di report BI sui dati operativi.

Per ottenere informazioni significative sui dati di Azure Cosmos DB, potrebbe essere necessario eseguire query su più partizioni, raccolte o database. In alcuni casi, è possibile combinare questi dati con altre origini dati nell'organizzazione, ad esempio il database SQL di Azure, Azure Data Lake Storage Gen2 e così via. È inoltre possibile eseguire query con funzioni di aggregazione, ad esempio somma, conteggio e così via. Queste query richiedono una grande potenza di calcolo, che probabilmente consuma più unità di richiesta (UR) e, di conseguenza, queste query potrebbero potenzialmente influire potenzialmente sulle prestazioni del carico di lavoro cruciali.

Per isolare i carichi di lavoro transazionali dall'impatto sulle prestazioni di query analitiche complesse, i dati del database vengono inseriti di notte in una posizione centrale usando complesse pipeline di estrazione, trasformazione e caricamento (ETL). Tali analisi basate sull'ETL sono complesse, costose e con informazioni dettagliate ritardate sui dati aziendali.

Azure Cosmos DB risolve questi problemi offrendo offerte di analisi zero ETL ed economicamente vantaggiose.

Zero ETL, analisi near real-time in Azure Cosmos DB

Azure Cosmos DB offre analisi zero ETL e near real-time sui dati senza influenzare le prestazioni dei carichi di lavoro transazionali o delle unità di richiesta (UR). Queste offerte eliminano la necessità di pipeline ETL complesse, rendendo i dati di Azure Cosmos DB perfettamente disponibili ai motori di analisi. Con una latenza ridotta alle informazioni dettagliate, è possibile offrire una migliore esperienza ai clienti e reagire più rapidamente ai cambiamenti nelle condizioni di mercato o nell'ambiente aziendale. Ecco alcuni scenari di esempio è possibile ottenere informazioni rapide sui dati.

È possibile abilitare l'analisi zero ETL e la creazione di report di business intelligence in Azure Cosmos DB usando le opzioni seguenti:

  • Mirroring dei dati in Microsoft Fabric
  • Abilitazione del Collegamento ad Azure Synapse per accedere ai dati da Azure Synapse Analytics

Opzione 1: Eseguire il mirroring dei dati di Azure Cosmos DB in Microsoft Fabric

Il mirroring consente di trasferire facilmente i dati del database di Azure Cosmos DB in Microsoft Fabric. Con zero ETL, è possibile ottenere rapidamente informazioni aziendali avanzate sui dati di Azure Cosmos DB usando le funzionalità predefinite di analisi, business intelligence e intelligenza artificiale di Fabric.

I dati operativi di Cosmos DB vengono replicati in modo incrementale in Fabric OneLake in near real-time. I dati in OneLake vengono archiviati in formato Delta Parquet open source e resi disponibili per tutti i motori analitici in Fabric. Con l'accesso aperto, è possibile usarlo con vari servizi di Azure, ad esempio Azure Databricks, Azure HDInsight e altro ancora. OneLake consente anche di unificare il patrimonio di dati per le esigenze analitiche. I dati con mirroring possono essere uniti a qualsiasi altro dato in OneLake, ad esempio Lakehouses, Warehouses o altri collegamenti. È anche possibile aggiungere dati di Azure Cosmos DB con altre origini di database con mirroring, ad esempio il database SQL di Azure, Snowflake. È possibile eseguire query tra raccolte o database di Azure Cosmos DB con mirroring in OneLake.

Con il mirroring in Fabric, non è necessario unire servizi diversi da più fornitori. È invece possibile usufruire di un prodotto end-to-end altamente integrato e facile da usare progettato per semplificare le esigenze di analisi. È possibile usare T-SQL per eseguire query di aggregazione complesse e Spark per l'esplorazione dei dati. È possibile accedere facilmente ai dati nei notebook, usare l'analisi scientifica dei dati per creare modelli di Machine Learning e creare report di Power BI usando Direct Lake basato sull'integrazione avanzata di Copilot.

Diagramma del mirroring di Azure Cosmos DB in Microsoft Fabric.

Se si cercano analisi sui dati operativi in Azure Cosmos DB, il mirroring offre:

  • Zero ETL, analisi near real-time a costi vantaggiosi sui dati di Azure Cosmos DB senza incidere sull'utilizzo dell'unità di richiesta (UR)
  • Facilità di trasferimento dei dati tra varie origini in Fabric OneLake.
  • Miglioramento delle prestazioni delle query del motore SQL per la gestione delle tabelle delta, con ottimizzazioni degli ordini V
  • Tempo di avvio a freddo migliorato per il motore Spark con integrazione approfondita con ML/notebook
  • Integrazione in un solo clic con Power BI con Direct Lake e Copilot
  • Integrazione avanzata delle app per accedere a query e visualizzazioni con GraphQL
  • Aprire l'accesso a e da altri servizi, ad esempio Azure Databricks

Per iniziare a usare il mirroring, visitare "Introduzione all'esercitazione sul mirroring".

Il Collegamento ad Azure Synapse per Azure Cosmos DB crea una stretta integrazione tra Azure Cosmos DB e Azure Synapse Analytics, abilitando l'analisi zero ETL quasi in tempo reale sui dati operativi. I dati transazionali vengono sincronizzati facilmente con l'archivio analitico, che archivia i dati in formato a colonne ottimizzate per l'analisi.

Azure Synapse Analytics può accedere a questi dati nell'archivio analitico, senza ulteriori spostamenti, usando il Collegamento ad Azure Synapse. Gli analisti aziendali, gli ingegneri dei dati e gli scienziati dei dati possono ora usare Synapse Spark o Synapse SQL in modo intercambiabile per eseguire attività di business intelligence, analisi e pipeline di Machine Learning quasi in tempo reale.

L'immagine seguente mostra l'integrazione di Collegamento ad Azure Synapse con Azure Cosmos DB e Azure Synapse Analytics:

Diagramma del collegamento a Synapse per Azure Cosmos DB.

Importante

Il mirroring in Microsoft Fabric è ora disponibile in anteprima per l'API NoSql. Questa funzionalità offre tutte le funzionalità del Collegamento ad Azure Synapse con prestazioni analitiche migliori, la possibilità di unificare il patrimonio di dati con Fabric OneLake e di aprire l'accesso ai dati in OneLake con formato Delta Parquet. Se si sta valutando il Collegamento ad Azure Synapse, è consigliabile provare a eseguire il mirroring per valutare l'idoneità complessiva per l'organizzazione. Per iniziare a eseguire il mirroring, fare clic qui.

Per iniziare a usare il Collegamento ad Azure Synapse, visitare "Introduzione al collegamento ad Azure Synapse".

Analisi in tempo reale e BI in Azure Cosmos DB: altre opzioni

Esistono alcune altre opzioni per abilitare l'analisi in tempo reale sui dati di Azure Cosmos DB:

Sebbene queste opzioni siano incluse per completezza e funzionino bene con query a partizione singola in tempo reale, questi metodi presentano i seguenti problemi per le query analitiche:

  • Impatto sulle prestazioni del carico di lavoro:

    Le query analitiche tendono a essere complesse e a consumare una capacità di calcolo significativa. Quando queste query vengono eseguite direttamente sui dati di Azure Cosmos DB, le prestazioni delle query transazionali potrebbero diminuire.

  • Impatto sui costi:

    Quando le query analitiche vengono eseguite direttamente sul database o sulle raccolte, aumentano la necessità di unità di richiesta allocate, poiché le query analitiche tendono a essere complesse e richiedono una maggiore potenza di calcolo. Se si eseguono query di aggregazione, è probabile che un aumento dell'utilizzo delle UR provocherà un impatto significativo sui costi nel tempo.

Invece di queste opzioni, è consigliabile usare il mirroring in Microsoft Fabric o nel Collegamento ad Azure Synapse, che fornisce analisi zero ETL, senza influire sulle prestazioni del carico di lavoro transazionale o sulle unità di richiesta.