Mirroring di Azure Cosmos DB (anteprima)

Articolo
11/19/2024

Il mirroring in Microsoft Fabric offre un'esperienza senza ETL per integrare i dati di Azure Cosmos DB esistenti con il resto dei dati in Microsoft Fabric. I dati di Azure Cosmos DB vengono replicati in modo continuo direttamente in Fabric OneLake quasi in tempo reale, senza alcun impatto sulle prestazioni sui carichi di lavoro transazionali o sull'utilizzo di unità richiesta (UR).

I dati in OneLake vengono archiviati in formato Delta open source e resi disponibili automaticamente per tutti i motori analitici in Fabric.

È possibile usare le funzionalità predefinite di Power BI per accedere ai dati in modalità OneLake in modalità DirectLake. Grazie ai miglioramenti Copilot di Fabric, è possibile usare la potenza dell'intelligenza artificiale generativa per ottenere informazioni chiave sui dati aziendali. Oltre a Power BI, è possibile usare T-SQL per eseguire query di aggregazione complesse o usare Spark per l'esplorazione dei dati. È possibile accedere facilmente ai dati nei notebook e usare l'analisi scientifica dei dati per creare modelli di Machine Learning.

Importante

Il mirroring per Azure Cosmos DB attualmente è disponibile in anteprima. I carichi di lavoro di produzione non sono supportati durante l'anteprima. Attualmente sono supportati solo gli account Azure Cosmos DB for NoSQL.

Perché usare il mirroring in Fabric?

Con il mirroring in Fabric, non è necessario unire servizi diversi da più fornitori. È invece possibile usufruire di un prodotto end-to-end altamente integrato e facile da usare, progettato per semplificare le esigenze di analisi e concepito per essere aperto.

Se si cercano analisi o report di BI sui dati operativi in Azure Cosmos DB, il mirroring offre:

No-ETL, accesso conveniente quasi in tempo reale ai dati di Azure Cosmos DB senza incidere sul consumo di unità di richiesta
Facilità di trasferimento dei dati tra varie origini in Fabric OneLake
Ottimizzazioni della tabella Delta con v order per letture veloci
Integrazione in un solo clic con Power BI con Direct Lake e Copilot
Informazioni dettagliate aziendali avanzate tramite l'aggiunta di dati in varie origini
Integrazione avanzata delle app per accedere a query e visualizzazioni

I dati di OneLake vengono archiviati nel formato Delta Lake open source, consentendo di usarli con varie soluzioni all'interno e all'esterno di Microsoft. Questo formato di dati consente di semplificare la compilazione di un singolo patrimonio di dati per le esigenze analitiche.

Quali esperienze di analisi sono integrate?

I database con mirroring sono un elemento di Fabric Archiviazione dati distinto dall'endpoint di analisi warehouse e SQL.

Diagramma del mirroring di Fabric per Azure Cosmos DB.

Ogni database di Azure Cosmos DB con mirroring include tre elementi con cui è possibile interagire nell'area di lavoro Infrastruttura:

Elemento del database con mirroring. Il mirroring gestisce la replica dei dati in OneLake e la conversione in Parquet, in un formato pronto per l'analisi. Ciò consente scenari downstream come ingegneria dei dati, data science e altro ancora.
Endpoint di analisi SQL, generato automaticamente
Modello semantico predefinito, generato automaticamente

Database con mirroring

Il database con mirroring mostra lo stato della replica e i controlli per arrestare o avviare la replica in Fabric OneLake. È anche possibile visualizzare il database di origine, in modalità di sola lettura, usando Esplora dati di Azure Cosmos DB. Usando Esplora dati, è possibile visualizzare i contenitori nel database di Azure Cosmos DB di origine ed eseguirne query. Queste operazioni usano unità richiesta (UR) dall'account Azure Cosmos DB. Tutte le modifiche apportate al database di origine vengono riflesse immediatamente nella vista del database di origine di Fabric. La scrittura nel database di origine non è consentita da Fabric, perché è possibile visualizzare solo i dati.

Endpoint di Analytics SQL

Ogni database con mirroring ha un endpoint di analisi SQL generato automaticamente che offre un'esperienza analitica avanzata sulle tabelle Delta di OneLake create dal processo di mirroring. È possibile accedere ai comandi T-SQL familiari che possono definire ed eseguire query su oggetti dati, ma non modificare i dati dall'endpoint di analisi SQL, perché si tratta di una copia di sola lettura.

È possibile eseguire le azioni seguenti nell'endpoint di analisi SQL:

Esplorare le tabelle Delta Lake con T-SQL. Ogni tabella viene mappata a un contenitore dal database di Azure Cosmos DB.
Creare query e viste senza codice ed esplorarle visivamente senza scrivere una riga di codice.
Unire ed eseguire query sui dati in altri database con mirroring, warehouse e lakehouse nella stessa area di lavoro.
È possibile visualizzare e compilare facilmente report bi basati su query o viste SQL.

Oltre all'editor di query SQL, è disponibile un ampio ecosistema di strumenti. Questi strumenti includono l'estensione mssql con Visual Studio Code, SQL Server Management Studio (SSMS) e anche GitHub Copilot. È possibile sovralimentare l'analisi e la generazione di informazioni dettagliate dallo strumento preferito.

Modello semantico

Il modello semantico predefinito è un modello semantico di Power BI con provisioning automatico. Questa funzionalità consente di creare, condividere e riutilizzare le metriche aziendali. Per altre informazioni, vedere modelli semantici.

Come funziona la replica quasi in tempo reale?

Quando si abilita il mirroring nel database di Azure Cosmos DB, vengono inserite, aggiornate ed eliminate operazioni sui dati OLTP (Online Transaction Processing) replicate continuamente in Fabric OneLake per l'utilizzo di analisi.

La funzionalità di backup continuo è un prerequisito per il mirroring. È possibile abilitare il backup continuo di 7 o 30 giorni nell'account Azure Cosmos DB. Se si abilita il backup continuo in modo specifico per il mirroring, è consigliabile eseguire il backup continuo di 7 giorni, perché è gratuito.

Nota

Il mirroring non usa l'archivio analitico o il feed di modifiche di Azure Cosmos DB come origine change data capture. È possibile continuare a usare queste funzionalità in modo indipendente, insieme al mirroring.

La replica dei dati di Azure Cosmos DB in OneLake potrebbe richiedere alcuni minuti. A seconda dello snapshot iniziale dei dati o della frequenza di aggiornamenti/eliminazioni, la replica potrebbe richiedere più tempo in alcuni casi. La replica non influisce sulle unità richiesta allocate (UR) per i carichi di lavoro transazionali.

Cosa aspettarsi dal mirroring

Esistono alcune considerazioni e scenari supportati da considerare prima del mirroring.

Considerazioni sull'installazione

Per eseguire il mirroring di un database, è necessario eseguirne il provisioning in Azure. È necessario abilitare il backup continuo nell'account come prerequisito.

È possibile eseguire il mirroring di ogni database singolarmente alla volta. È possibile scegliere di quale database eseguire il mirroring.
È possibile eseguire il mirroring dello stesso database più volte all'interno della stessa area di lavoro. Come procedura consigliata, una singola copia del database può essere riutilizzata in lakehouse, warehouse o altri database con mirroring. Non è necessario eseguire più mirroring nello stesso database.
È anche possibile eseguire il mirroring dello stesso database in aree di lavoro o tenant di Fabric diversi.
Le modifiche apportate ai contenitori di Azure Cosmos DB, ad esempio l'aggiunta di nuovi contenitori e l'eliminazione di quelle esistenti, vengono replicate facilmente in Fabric. È possibile avviare il mirroring di un database vuoto senza contenitori, ad esempio, e il mirroring preleva facilmente i contenitori aggiunti in un secondo momento.

Supporto per i dati annidati

I dati annidati vengono visualizzati come stringa JSON nelle tabelle degli endpoint di analisi SQL. È possibile usare OPENJSON, CROSS APPLY e OUTER APPLY in query o viste T-SQL per espandere questi dati in modo selettivo. Se si usa Power Query, è anche possibile applicare la funzione ToJson per espandere questi dati.

Nota

Fabric presenta una limitazione per le colonne stringa di dimensioni pari a 8 KB. Per altre informazioni, vedere Limitazioni del data warehouse.

Gestire le modifiche dello schema

Il mirroring replica automaticamente le proprietà tra gli elementi di Azure Cosmos DB, con modifiche allo schema. Le nuove proprietà individuate in un elemento vengono visualizzate come nuove colonne e le proprietà mancanti, se presenti, sono rappresentate come null in Fabric.

Se si rinomina una proprietà in un elemento, le tabelle di Fabric mantengono le colonne precedenti e nuove. La colonna precedente mostrerà null e quella nuova mostrerà il valore più recente, per tutti gli elementi replicati dopo l'operazione di ridenominazione.

Se si modifica il tipo di dati di una proprietà negli elementi di Azure Cosmos DB, le modifiche sono supportate per i tipi di dati compatibili che possono essere convertiti. Se i tipi di dati non sono compatibili per la conversione in Delta, vengono rappresentati come valori Null.

Le tabelle degli endpoint di analisi SQL converte i tipi di dati Delta in tipi di dati T-SQL.

Nome di colonna duplicato

Azure Cosmos DB supporta i nomi di colonna senza distinzione tra maiuscole e minuscole, in base allo standard JSON. Il mirroring supporta questi nomi di colonna duplicati aggiungendo _n al nome della colonna, dove n sarebbe un valore numerico.

Ad esempio, se l'elemento di Azure Cosmos DB ha addressName e AddressName come proprietà univoche, le tabelle di Fabric hanno colonne addressName e AddressName_1 corrispondenti. Per altre informazioni, vedere limitazioni di replica.

Sicurezza

Le connessioni al database di origine si basano sulle chiavi dell'account per gli account Azure Cosmos DB. Se si ruotano o si rigenerano le chiavi, è necessario aggiornare le connessioni per garantire il funzionamento della replica. Per altre informazioni, vedere Connessioni.

Le chiavi dell'account non sono direttamente visibili ad altri utenti di Fabric dopo la configurazione della connessione. È possibile limitare gli utenti autorizzati ad accedere alle connessioni create in Fabric. Le scritture non sono consentite nel database di Azure Cosmos DB da Esplora dati o dall'endpoint di analisi nel database con mirroring.

Il mirroring attualmente non supporta l'autenticazione tramite chiavi dell'account di sola lettura, Single Sign-On (SSO) con ID Microsoft Entra e controllo degli accessi in base al ruolo o identità gestite.

Dopo aver replicato i dati in Fabric OneLake, è necessario proteggere l'accesso a questi dati.

Funzionalità di protezione dei dati

La sicurezza granulare può essere configurata nel database con mirroring in Microsoft Fabric. Per altre informazioni, vedere Autorizzazioni granulari in Microsoft Fabric.

È possibile garantire i filtri di colonna e i filtri di riga basati su predicato nelle tabelle ai ruoli e agli utenti di Microsoft Fabric:

È anche possibile mascherare i dati sensibili da utenti non amministratori usando la maschera dati dinamica:

Dynamic data masking nell’Archiviazione dati di Fabric

Sicurezza di rete

Attualmente, il mirroring non supporta endpoint privati o chiavi gestite dal cliente (CMK) in OneLake. Il mirroring non è supportato per gli account Azure Cosmos DB con configurazioni di sicurezza di rete meno permissive di tutte le reti, usando endpoint di servizio, usando endpoint privati, usando indirizzi IP o usando qualsiasi altra impostazione che potrebbe limitare l'accesso alla rete pubblica all'account. Gli account Azure Cosmos DB devono essere aperti a tutte le reti per lavorare con il mirroring.

Ripristino di emergenza e latenza di replica

In Fabric è possibile distribuire contenuto ai data center in aree diverse dall'area iniziale del tenant di Fabric. Per altre informazioni, vedere Supporto multi-geografico .

Per un account Azure Cosmos DB con un'area di scrittura primaria e più aree di lettura, il mirroring sceglie l'area di lettura di Azure Cosmos DB più vicina all'area in cui è configurata la capacità di Fabric. Questa selezione consente di fornire la replica a bassa latenza per il mirroring.

Quando si passa l'account Azure Cosmos DB a un'area di ripristino, il mirroring seleziona automaticamente l'area di Azure Cosmos DB più vicina.

Nota

Il mirroring non supporta gli account con più aree di scrittura.

I dati di Cosmos DB replicati in OneLake devono essere configurati per gestire interruzioni a livello di area. Per ulteriori informazioni, vedere Disaster Recovery (Ripristino di emergenza) in OneLake.

Esplorare i dati con il mirroring

È possibile visualizzare e accedere direttamente ai dati con mirroring in OneLake. È anche possibile accedere facilmente ai dati con mirroring senza ulteriori spostamenti dei dati.

Per saperne di più su come accedere a OneLake utilizzando le API o l'SDK di ADLS Gen2, l’Esplora file di OneLake e Azure Storage explorer.

È possibile connettersi all'endpoint di analisi SQL da strumenti come SQL Server Management Studio (SSMS) o usando driver come Microsoft Open Database Connectivity (ODBC) e Java Database Connectivity (JDBC). Per altre informazioni, vedere Connettività a un endpoint di Analisi SQL.

È anche possibile accedere ai dati con mirroring con servizi come:

Servizi Azure come Azure Databricks, Azure HDInsight e Azure Synapse Analytics.
Fabric Lakehouse usando collegamenti per scenari di data engineering e data science
Altri database o warehouse con mirroring nell'area di lavoro Fabric

È anche possibile creare soluzioni di architettura a medaglione, pulendo e trasformando i dati che vengono inseriti nel database con mirroring come livello bronzo. Per altre informazioni, vedere Supporto dell'architettura a medaglione in Fabric.

Prezzi

Il mirroring è gratuito per il calcolo usato per replicare i dati di Cosmos DB in OneLake di Fabric. L'archiviazione in OneLake è gratuita in base a determinate condizioni. Per altre informazioni, vedere Prezzi di OneLake per il mirroring. L'utilizzo del calcolo per l'interrogazione dei dati tramite SQL, Power BI o Spark viene comunque addebitato in base alla capacità di Fabric.

Se si usa Esplora dati nel mirroring di Fabric, si accumulano costi tipici in base all'utilizzo delle unità richiesta (UR) per esplorare i contenitori ed eseguire query sugli elementi nel database Azure Cosmos DB di origine. La funzionalità di backup continuo di Azure Cosmos DB è un prerequisito per il mirroring: si applicano addebiti standard per il backup continuo. Non sono previsti costi aggiuntivi per il mirroring sulla fatturazione del backup continuo. Per altre informazioni, vedere Prezzi di Azure Cosmos DB.

Passaggio successivo

Esercitazione: configurare il database con mirroring per Microsoft Fabric per Azure Cosmos DB (anteprima)

Condividi tramite

Mirroring di Azure Cosmos DB (anteprima)

Perché usare il mirroring in Fabric?

Quali esperienze di analisi sono integrate?

Database con mirroring

Endpoint di Analytics SQL

Modello semantico

Come funziona la replica quasi in tempo reale?

Cosa aspettarsi dal mirroring

Considerazioni sull'installazione

Supporto per i dati annidati

Gestire le modifiche dello schema

Nome di colonna duplicato

Sicurezza

Funzionalità di protezione dei dati

Sicurezza di rete

Ripristino di emergenza e latenza di replica

Esplorare i dati con il mirroring

Prezzi

Passaggio successivo

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Mirroring di Azure Cosmos DB (anteprima)

Perché usare il mirroring in Fabric?

Quali esperienze di analisi sono integrate?

Database con mirroring

Endpoint di Analytics SQL

Modello semantico

Come funziona la replica quasi in tempo reale?

Cosa aspettarsi dal mirroring

Considerazioni sull'installazione

Supporto per i dati annidati

Gestire le modifiche dello schema

Nome di colonna duplicato

Sicurezza

Funzionalità di protezione dei dati

Sicurezza di rete

Ripristino di emergenza e latenza di replica

Esplorare i dati con il mirroring

Prezzi

Passaggio successivo

Contenuto correlato

Commenti e suggerimenti

Risorse aggiuntive