Opzioni di configurazione avanzate in Azure Synapse Link

Articolo
11/06/2024

Azure Synapse Link offre diversi modi per scrivere e leggere i dati per adattarsi a vari scenari analitici. A seconda dello scenario analitico, è possibile scegliere una configurazione specifica tra le opzioni seguenti.

Scenario	Si applica a	Opzioni di configurazione disponibili
Reporting operativo	Tabelle Dataverse, tabelle ed entità per la finanza e le operazioni	Synapse Analytics con l'opzione Delta Lake garantisce tempi di query risposta migliori, particolarmente adatti per l'interrogazione di grandi quantità di dati. Ulteriori informazioni: Synapse collegare con opzione Delta Lake
Reporting operativo	Solo tabelle Dataverse	Synapse collegare con l'opzione di configurazione "Aggiornamento sul posto" fornisce file CSV nel tuo data lake che vengono aggiornati quasi in tempo reale Questa opzione legacy disponibile per le tabelle Dataverse. Questa opzione non è supportata per le tabelle delle app per la finanza e le operazioni
Integrazione dati	Tabelle Dataverse e tabelle ed entità per la finanza e le operazioni	L'opzione "Solo aggiunta fornisce file CSV contenenti dati incrementali. È possibile creare pipeline che consumano dati incrementali e popolano i sistemi downstream La funzionalità Partizione dati specificata dall'utente consente di scegliere una strategia di partizionamento dei dati personalizzata specificatamente per le tabelle Dataverse. I dati delle tabelle finanziarie e operative vengono suddivisi dal sistema in base a un'adeguata strategia di partizione. Questa opzione non è disponile per le app per la finanza e le operazioni

Nota

Azure Synapse Link for Dataverse era precedentemente noto come Esporta in Data Lake. Il servizio è stato rinominato a partire da maggio 2021 e continuerà a esportare dati in Azure Data Lake Storage nonché in Azure Synapse Analytics. A partire da settembre 2023, Azure Synapse Link ti consente anche di scegliere dati dalle app per la finanza e le operazioni di Dynamics 365. Non tutti i modelli di integrazione sono supportati con le app per la finanza e le operazioni. Per indicazioni sulla transizione dalla funzionalità Esporta in Data Lake nelle app per la finanza e le operazioni a Synapse Link, consulta la Guida alla transizione.

Questo articolo illustra le impostazioni di configurazione avanzate disponibili per le tabelle. Dataverse Queste opzioni non sono disponili per le app per la finanza e le operazioni.

Aggiornamenti sul posto e scritture solo in aggiunta.
Partizionamento dei dati specificato dall'utente.

Aggiornamenti sul posto e scritture solo in aggiunta

Durante la scrittura dei dati della tabella Dataverse nel data lake di Azure, in base al valore createdOn, che è la data e l'ora in cui il record è stato creato, ci sono due diverse impostazioni tra cui scegliere. Sono, Aggiornamento sul posto e Aggiungi solo.

L'impostazione predefinita (per le tabelle in cui createdOn è disponibile) è quello di eseguire un aggiornamento sul posto o un upsert (aggiornamento o inserimento) dei dati incrementali nella destinazione. Se la modifica è nuova e nel lake non esiste una riga corrispondente, nel caso di una creazione, i file di destinazione vengono scansionati e le modifiche vengono inserite nella partizione del file corrispondente nel lake. Se la modifica è un aggiornamento ed esiste una riga nel lake, il file corrispondente nel lake viene aggiornato, anziché inserito, con i dati incrementali. In altre parole, l'impostazione predefinita per tutte le modifiche CUD (creazione, aggiornamento, eliminazione) nelle tabelle Dataverse, dove createdOn è disponibile, è eseguire un aggiornamento sul posto nella destinazione, nel data lake di Azure.

Puoi cambiare il comportamento predefinito di un aggiornamento sul posto utilizzando un'impostazione facoltativa chiamata Aggiungi solo. Piuttosto che un Aggiornamento sul posto, nella modalità Aggiungi solo, i dati incrementali delle tabelle Dataverse vengono aggiunti alla partizione di file corrispondente nel lake. Questa è un'impostazione per tabella ed è disponibile come casella di controllo sotto Avanzate>Mostra impostazioni di configurazione avanzate. Per le tabelle Dataverse con Aggiungi solo attivato, tutte le modifiche CUD vengono aggiunte in modo incrementale ai file di destinazione corrispondenti nel lake. Quando si sceglie questa opzione, la strategia di partizione è impostata su Anno e quando i dati vengono scritti nel data lake, vengono partizionati su base annuale. Solo aggiunta è l'impostazione predefinita per le tabelle Dataverse che non hanno un valore createdOn.

Questa tabella descrive come vengono gestite le righe nel lake rispetto agli eventi CUD per ciascuna delle opzioni di scrittura dei dati.

Evento	Aggiornamento sul posto	Solo aggiunta
Creazione di	La riga viene inserita nel file di partizione e si basa sul valore `createdOn` nella riga.	La riga viene aggiunta alla fine del file di partizione e si basa su valore `createdOn` del record.
Aggiornamento	Se la riga esiste nel file di partizione, viene sostituita o aggiornata con i dati aggiornati. Se non esiste, viene inserita nel file.	La riga, insieme alla versione aggiornata, viene aggiunta alla fine del file di partizione.
CANC	Se la riga esiste nel file di partizione, viene rimossa dal file.	La riga viene aggiunta alla fine del file di partizione con `IsDelete column = True`.

Nota

Per le tabelle Dataverse dove Aggiungi solo è abilitato, l'eliminazione di una riga nell'origine non eliminerà o rimuoverà la riga nel lake. La riga eliminata viene invece aggiunta come nuova riga nel lake e la colonna isDeleted è impostata su True.

La lettura errata (ALLOW_INCONSISTENT_READS) per serverless è abilitata per la modalità di sola aggiunta. ALLOW_INCONSISTENT_READS significa che l'utente è in grado di leggere i file che possono essere costantemente modificati mentre la query SELECT è in esecuzione. I risultati saranno coerenti ed equivalenti alla lettura di un'istantanea del file. Non è equivalente all'isolamento dello snapshot del database a causa del diverso tempo di generazione dello snapshot.

Non tutte le modifiche CUD verranno acquisite solo in aggiunta: Synapse Link elabora le modifiche nei dati in gruppi o "batch" prima di pubblicarle nel data lake. Di conseguenza, se l'utente apporta modifiche entro un breve intervallo di tempo, non tutte le modifiche CUD verranno acquisite nel data lake.

Ecco alcuni dettagli in più su quando utilizzare una delle opzioni.

Aggiornamento sul posto: questa opzione è l'impostazione predefinita ed è consigliata solo se vuoi connetterti direttamente ai dati nel lake e hai bisogno dello stato corrente (non modifiche incrementali o di cronologia). Il file contiene il set di dati completo e può essere utilizzato tramite Power BI o copiando l'intero set di dati per le pipeline ETL (Extract, Transfer, Load).
Aggiungi solo: Seleziona questa opzione se non ti connetti direttamente ai dati nel lake e vuoi copiare in modo incrementale i dati su un'altra destinazione utilizzando le pipeline ETL. Questa opzione fornisce una cronologia delle modifiche per abilitare gli scenari IA e ML.

Puoi attivare Mostra impostazioni di configurazione avanzate sotto Avanzate in Azure Synapse Link for Dataverse per personalizzare la strategia di partizione dati e selezionare le opzioni per scrivere nel data lake di Azure.

Mostra impostazioni di configurazione avanzate.

Partizionamento dei dati

Quando scrivi i dati della tabella Dataverse su Azure Data Lake Storage tramite Azure Synapse Link, le tabelle sono partizionate (anziché un singolo file) nel lake in base al valore createdOn su ogni riga nell'origine. La strategia di partizione predefinita è per mese e i dati vengono partizionati in Azure Data Lake su base mensile.

In base alla distribuzione dei dati e del volume della tabella Dataverse puoi scegliere di partizionare i dati per anno. Con questa opzione, quando i dati della tabella Dataverse vengono scritti in Azure Data Lake verranno partizionati su base annua in base al valore createdOn su ogni riga nell'origine. Per le tabelle senza colonna createdOn le righe di dati vengono partizionate in un nuovo file ogni 5.000.000 di record. Questa è un'impostazione per tabella ed è disponibile come casella di controllo sotto Avanzate>Mostra impostazioni di configurazione avanzate.

Maggiori dettagli con esempi di come i dati vengono gestiti nel lake con una strategia di partizione annuale o mensile:

Strategia di partizione.

Vedi anche

Azure Synapse Link for Dataverse

Condividi tramite

Opzioni di configurazione avanzate in Azure Synapse Link

Aggiornamenti sul posto e scritture solo in aggiunta

Partizionamento dei dati

Vedi anche

Commenti e suggerimenti

Risorse aggiuntive