Acquisire i dati modificati da Azure Data Lake Archiviazione Gen2 a database SQL di Azure usando una risorsa change data capture
SI APPLICA A: Azure Data Factory Azure Synapse Analytics
Suggerimento
Provare Data Factory in Microsoft Fabric, una soluzione di analisi completa per le aziende. Microsoft Fabric copre tutti gli elementi, dallo spostamento dei dati all'analisi scientifica dei dati, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Scopri come avviare gratuitamente una nuova versione di valutazione .
In questo articolo si usa l'interfaccia utente di Azure Data Factory per creare una risorsa change data capture (CDC). La risorsa preleva i dati modificati da un'origine azure Data Lake Archiviazione Gen2 e lo aggiunge a database SQL di Azure in tempo reale.
In questo articolo vengono illustrate le operazioni seguenti:
- Creare una risorsa CDC.
- Monitorare l'attività CDC.
È possibile modificare ed espandere il modello di configurazione in questo articolo.
Prerequisiti
Prima di iniziare le procedure descritte in questo articolo, assicurarsi di disporre di queste risorse:
- Sottoscrizione di Azure. Se non si ha una sottoscrizione di Azure, creare un account Azure gratuito.
- Database SQL. Usare database SQL di Azure come archivio dati di origine. Se non si ha un database SQL, crearne uno nel portale di Azure.
- Account di archiviazione. È possibile usare Delta Lake archiviato in Azure Data Lake Archiviazione Gen2 come archivio dati di destinazione. Se non si ha un account di archiviazione, vedere Creare un account di archiviazione per la procedura per crearne uno.
Creare un artefatto CDC
Passare al riquadro Autore nella data factory. Sotto Pipeline viene visualizzato un nuovo artefatto di primo livello denominato Change Data Capture (anteprima).
Passare il puntatore del mouse su Change Data Capture (anteprima) fino a visualizzare tre puntini. Selezionare quindi Change Data Capture (anteprima).
Selezionare New CDC (preview). Questo passaggio apre un riquadro a comparsa per avviare il processo guidato.
Viene richiesto di assegnare un nome alla risorsa CDC. Per impostazione predefinita, il nome è "adfcdc" con un numero che incrementa di 1. È possibile sostituire questo nome predefinito con un nome scelto.
Usare l'elenco a discesa per scegliere l'origine dati. Per questo articolo selezionare DelimitedText.
Viene richiesto di selezionare un servizio collegato. Creare un nuovo servizio collegato o selezionare uno esistente.
Usare l'area Impostazioni origine per impostare facoltativamente configurazioni di origine avanzate, inclusi delimitatori di colonna e di riga.
Se queste impostazioni di origine non vengono modificate manualmente, vengono impostate sulle impostazioni predefinite.
Usare il pulsante Sfoglia per selezionare la cartella dati di origine.
Dopo aver selezionato un percorso di cartella, selezionare Continua per impostare la destinazione dati.
È possibile scegliere di aggiungere più cartelle di origine usando il pulsante più (+). Anche le altre origini devono usare lo stesso servizio collegato già selezionato.
Selezionare un valore tipo di destinazione usando l'elenco a discesa. Per questo articolo selezionare database SQL di Azure.
Viene richiesto di selezionare un servizio collegato. Creare un nuovo servizio collegato o selezionare uno esistente.
Per Le tabelle di destinazione è possibile creare una nuova tabella di destinazione o selezionare una tabella esistente:
Per creare una tabella di destinazione, selezionare la scheda Nuove entità e quindi selezionare Modifica nuove tabelle.
Per selezionare una tabella esistente, selezionare la scheda Entità esistenti e quindi usare la casella di controllo per scegliere una tabella. Usare il pulsante Anteprima per visualizzare i dati della tabella.
Se le tabelle esistenti nella destinazione hanno nomi corrispondenti, vengono selezionate per impostazione predefinita in Entità esistenti. In caso contrario, le nuove tabelle con nomi corrispondenti vengono create in Nuove entità. Inoltre, è possibile modificare nuove tabelle usando il pulsante Modifica nuove tabelle .
È possibile usare le caselle di controllo per scegliere più tabelle di destinazione dal database SQL. Dopo aver scelto le tabelle di destinazione, selezionare Continua.
Viene visualizzata una nuova scheda per l'acquisizione dei dati delle modifiche. Questa scheda è CDC Studio, in cui è possibile configurare la nuova risorsa.
Viene creato automaticamente un nuovo mapping. È possibile aggiornare le selezioni Tabella di origine e Tabella di destinazione per il mapping usando gli elenchi a discesa.
Dopo aver selezionato le tabelle, le relative colonne vengono mappate per impostazione predefinita con l'interruttore Mappa automatica attivato. Il mapping automatico esegue automaticamente il mapping delle colonne in base al nome nel sink, rileva le modifiche di nuova colonna quando lo schema di origine si evolve e passa queste informazioni ai tipi di sink supportati.
Se si vuole usare la mappa automatica e non modificare i mapping delle colonne, passare direttamente al passaggio 18.
Se si desidera abilitare i mapping delle colonne, selezionare i mapping e disattivare l'interruttore Mappa automatica . Selezionare quindi il pulsante Mapping colonne per visualizzare i mapping.
È possibile tornare al mapping automatico in qualsiasi momento attivando l'interruttore Mappa automatica .
Visualizzare i mapping delle colonne. Usare gli elenchi a discesa per modificare i mapping delle colonne per metodo di mapping, colonna di origine e colonna di destinazione.
Da questa pagina è possibile:
- Aggiungere altri mapping di colonne usando il pulsante Nuovo mapping . Usare gli elenchi a discesa per effettuare selezioni per il metodo Mapping, la colonna Origine e la colonna Target.
- Selezionare la colonna Chiavi se si vuole tenere traccia dell'operazione di eliminazione per i tipi di sink supportati.
- Selezionare il pulsante Aggiorna in Anteprima dati per visualizzare l'aspetto dei dati nella destinazione.
Al termine del mapping, selezionare il pulsante freccia per tornare all'area di disegno CDC principale.
È possibile aggiungere altri mapping da origine a destinazione in un unico artefatto CDC. Usare il pulsante Modifica per aggiungere altre origini dati e destinazioni. Selezionare quindi Nuovo mapping e usare gli elenchi a discesa per impostare una nuova origine e una nuova destinazione. È possibile attivare o disattivare la mappa automatica per ognuno di questi mapping in modo indipendente.
Al termine dei mapping, impostare la latenza CDC usando il pulsante Imposta latenza .
Selezionare la latenza di CDC e quindi selezionare Applica per apportare le modifiche.
Per impostazione predefinita, la latenza è impostata su 15 minuti. L'esempio in questo articolo usa l'opzione In tempo reale per la latenza. La latenza in tempo reale preleva continuamente le modifiche nei dati di origine in intervalli inferiori a 1 minuto.
Per altre latenze (ad esempio, se si selezionano 15 minuti), Change Data Capture elabora i dati di origine e raccoglie i dati modificati dall'ora dell'ultima elaborazione.
Nota
Se il supporto viene esteso all'integrazione dei dati di streaming (Hub eventi di Azure e origini dati Kafka), la latenza verrà impostata su Tempo reale per impostazione predefinita.
Dopo aver completato la configurazione di CDC, selezionare Pubblica tutto per pubblicare le modifiche.
Nota
Se non si pubblicano le modifiche, non sarà possibile avviare la risorsa CDC. Il pulsante Start nel passaggio successivo non sarà disponibile.
Selezionare Avvia per avviare l'esecuzione dell'acquisizione dei dati delle modifiche.
Monitorare Change Data Capture
Aprire il riquadro Monitoraggio usando uno dei metodi seguenti:
Selezionare Change Data Capture (anteprima) per visualizzare le risorse CDC.
Il riquadro Change Data Capture mostra le informazioni origine, destinazione, stato e ultimo processo per change data capture.
Selezionare il nome di CDC per visualizzare altri dettagli. È possibile visualizzare il numero di modifiche (inserimento, aggiornamento o eliminazione) lette e scritte insieme ad altre informazioni di diagnostica.
Se si configurano più mapping nell'acquisizione dei dati delle modifiche, ogni mapping viene visualizzato come colore diverso. Selezionare la barra per visualizzare dettagli specifici per ogni mapping o usare le informazioni di diagnostica nella parte inferiore del riquadro.