Acquisire i dati modificati da Azure Data Lake Archiviazione Gen2 a database SQL di Azure usando una risorsa change data capture

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi completa per le aziende. Microsoft Fabric copre tutti gli elementi, dallo spostamento dei dati all'analisi scientifica dei dati, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Scopri come avviare gratuitamente una nuova versione di valutazione .

In questo articolo si usa l'interfaccia utente di Azure Data Factory per creare una risorsa change data capture (CDC). La risorsa preleva i dati modificati da un'origine azure Data Lake Archiviazione Gen2 e lo aggiunge a database SQL di Azure in tempo reale.

In questo articolo vengono illustrate le operazioni seguenti:

  • Creare una risorsa CDC.
  • Monitorare l'attività CDC.

È possibile modificare ed espandere il modello di configurazione in questo articolo.

Prerequisiti

Prima di iniziare le procedure descritte in questo articolo, assicurarsi di disporre di queste risorse:

  • Sottoscrizione di Azure. Se non si ha una sottoscrizione di Azure, creare un account Azure gratuito.
  • Database SQL. Usare database SQL di Azure come archivio dati di origine. Se non si ha un database SQL, crearne uno nel portale di Azure.
  • Account di archiviazione. È possibile usare Delta Lake archiviato in Azure Data Lake Archiviazione Gen2 come archivio dati di destinazione. Se non si ha un account di archiviazione, vedere Creare un account di archiviazione per la procedura per crearne uno.

Creare un artefatto CDC

  1. Passare al riquadro Autore nella data factory. Sotto Pipeline viene visualizzato un nuovo artefatto di primo livello denominato Change Data Capture (anteprima).

    Screenshot of a new top-level artifact for change data capture on the Factory Resources pane.

  2. Passare il puntatore del mouse su Change Data Capture (anteprima) fino a visualizzare tre puntini. Selezionare quindi Change Data Capture (anteprima).

    Screenshot of the button for change data capture actions appearing over the new top-level artifact.

  3. Selezionare New CDC (preview). Questo passaggio apre un riquadro a comparsa per avviare il processo guidato.

    Screenshot of a list of change data capture actions.

  4. Viene richiesto di assegnare un nome alla risorsa CDC. Per impostazione predefinita, il nome è "adfcdc" con un numero che incrementa di 1. È possibile sostituire questo nome predefinito con un nome scelto.

    Screenshot of the text box to update the name of a resource.

  5. Usare l'elenco a discesa per scegliere l'origine dati. Per questo articolo selezionare DelimitedText.

    Screenshot of the guided process flyout with source options in a dropdown list.

  6. Viene richiesto di selezionare un servizio collegato. Creare un nuovo servizio collegato o selezionare uno esistente.

    Screenshot of the box to choose or create a linked service.

  7. Usare l'area Impostazioni origine per impostare facoltativamente configurazioni di origine avanzate, inclusi delimitatori di colonna e di riga.

    Screenshot of advanced source settings to set delimiters.

    Se queste impostazioni di origine non vengono modificate manualmente, vengono impostate sulle impostazioni predefinite.

  8. Usare il pulsante Sfoglia per selezionare la cartella dati di origine.

    Screenshot of a folder icon to browse for a folder path.

  9. Dopo aver selezionato un percorso di cartella, selezionare Continua per impostare la destinazione dati.

    Screenshot of the Continue button in the guided process to select data targets.

    È possibile scegliere di aggiungere più cartelle di origine usando il pulsante più (+). Anche le altre origini devono usare lo stesso servizio collegato già selezionato.

  10. Selezionare un valore tipo di destinazione usando l'elenco a discesa. Per questo articolo selezionare database SQL di Azure.

    Screenshot of a dropdown menu of all data target types.

  11. Viene richiesto di selezionare un servizio collegato. Creare un nuovo servizio collegato o selezionare uno esistente.

    Screenshot of the box to choose or create a linked service to your data target.

  12. Per Le tabelle di destinazione è possibile creare una nuova tabella di destinazione o selezionare una tabella esistente:

    • Per creare una tabella di destinazione, selezionare la scheda Nuove entità e quindi selezionare Modifica nuove tabelle.

      Screenshot of the tab to create new tables for your target.

    • Per selezionare una tabella esistente, selezionare la scheda Entità esistenti e quindi usare la casella di controllo per scegliere una tabella. Usare il pulsante Anteprima per visualizzare i dati della tabella.

      Screenshot of the tab to choose tables for your target.

    Se le tabelle esistenti nella destinazione hanno nomi corrispondenti, vengono selezionate per impostazione predefinita in Entità esistenti. In caso contrario, le nuove tabelle con nomi corrispondenti vengono create in Nuove entità. Inoltre, è possibile modificare nuove tabelle usando il pulsante Modifica nuove tabelle .

  13. È possibile usare le caselle di controllo per scegliere più tabelle di destinazione dal database SQL. Dopo aver scelto le tabelle di destinazione, selezionare Continua.

    Screenshot of the Continue button in the guided process to proceed to the next step.

  14. Viene visualizzata una nuova scheda per l'acquisizione dei dati delle modifiche. Questa scheda è CDC Studio, in cui è possibile configurare la nuova risorsa.

    Screenshot of the change data capture studio.

    Viene creato automaticamente un nuovo mapping. È possibile aggiornare le selezioni Tabella di origine e Tabella di destinazione per il mapping usando gli elenchi a discesa.

    Screenshot of the source-to-target mapping in the change data capture studio.

  15. Dopo aver selezionato le tabelle, le relative colonne vengono mappate per impostazione predefinita con l'interruttore Mappa automatica attivato. Il mapping automatico esegue automaticamente il mapping delle colonne in base al nome nel sink, rileva le modifiche di nuova colonna quando lo schema di origine si evolve e passa queste informazioni ai tipi di sink supportati.

    Se si vuole usare la mappa automatica e non modificare i mapping delle colonne, passare direttamente al passaggio 18.

    Screenshot of the toggle for automatic mapping turned on.

    Se si desidera abilitare i mapping delle colonne, selezionare i mapping e disattivare l'interruttore Mappa automatica . Selezionare quindi il pulsante Mapping colonne per visualizzare i mapping.

    Screenshot of mapping selection, the toggle for automatic mapping turned off, and the button for column mappings.

    È possibile tornare al mapping automatico in qualsiasi momento attivando l'interruttore Mappa automatica .

  16. Visualizzare i mapping delle colonne. Usare gli elenchi a discesa per modificare i mapping delle colonne per metodo di mapping, colonna di origine e colonna di destinazione.

    Screenshot of the page for editing column mappings.

    Da questa pagina è possibile:

    • Aggiungere altri mapping di colonne usando il pulsante Nuovo mapping . Usare gli elenchi a discesa per effettuare selezioni per il metodo Mapping, la colonna Origine e la colonna Target.
    • Selezionare la colonna Chiavi se si vuole tenere traccia dell'operazione di eliminazione per i tipi di sink supportati.
    • Selezionare il pulsante Aggiorna in Anteprima dati per visualizzare l'aspetto dei dati nella destinazione.

    Screenshot of the button for adding column mappings, the dropdown list for mapping methods, the Keys column, and the Refresh button.

  17. Al termine del mapping, selezionare il pulsante freccia per tornare all'area di disegno CDC principale.

    Screenshot of the button to go back to the table mapping page.

  18. È possibile aggiungere altri mapping da origine a destinazione in un unico artefatto CDC. Usare il pulsante Modifica per aggiungere altre origini dati e destinazioni. Selezionare quindi Nuovo mapping e usare gli elenchi a discesa per impostare una nuova origine e una nuova destinazione. È possibile attivare o disattivare la mappa automatica per ognuno di questi mapping in modo indipendente.

    Screenshot of the button to add new sources and the button to set a new source-to-target mapping.

  19. Al termine dei mapping, impostare la latenza CDC usando il pulsante Imposta latenza .

    Screenshot of the Set Latency button at the top of the canvas.

  20. Selezionare la latenza di CDC e quindi selezionare Applica per apportare le modifiche.

    Per impostazione predefinita, la latenza è impostata su 15 minuti. L'esempio in questo articolo usa l'opzione In tempo reale per la latenza. La latenza in tempo reale preleva continuamente le modifiche nei dati di origine in intervalli inferiori a 1 minuto.

    Per altre latenze (ad esempio, se si selezionano 15 minuti), Change Data Capture elabora i dati di origine e raccoglie i dati modificati dall'ora dell'ultima elaborazione.

    Screenshot of the options for setting latency.

    Nota

    Se il supporto viene esteso all'integrazione dei dati di streaming (Hub eventi di Azure e origini dati Kafka), la latenza verrà impostata su Tempo reale per impostazione predefinita.

  21. Dopo aver completato la configurazione di CDC, selezionare Pubblica tutto per pubblicare le modifiche.

    Screenshot of the publish button at the top of the canvas.

    Nota

    Se non si pubblicano le modifiche, non sarà possibile avviare la risorsa CDC. Il pulsante Start nel passaggio successivo non sarà disponibile.

  22. Selezionare Avvia per avviare l'esecuzione dell'acquisizione dei dati delle modifiche.

    Screenshot of the Start button at the top of the canvas.

Monitorare Change Data Capture

  1. Aprire il riquadro Monitoraggio usando uno dei metodi seguenti:

    • Selezionare Monitoraggio nel portale di Azure.

      Screenshot of the Monitor button in the Azure portal.

    • Selezionare l'icona di monitoraggio nella finestra di progettazione CDC.

      Screenshot of the monitoring icon at the top of the CDC canvas.

  2. Selezionare Change Data Capture (anteprima) per visualizzare le risorse CDC.

    Screenshot of the Change Data Capture button.

    Il riquadro Change Data Capture mostra le informazioni origine, destinazione, stato e ultimo processo per change data capture.

    Screenshot of an overview of the change data capture monitoring page.

  3. Selezionare il nome di CDC per visualizzare altri dettagli. È possibile visualizzare il numero di modifiche (inserimento, aggiornamento o eliminazione) lette e scritte insieme ad altre informazioni di diagnostica.

    Screenshot of the detailed monitoring of a selected change data capture.

    Se si configurano più mapping nell'acquisizione dei dati delle modifiche, ogni mapping viene visualizzato come colore diverso. Selezionare la barra per visualizzare dettagli specifici per ogni mapping o usare le informazioni di diagnostica nella parte inferiore del riquadro.

    Screenshot of the detailed monitoring information for a change data capture with multiple source-to-target mappings.

    Screenshot of a detailed breakdown of each mapping in a change data capture artifact.