Change Data Capture in Azure Data Factory und Azure Synapse Analytics

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Tipp

Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!

In diesem Artikel wird die Änderungsdatenerfassung (Change Data Capture, CDC) in Azure Data Factory beschrieben.

Weitere Informationen finden Sie unter Übersicht über Azure Data Factory oder Übersicht über Azure Synapse.

Übersicht

Wenn Sie Datenintegrations- und ETL-Prozesse in der Cloud ausführen, können Ihre Aufträge schneller ausgeführt werden und effektiver sein, wenn nur die Quelldaten gelesen werden, die seit der letzten Ausführung der Pipeline geändert wurden, anstatt für jede Ausführung immer ein ganzes Dataset abzufragen. ADF bietet mehrere verschiedene Möglichkeiten, um auf einfache Weise Deltadaten nur aus der letzten Ausführung abzurufen.

Change Data Capture-Factoryressource

Die einfachste und schnellste Möglichkeit für den Einstieg in Data Factory mit CDC bietet die Change Data Capture-Ressource auf Factoryebene. Klicken Sie im Hauptpipeline-Designer unter „Factoryressourcen“ auf Neu, um ein neues Change Data Capture zu erstellen. Die CDC-Factoryressource stellt eine exemplarische Konfigurationsumgebung bereit, in der Sie Ihre Quellen und Ziele auswählen, optionale Transformationen anwenden und dann auf „Starten“ klicken können, um mit der Datenerfassung zu beginnen. Für die CDC-Ressource müssen Sie keine Pipelines oder Datenflussaktivitäten entwerfen. Außerdem werden Ihnen nur vier Kerne von universellen Datenflüssen in Rechnung gestellt, während Ihre Daten verarbeitet werden. Sie können eine bevorzugte Wartezeit festlegen, die von ADF zur Aktivierung und Suche nach geänderten Daten verwendet wird. Dies ist der einzige Zeitpunkt, der Ihnen in Rechnung gestellt wird. Die CDC-Ressource der obersten Ebene ist auch die ADF-Methode zum kontinuierlichen Ausführen Ihrer Prozesse. Pipelines in ADF sind nur Batch, aber die CDC-Ressource kann kontinuierlich ausgeführt werden.

Native Change Data Capture im Zuordnungsdatenfluss

Die geänderten Daten, einschließlich eingefügter, aktualisierter und gelöschter Zeilen können durch den ADF-Zuordnungsdatenfluss automatisch in den Quelldatenbanken erkannt und daraus extrahiert werden. Es sind zum Ermitteln der Änderungen keine Zeitstempel- oder ID-Spalten erforderlich, da die native Change Data Capture-Technologie in den Datenbanken verwendet wird. Wenn Sie einfach eine Quelltransformation und einen Senkentransformationsverweis mit einem Datenbankdataset in einem Zuordnungsdatenfluss verketten, können Sie sehen, dass die Änderungen der Quelldatenbank automatisch auf die Zieldatenbank angewendet werden, sodass Sie Daten einfach zwischen zwei Tabellen synchronisieren können. Sie können auch alle Transformationen dazwischen für alle Geschäftslogiken hinzufügen, um die Deltadaten zu verarbeiten. Bei der Definition Ihres Senkendatenziels können Sie Einfüge-, Aktualisierungs-, Upsert- und Löschvorgänge in Ihrer Senke festlegen, ohne dass die Transformation „Zeile ändern“ erforderlich ist, da ADF in der Lage ist, die Zeilenersteller automatisch zu erkennen.

Unterstützte Connectors

Automatische inkrementelle Extraktion im Zuordnungsdatenfluss

Die neu aktualisierten Zeilen oder Dateien können automatisch durch den ADF-Zuordnungsdatenfluss in den Quellspeichern erkannt und daraus extrahiert werden. Wenn Sie Deltadaten aus den Datenbanken abrufen möchten, ist die inkrementelle Spalte erforderlich, um die Änderungen zu identifizieren. Wenn Sie neue Dateien oder aktualisierte Dateien nur aus einem Speicher laden möchten, funktioniert der ADF-Zuordnungsdatenfluss nur über den letzten Änderungszeitpunkt von Dateien.

Unterstützte Connectors

Kundenseitig verwaltete Deltadatenextraktion in der Pipeline

Sie können immer eine eigene Pipeline für die Deltadatenextraktion für alle unterstützten ADF-Datenspeicher erstellen. Dabei können Sie u. a. die folgenden Aktivitäten verwenden: Lookup-Aktivität, um den in einer externen Steuertabelle gespeicherten Wasserzeichenwert abzurufen, Kopieraktivität oder Zuordnungsdatenflussaktivität, um die Deltadaten anhand der Zeitstempel- oder ID-Spalte abzufragen, und SP-Aktivität, um den neuen Wasserzeichenwert zurück in Ihre externe Steuertabelle für die nächste Ausführung zu schreiben. Wenn Sie neue Dateien nur aus einem Speicher laden möchten, können Sie Dateien jedes Mal löschen, nachdem sie erfolgreich in das Ziel verschoben wurden, oder Sie können den zeitpartitionierten Ordner, Dateinamen oder den Zeitpunkt der letzten Änderung nutzen, um die neuen Dateien zu identifizieren.

Empfehlungen

Change Data Capture in Datenbanken

  • Native Change Data Capture wird immer als einfachste Möglichkeit zum Abrufen von Änderungsdaten empfohlen. Außerdem ist die Last Ihrer Quelldatenbank wesentlich geringer, wenn ADF die Änderungsdaten zur weiteren Verarbeitung extrahiert.
  • Wenn Ihre Datenbankspeicher nicht Teil der ADF-Connectorliste mit Unterstützung für native Change Data Capture sind, empfehlen wir Ihnen, die Option für die automatische inkrementelle Extraktion zu aktivieren. Damit müssen Sie nur die inkrementelle Spalte eingeben, um die Änderungen zu erfassen. ADF übernimmt den Rest, einschließlich der Erstellung einer dynamischen Abfrage zum Laden und Verwalten des Prüfpunkts für jede Aktivitätsausführung.
  • Die kundenseitig verwaltete Deltadatenextraktion in der Pipeline umfasst alle unterstützten ADF-Datenbanken und bieten Ihnen die Flexibilität, alles selbst zu steuern.

Erfassung geänderter Dateien aus dateibasierten Speichern

  • Wenn Sie Daten aus Azure Blob Storage, Azure Data Lake Storage Gen2 oder Azure Data Lake Storage Gen1 laden möchten, ermöglicht Ihnen der Zuordnungsdatenfluss das Abrufen neuer oder aktualisierter Dateien mit nur einem Klick. Es ist die einfachste und empfohlene Möglichkeit für den Deltaladevorgang aus diesen dateibasierten Speichern im Zuordnungsdatenfluss.
  • Sie können weitere bewährte Methoden ansehen.

Prüfpunkt

Wenn Sie Optionen für native Change Data Capture oder automatische inkrementelle Extraktion im ADF-Zuordnungsdatenfluss aktivieren, hilft ADF Ihnen bei der Verwaltung des Prüfpunkts. So wird sichergestellt, dass jede Aktivitätsausführung automatisch nur die Quelldaten liest, die seit der letzten Pipelineausführung geändert wurden. Der Prüfpunkt ist standardmäßig mit Ihrem Pipeline- und Aktivitätsnamen gekoppelt. Wenn Sie ihren Pipelinenamen oder Aktivitätsnamen ändern, wird der Prüfpunkt zurückgesetzt, was dazu führt, dass Sie bei der nächsten Ausführung von Anfang an beginnen oder Änderungen von jetzt erhalten. Wenn Sie den Pipelinenamen oder Aktivitätsnamen ändern möchten, aber weiterhin den Prüfpunkt beibehalten möchten, um geänderte Daten aus der letzten Ausführung automatisch abzurufen, verwenden Sie hierzu Ihren eigenen Prüfpunktschlüssel in der Datenflussaktivität. Die Benennungsregel Ihres eigenen Prüfpunktschlüssels ist dieselbe wie für verknüpfte Dienste, Datasets, Pipelines und Datenflüsse.

Wenn Sie die Pipeline debuggen, funktioniert dieses Feature genauso. Der Prüfpunkt wird zurückgesetzt, wenn Sie Ihren Browser während der Debugausführung aktualisieren. Wenn Sie mit dem Pipelineergebnis der Debug-Ausführung zufrieden sind, können Sie die Pipeline veröffentlichen und auslösen. Wenn Sie ihre veröffentlichte Pipeline zum ersten Mal auslösen, wird sie automatisch von Anfang an neu gestartet oder erhält von nun an Änderungen.

Im Abschnitt „Überwachung“ haben Sie immer die Möglichkeit, eine Pipeline erneut ausführen. Dabei werden die geänderten Daten immer vom vorherigen Prüfpunkt des ausgewählten Pipelinelaufs erfasst.

Lernprogramme

Im Anschluss finden Sie Tutorials zum Starten von Change Data Capture in Azure Data Factory und Azure Synapse Analytics:

Vorlagen

Nachfolgend finden Sie die Vorlagen zur Verwendung von Change Data Capture in Azure Data Factory und Azure Synapse Analytics.