Erfassen geänderter Daten aus Azure Data Lake Storage Gen2 in Azure SQL-Datenbank mithilfe einer Change Data Capture-Ressource
GILT FÜR: Azure Data Factory Azure Synapse Analytics
Tipp
Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!
In diesem Artikel verwenden Sie die Benutzeroberfläche von Azure Data Factory, um eine CDC-Ressource (Change Data Capture) zu erstellen. Die Ressource erfasst geänderte Daten aus einer Azure Data Lake Storage Gen2-Quelle und fügt sie in Echtzeit Azure SQL-Datenbank hinzu.
In diesem Artikel werden folgende Vorgehensweisen behandelt:
- Erstellen einer CDC-Ressource
- Überwachen der CDC-Aktivität
Sie können das Konfigurationsmuster in diesem Artikel ändern und erweitern.
Voraussetzungen
Bevor Sie mit den Verfahren in diesem Artikel beginnen, stellen Sie sicher, dass Sie über folgende Ressourcen verfügen:
- Azure-Abonnement. Erstellen Sie ein kostenloses Azure-Konto, falls Sie nicht über ein Azure-Abonnement verfügen.
- SQL-Datenbank. Sie verwenden Azure SQL-Datenbank als Quelldatenspeicher. Wenn Sie keine SQL-Datenbank besitzen, erstellen Sie eine im Azure-Portal.
- Speicherkonto: Sie verwenden eine in Azure Data Lake Storage Gen2 gespeicherte Delta Lake-Instanz als Zieldatenspeicher. Wenn Sie kein Speicherkonto besitzen, finden Sie unter Erstellen eines Speicherkontos die Schritte zum Erstellen eines solchen Kontos.
Erstellen eines CDC-Artefakts
Navigieren Sie in Ihrer Data Factory zum Bereich Autor. Unter Pipelines wird ein neues Artefakt der obersten Ebene mit dem Namen Change Data Capture (Vorschau) angezeigt.
Zeigen Sie auf Change Data Capture (Vorschau), bis drei Punkte angezeigt werden. Wählen Sie dann Change Data Capture-Aktionen (Vorschau) aus.
Wählen Sie Neues CDC (Vorschau) aus. Dadurch wird ein Flyout geöffnet, um mit dem geführten Prozess zu beginnen.
Sie werden aufgefordert, Ihre CDC-Ressource zu benennen. Standardmäßig lautet der Name „adfcdc“ mit einer Zahl, die um 1 erhöht wird. Sie können diesen Standardnamen durch einen von Ihnen ausgewählten Namen ersetzen.
Verwenden Sie die Dropdownliste, um Ihre Datenquelle auszuwählen. Wählen Sie in diesem Artikel DelimitedText aus.
Sie werden aufgefordert, einen verknüpften Dienst auszuwählen. Erstellen Sie einen neuen verknüpften Dienst, oder wählen Sie einen vorhandenen Dienst aus.
Verwenden Sie den Bereich Quelleinstellungen, um optional erweiterte Quellkonfigurationen festzulegen, einschließlich Spalten- und Zeilentrennzeichen.
Wenn Sie diese Quelleinstellungen nicht manuell bearbeiten, werden sie auf die Standardwerte festgelegt.
Verwenden Sie die Schaltfläche Durchsuchen, um Ihren Quelldatenordner auszuwählen.
Nachdem Sie einen Ordnerpfad ausgewählt haben, wählen Sie Weiter aus, um Ihr Datenziel festzulegen.
Mit der Plusschaltfläche (+) können Sie mehrere Quellordner hinzufügen. Die anderen Quellen müssen ebenfalls denselben verknüpften Dienst verwenden, den Sie bereits ausgewählt haben.
Wählen Sie mithilfe der Dropdownliste einen Wert für Zieltyp aus. Wählen Sie in diesem Artikel Azure SQL-Datenbank aus.
Sie werden aufgefordert, einen verknüpften Dienst auszuwählen. Erstellen Sie einen neuen verknüpften Dienst, oder wählen Sie einen vorhandenen Dienst aus.
Unter Zieltabellen können Sie eine neue Zieltabelle erstellen oder eine vorhandene Tabelle auswählen:
Um eine Zieltabelle zu erstellen, wählen Sie die Registerkarte Neue Entitäten und dann Neue Tabellen bearbeiten aus.
Um eine vorhandene Tabelle auszuwählen, wählen Sie die Registerkarte Vorhandene Entitäten aus, und verwenden Sie dann das Kontrollkästchen, um eine Tabelle auszuwählen. Über die Schaltfläche Vorschau können Sie Ihre Tabellendaten anzeigen.
Wenn vorhandene Tabellen am Ziel übereinstimmende Namen aufweisen, werden sie standardmäßig unter Vorhandene Entitäten ausgewählt. Andernfalls werden neue Tabellen mit übereinstimmenden Namen unter Neue Entitäten erstellt. Darüber hinaus können Sie neue Tabellen über die Schaltfläche Neue Tabellen bearbeiten bearbeiten.
Sie können die Kontrollkästchen verwenden, um mehrere Zieltabellen aus Ihrer SQL-Datenbank auszuwählen. Nachdem Sie die Auswahl der Zieltabellen abgeschlossen haben, wählen Sie Weiter aus.
Eine neue Registerkarte zum Erfassen von Änderungsdaten wird angezeigt. Diese Registerkarte ist die CDC Studio-Instanz, in der Sie Ihre neue Ressource konfigurieren können.
Eine neue Zuordnung wird automatisch für Sie erstellt. Sie können die Auswahl für Quelltabelle und Zieltabelle Ihrer Zuordnung mithilfe der Dropdownlisten aktualisieren.
Nachdem Sie Ihre Tabellen ausgewählt haben, werden deren Spalten standardmäßig zugeordnet, wobei die Umschaltfläche Automatische Zuordnung aktiviert ist. Die automatische Zuordnung ordnet die Spalten in der Senke automatisch nach Namen zu, übernimmt neue Spaltenänderungen, wenn sich das Quellschema weiterentwickelt, und überträgt diese Informationen an die unterstützten Senkentypen.
Wenn Sie Automatische Zuordnung verwenden und keine Spaltenzuordnungen ändern möchten, fahren Sie direkt mit Schritt 18 fort.
Wenn Sie die Spaltenzuordnungen aktivieren möchten, wählen Sie die Zuordnungen aus, und deaktivieren Sie die Umschaltfläche Automatische Zuordnung. Wählen Sie dann die Schaltfläche Spaltenzuordnungen aus, um die Zuordnungen anzuzeigen.
Sie können jederzeit zur automatischen Zuordnung zurückkehren, indem Sie die Umschaltfläche Automatische Zuordnung aktivieren.
Zeigen Sie Ihre Spaltenzuordnungen an. Verwenden Sie die Dropdownlisten, um Ihre Spaltenzuordnungen für Zuordnungsmethode, Quellspalte und Zielspalte zu bearbeiten.
Auf der Seite haben Sie folgende Möglichkeiten:
- Fügen Sie mithilfe der Schaltfläche Neue Zuordnung weitere Spaltenzuordnungen hinzu. Verwenden Sie die Dropdownlisten, um eine Auswahl für Zuordnungsmethode, Quellspalte und Zielspalte zu treffen.
- Wenn Sie den Löschvorgang für unterstützte Senkentypen nachverfolgen möchten, wählen Sie die Spalte Schlüssel aus.
- Wählen Sie die Schaltfläche Aktualisieren unter Datenvorschau aus, um zu visualisieren, wie die Daten im Ziel aussehen.
Wenn die Zuordnung fertig ist, wählen Sie die Pfeilschaltfläche aus, um zur CDC-Hauptcanvas zurückzukehren.
Sie können in einem einzelnen CDC-Artefakt mehrere Zuordnungen zwischen Quelle und Ziel hinzufügen. Verwenden Sie die Schaltfläche Bearbeiten, um weitere Datenquellen und Ziele hinzuzufügen. Wählen Sie dann Neue Zuordnung aus, und verwenden Sie die Dropdownlisten, um eine neue Quelle und ein neues Ziel festzulegen. Sie können Automatische Zuordnung für jede dieser Zuordnungen unabhängig aktivieren oder deaktivieren.
Geben Sie nach Abschluss der Zuordnungen mithilfe der Schaltfläche Wartezeit festlegen die CDC-Wartezeit an.
Wählen Sie die Wartezeit Ihrer CDC-Instanz aus, und wählen Sie dann Übernehmen aus, um die Änderungen vorzunehmen.
Standardmäßig ist die Wartezeit auf 15 Minuten festgelegt. Im Beispiel in diesem Artikel wird die Option Echtzeit für die Wartezeit verwendet. Mit der Wartezeit „Echtzeit“ werden kontinuierlich Änderungen in Ihren Quelldaten in einem Intervall von weniger als einer Minute erfasst.
Bei anderen Wartezeiten (beispielsweise bei Auswahl von 15 Minuten) verarbeitet Change Data Capture Ihre Quelldaten und erfasst alle geänderten Daten seit dem Zeitpunkt der letzten Verarbeitung.
Hinweis
Wenn die Unterstützung auf die Streamingdatenintegration (Azure Event Hubs- und Kafka-Datenquellen) erweitert wird, wird die Wartezeit standardmäßig auf Echtzeit festgelegt.
Nachdem Sie Ihre CDC-Instanz konfiguriert haben, wählen Sie Alle veröffentlichen aus, um Ihre Änderungen zu veröffentlichen.
Hinweis
Wenn Sie Ihre Änderungen nicht veröffentlichen, können Sie die CDC-Ressource nicht starten. Die Schaltfläche Starten im nächsten Schritt ist nicht verfügbar.
Wählen Sie Starten aus, um mit der Ausführung von Change Data Capture zu beginnen.
Überwachen Ihrer Change Data Capture-Instanz
Öffnen Sie den Bereich Überwachen mit einer der folgenden Methoden:
Wählen Sie Change Data Capture (Vorschau) aus, um Ihre CDC-Ressourcen anzuzeigen.
Im Bereich Change Data Capture werden die Informationen für Quelle, Ziel, Status und Zuletzt verarbeitete für Ihre Change Data Capture-Instanz angezeigt.
Wählen Sie den Namen der CDC aus, um weitere Details anzuzeigen. Sie können sehen, wie viele Änderungen (Einfügen, Aktualisieren oder Löschen) gelesen und geschrieben wurden, und erhalten weitere Diagnoseinformationen.
Wenn Sie in Ihrer Change Data Capture-Instanz mehrere Zuordnungen eingerichtet haben, wird jede Zuordnung in einer anderen Farbe angezeigt. Wählen Sie den Balken aus, um spezifische Details für jede Zuordnung anzuzeigen, oder verwenden Sie die Diagnoseinformationen unten im Bereich.