Datenflüsse in Azure Synapse Analytics

Was sind Datenflüsse?

Datenflüsse sind visuell entworfene Datentransformationen in Azure Synapse Analytics. Mit Datenflüssen können Data Engineers eine Datentransformationslogik entwickeln, ohne Code schreiben zu müssen. Die daraus resultierenden Datenflüsse werden als Aktivitäten in Azure Synapse Analytics-Pipelines ausgeführt, die erweiterte Apache Spark-Cluster verwenden. Datenflussaktivitäten können mithilfe vorhandener Azure Synapse Analytics-Funktionen für Planung, Steuerung, Flows und Überwachung operationalisiert werden.

Datenflüsse bieten eine vollständig visuelle Darstellung, ohne dass Sie eine einzige Codezeile schreiben müssen. Ihre Datenflüsse werden in von Synapse verwalteten Ausführungsclustern für die erweiterte Datenverarbeitung ausgeführt. Azure Synapse Analytics verarbeitet die gesamte Codeübersetzung, Pfadoptimierung und Ausführung Ihrer Datenflussaufträge.

Erste Schritte

Datenflüsse werden im Entwicklungsbereich von Synapse Studio erstellt. Um einen Datenfluss zu erstellen, wählen Sie das Pluszeichen neben Entwickeln und dann die Option Datenfluss aus.

Neuer Datenfluss

Mit dieser Aktion gelangen Sie zur Datenflusscanvas, auf der Sie Ihre Transformationslogik erstellen können. Wählen Sie Quelle hinzufügen aus, um mit der Konfiguration Ihrer Quelltransformation zu beginnen. Weitere Informationen finden Sie im Artikel zur Quelltransformation.

Erstellen von Datenflüssen

Ein Datenfluss verfügt über eine einzigartige Canvas, über die sich die Transformationslogik ganz einfach erstellen lässt. Die Datenflusscanvas ist in drei Bereiche unterteilt: die obere Leiste, das Diagramm und den Konfigurationsbereich.

Screenshot: Datenflusscanvas mit Beschriftungen für obere Leiste, Graph und Konfigurationsbereich

Graph

Das Diagramm zeigt den Transformationsdatenstrom. Es zeigt die Herkunft der Quelldaten beim Fließen in eine oder mehrere Senken. Wählen Sie die Option Quelle hinzufügen aus, um eine neue Quelle hinzuzufügen. Wählen Sie zum Hinzufügen einer neuen Transformation unten rechts in einer vorhandenen Transformation das Pluszeichen aus. Informieren Sie sich über das Verwalten des Datenflussdiagramms.

Screenshot: Graphbereich der Canvas mit einem Suchtextfeld

Konfigurationsbereich

Im Konfigurationsbereich werden die spezifischen Einstellungen für die derzeit ausgewählte Transformation angezeigt. Wenn keine Transformation ausgewählt ist, wird der Datenfluss angezeigt. In der allgemeinen Datenflusskonfiguration können Sie Parameter über die Registerkarte Parameter hinzufügen. Weitere Informationen finden Sie unter Datenflussparameter.

Jede Transformation enthält mindestens vier Registerkarten für die Konfiguration.

Transformationseinstellungen

Die erste Registerkarte im Konfigurationsbereich jeder Transformation enthält die Einstellungen, die für diese Transformation spezifisch sind. Weitere Informationen finden Sie auf der Dokumentationsseite für diese Transformation.

Registerkarte „Quelleinstellungen“

Optimieren

Die Registerkarte Optimieren enthält Einstellungen zum Konfigurieren von Partitionierungsschemas. Weitere Informationen zum Optimieren Ihrer Datenflüsse finden Sie in der Anleitung zur Leistung des Zuordnungsdatenflusses.

Screenshot der Registerkarte „Optimieren“

Überprüfen

Die Registerkarte Überprüfen bietet einen Einblick in die Metadaten des Datenstroms, den Sie transformieren. Sie können die Spaltenanzahl, geänderte Spalten, hinzugefügte Spalten, Datentypen, die Spaltensortierung und Spaltenverweise sehen. Überprüfen ist eine schreibgeschützte Ansicht Ihrer Metadaten. Der Debugmodus muss nicht aktiviert sein, um die Metadaten im Bereich Überprüfen anzeigen zu können.

Registerkarte „Untersuchen“

Wenn Sie die Form Ihrer Daten durch Transformationen ändern, wird der Fluss der Metadatenänderungen im Bereich Überprüfen angezeigt. Falls in Ihrer Quelltransformation kein definiertes Schema vorhanden ist, werden im Bereich Überprüfen keine Metadaten angezeigt. Fehlende Metadaten kommen in Schemaabweichungsszenarien häufiger vor.

Datenvorschau

Bei aktiviertem Debugmodus können Sie auf der Registerkarte Datenvorschau eine interaktive Momentaufnahme der Daten bei jeder Transformation anzeigen. Weitere Informationen finden Sie unter Datenvorschau im Debugmodus.

Obere Leiste

Die obere Leiste enthält Aktionen, die sich auf den gesamten Datenfluss auswirken, z. B. Überprüfungen und Debugeinstellungen. Sie können auch den zugrunde liegenden JSON-Code und das Datenflussskript Ihrer Transformationslogik anzeigen.

Verfügbare Transformationen

Unter Zuordnungsdatenfluss – Übersicht über Transformationen finden Sie eine Liste der verfügbaren Transformationen.

Datenflussaktivität

Datenflüsse werden innerhalb von Azure Synapse Analytics-Pipelines mithilfe der Datenflussaktivität operationalisiert. Der Benutzer muss lediglich angeben, welche Integration Runtime verwendet werden soll, und Parameterwerte übergeben. Weitere Informationen finden Sie unter Azure Integration Runtime.

Debugmodus

Im Debugmodus können Sie die Ergebnisse jedes Transformationsschritts interaktiv anzeigen, während Sie Datenflüsse erstellen und debuggen. Die Debugsitzung kann sowohl beim Erstellen der Datenflusslogik als auch beim Ausführen von Debugläufen für die Pipeline mit Datenflussaktivitäten ausgeführt werden. Weitere Informationen finden Sie in der Dokumentation zum Debugmodus.

Überwachen von Datenflüssen

Datenflüsse lassen sich in vorhandene Azure Synapse Analytics-Überwachungsfunktionen integrieren. Informationen zum Verständnis der Ausgabe der Datenflussüberwachung finden Sie unter Überwachen von Zuordnungsdatenflüssen.

Das Azure Synapse Analytics-Team hat eine Anleitung zur Leistungsoptimierung erstellt, mit deren Hilfe Sie die Ausführungszeit Ihrer Datenflüsse nach dem Erstellen der Geschäftslogik optimieren können.

Nächste Schritte

  • Informieren Sie sich über die Erstellung einer Quelltransformation.
  • Informieren Sie sich darüber, wie Sie Ihre Datenflüsse im Debugmodus erstellen.