Microsoft Fabric-Entscheidungsleitfaden: Copy-Akivität, Dataflow oder Spark
Verwenden Sie diesen Referenzleitfaden und die Beispielszenarien, um zu entscheiden, ob Sie eine Copy-Aktivität, einen Datenfluss oder Spark für Ihre Microsoft Fabric-Workloads benötigen.
Copy-Aktivität-, Dataflow- und Spark-Eigenschaften
Copy-Aktivität für die Pipeline | Dataflow Gen 2 | Spark | |
---|---|---|---|
Anwendungsfälle | Data Lake- und Data Warehouse-Migration, Datenerfassung, einfache Transformation |
Datenerfassung, Datentransformation, Data Wrangling, Datenprofilerstellung |
Datenerfassung, Datentransformation, Datenverarbeitung, Datenprofilerstellung |
Primäre* Entwickler*innen | Technische Fachkraft für Daten, Datenintegrator |
Technische Fachkraft für Daten, Datenintegrator, Business Analyst |
Technische Fachkraft für Daten, Wissenschaftliche Fachkraft für Daten, Datenentwickler*in |
Kenntnisse der primären Entwickler*innen | ETL (Extrahieren, Transformieren und Laden), SQL, JSON |
ETL (Extrahieren, Transformieren und Laden), M, SQL |
Spark (Scala, Python, Spark SQL, R) |
Geschriebener Code | Ohne Code, wenig Code |
Ohne Code, wenig Code |
Code |
Datenvolumen | Niedrig nach hoch | Niedrig nach hoch | Niedrig nach hoch |
Primäre Schnittstelle | Assistent, Canvas |
Power Query | Notebook, Spark-Auftragsdefinition |
Sources | mehr als 30 Connectors | mehr als 150 Connectors | Hunderte von Spark-Bibliotheken |
Destinations | mehr als 18 Connectors | Lakehouse Azure SQL-Datenbank, Azure Data Explorer, Azure Synapse Analytics |
Hunderte von Spark-Bibliotheken |
Transformationskomplexität | Niedrig: Lightweight: Typkonvertierung, Spaltenzuordnung, Dateien zusammenführen/teilen, Hierarchie vereinfachen |
Niedrig bis hoch: mehr als 300 Transformationsfunktionen |
Niedrig bis hoch: Unterstützung für native Spark- und Open-Source-Bibliotheken |
Sehen Sie sich die folgenden drei Szenarios an, um Hilfe bei der Auswahl der Verwendung Ihrer Daten in Fabric zu finden.
Szenario1
Leo, eine technische Fachkraft für Daten, muss eine große Menge an Daten aus externen Systemen erfassen, sowohl lokal als auch in der Cloud. Zu diesen externen Systemen gehören Datenbanken, Dateisysteme und APIs. Leo möchte keinen Code für jeden Connector- oder Datenverschiebungsvorgang schreiben und verwalten. Er möchte den Best Practices der Medaillon-Ebenen Bronze, Silber und Gold folgen. Leo hat keine Erfahrung mit Spark, daher bevorzugt er, so viel wie möglich mit der Drag & Drop-Benutzeroberfläche und minimaler Programmierung zu arbeiten. Er möchte die Daten auch planmäßig verarbeiten.
Der erste Schritt besteht darin, die Rohdaten aus Azure-Datenressourcen und verschiedenen Drittanbieterquellen (z. B. Snowflake Web, REST, AWS S3 oder GCS) in das Lakehouse der Ebene „Bronze“ abzurufen. Er möchte ein konsolidiertes Lakehouse, damit sich alle Daten aus verschiedenen Branchenanwendungen sowie lokalen Quellen und Cloudquellen an einem einzigen Ort befinden. Leo überprüft die Optionen und wählt die Copy-Aktivität für die Pipeline als geeignete Wahl für seine rohe binäre Kopie aus. Dieses Muster gilt sowohl für die verlaufsbezogene als auch für die inkrementelle Datenaktualisierung. Mit der Kopieraktivität kann Leo Daten der Ebene „Gold“ ohne Code in ein Data Warehouse laden, wenn dies erforderlich ist, und Pipelines bieten eine umfassende Datenerfassung, wodurch Daten im Petabyte-Maßstab verschoben werden können. Die Copy-Aktivität ist die beste Wahl für Low-Code und No-Code, um Petabytes an Daten aus verschiedenen Quellen in Lakehouses und Warehouses zu verschieben, entweder ad-hoc oder über einen Zeitplan.
Szenario2
Mary ist technische Fachkraft für Daten mit fundierten Kenntnissen über die Anforderungen an die analysebasierte Berichterstattung in branchenspezifischen Analysen. Ein Upstreamteam hat erfolgreich eine Lösung implementiert, um die Verlaufsdaten und inkrementellen Daten mehrerer Branchenanwendungen in ein gemeinsames Lakehouse zu migrieren. Mary wurde beauftragt, die Daten zu bereinigen, Geschäftslogiken anzuwenden und sie in mehrere Ziele (z. B. Azure SQL DB, ADX und ein Lakehouse) zu laden, um sie für ihre jeweiligen Berichtsteams vorzubereiten.
Mary ist eine erfahrene Power Query-Benutzerin, und das Datenvolumen zum Erzielen der gewünschten Leistung liegt im niedrigen bis mittleren Bereich. Dataflows bieten No-Code- oder Low-Code-Schnittstellen zum Erfassen von Daten aus Hunderten von Datenquellen. Mit Dataflows können Sie Daten mit mehr als 300 Datentransformationsoptionen transformieren und die Ergebnisse mit einer benutzerfreundlichen, hochgradig visuellen Benutzeroberfläche in mehrere Ziele schreiben. Mary überprüft die Optionen und entscheidet, dass es sinnvoll ist, Dataflow Gen2 als bevorzugte Transformationsoption zu verwenden.
Szenario3
Adam ist wissenschaftliche Fachkraft für Daten und arbeitet für ein großes Einzelhandelsunternehmen, das ein Lakehouse verwendet, um seine Kundendaten zu speichern und zu analysieren. Im Rahmen seiner Tätigkeit ist Adam für das Erstellen und Verwalten der Datenpipelines verantwortlich, die Daten extrahieren, transformieren und in das Lakehouse laden. Eine der geschäftsspezifischen Anforderungen des Unternehmens ist die Durchführung von Kundenbewertungsanalysen, um Einblicke in die Erfahrungen der Kunden zu gewinnen und ihre Dienste zu verbessern.
Adam entscheidet sich für Spark als beste Option, um die Extraktions- und Transformationslogik zu erstellen. Spark stellt eine verteilte Computingplattform bereit, die große Datenmengen parallel verarbeiten kann. Adam schreibt eine Spark-Anwendung mit Python oder Scala, die strukturierte, teilweise strukturierte und unstrukturierte Daten aus OneLake für Kundenbewertungen und Feedback liest. Die Anwendung bereinigt, transformiert und schreibt Daten in Delta-Tabellen im Lakehouse. Die Daten können dann für Downstreamanalysen verwendet werden.