Microsoft Fabric-Entscheidungsleitfaden: Copy-Akivität, Dataflow oder Spark

Verwenden Sie diesen Referenzleitfaden und die Beispielszenarien, um zu entscheiden, ob Sie eine Copy-Aktivität, einen Datenfluss oder Spark für Ihre Microsoft Fabric-Workloads benötigen.

Copy-Aktivität-, Dataflow- und Spark-Eigenschaften

Copy-Aktivität für die Pipeline Dataflow Gen 2 Spark
Anwendungsfälle Data Lake- und Data Warehouse-Migration,
Datenerfassung,
einfache Transformation
Datenerfassung,
Datentransformation,
Data Wrangling,
Datenprofilerstellung
Datenerfassung,
Datentransformation,
Datenverarbeitung,
Datenprofilerstellung
Primäre* Entwickler*innen Technische Fachkraft für Daten,
Datenintegrator
Technische Fachkraft für Daten,
Datenintegrator,
Business Analyst
Technische Fachkraft für Daten,
Wissenschaftliche Fachkraft für Daten,
Datenentwickler*in
Kenntnisse der primären Entwickler*innen ETL (Extrahieren, Transformieren und Laden),
SQL,
JSON
ETL (Extrahieren, Transformieren und Laden),
M,
SQL
Spark (Scala, Python, Spark SQL, R)
Geschriebener Code Ohne Code,
wenig Code
Ohne Code,
wenig Code
Code
Datenvolumen Niedrig nach hoch Niedrig nach hoch Niedrig nach hoch
Primäre Schnittstelle Assistent,
Canvas
Power Query Notebook,
Spark-Auftragsdefinition
Sources mehr als 30 Connectors mehr als 150 Connectors Hunderte von Spark-Bibliotheken
Destinations mehr als 18 Connectors Lakehouse
Azure SQL-Datenbank,
Azure Data Explorer,
Azure Synapse Analytics
Hunderte von Spark-Bibliotheken
Transformationskomplexität Niedrig:
Lightweight: Typkonvertierung, Spaltenzuordnung, Dateien zusammenführen/teilen, Hierarchie vereinfachen
Niedrig bis hoch:
mehr als 300 Transformationsfunktionen
Niedrig bis hoch:
Unterstützung für native Spark- und Open-Source-Bibliotheken

Sehen Sie sich die folgenden drei Szenarios an, um Hilfe bei der Auswahl der Verwendung Ihrer Daten in Fabric zu finden.

Szenario1

Leo, eine technische Fachkraft für Daten, muss eine große Menge an Daten aus externen Systemen erfassen, sowohl lokal als auch in der Cloud. Zu diesen externen Systemen gehören Datenbanken, Dateisysteme und APIs. Leo möchte keinen Code für jeden Connector- oder Datenverschiebungsvorgang schreiben und verwalten. Er möchte den Best Practices der Medaillon-Ebenen Bronze, Silber und Gold folgen. Leo hat keine Erfahrung mit Spark, daher bevorzugt er, so viel wie möglich mit der Drag & Drop-Benutzeroberfläche und minimaler Programmierung zu arbeiten. Er möchte die Daten auch planmäßig verarbeiten.

Der erste Schritt besteht darin, die Rohdaten aus Azure-Datenressourcen und verschiedenen Drittanbieterquellen (z. B. Snowflake Web, REST, AWS S3 oder GCS) in das Lakehouse der Ebene „Bronze“ abzurufen. Er möchte ein konsolidiertes Lakehouse, damit sich alle Daten aus verschiedenen Branchenanwendungen sowie lokalen Quellen und Cloudquellen an einem einzigen Ort befinden. Leo überprüft die Optionen und wählt die Copy-Aktivität für die Pipeline als geeignete Wahl für seine rohe binäre Kopie aus. Dieses Muster gilt sowohl für die verlaufsbezogene als auch für die inkrementelle Datenaktualisierung. Mit der Kopieraktivität kann Leo Daten der Ebene „Gold“ ohne Code in ein Data Warehouse laden, wenn dies erforderlich ist, und Pipelines bieten eine umfassende Datenerfassung, wodurch Daten im Petabyte-Maßstab verschoben werden können. Die Copy-Aktivität ist die beste Wahl für Low-Code und No-Code, um Petabytes an Daten aus verschiedenen Quellen in Lakehouses und Warehouses zu verschieben, entweder ad-hoc oder über einen Zeitplan.

Szenario2

Mary ist technische Fachkraft für Daten mit fundierten Kenntnissen über die Anforderungen an die analysebasierte Berichterstattung in branchenspezifischen Analysen. Ein Upstreamteam hat erfolgreich eine Lösung implementiert, um die Verlaufsdaten und inkrementellen Daten mehrerer Branchenanwendungen in ein gemeinsames Lakehouse zu migrieren. Mary wurde beauftragt, die Daten zu bereinigen, Geschäftslogiken anzuwenden und sie in mehrere Ziele (z. B. Azure SQL DB, ADX und ein Lakehouse) zu laden, um sie für ihre jeweiligen Berichtsteams vorzubereiten.

Mary ist eine erfahrene Power Query-Benutzerin, und das Datenvolumen zum Erzielen der gewünschten Leistung liegt im niedrigen bis mittleren Bereich. Dataflows bieten No-Code- oder Low-Code-Schnittstellen zum Erfassen von Daten aus Hunderten von Datenquellen. Mit Dataflows können Sie Daten mit mehr als 300 Datentransformationsoptionen transformieren und die Ergebnisse mit einer benutzerfreundlichen, hochgradig visuellen Benutzeroberfläche in mehrere Ziele schreiben. Mary überprüft die Optionen und entscheidet, dass es sinnvoll ist, Dataflow Gen2 als bevorzugte Transformationsoption zu verwenden.

Szenario3

Adam ist wissenschaftliche Fachkraft für Daten und arbeitet für ein großes Einzelhandelsunternehmen, das ein Lakehouse verwendet, um seine Kundendaten zu speichern und zu analysieren. Im Rahmen seiner Tätigkeit ist Adam für das Erstellen und Verwalten der Datenpipelines verantwortlich, die Daten extrahieren, transformieren und in das Lakehouse laden. Eine der geschäftsspezifischen Anforderungen des Unternehmens ist die Durchführung von Kundenbewertungsanalysen, um Einblicke in die Erfahrungen der Kunden zu gewinnen und ihre Dienste zu verbessern.

Adam entscheidet sich für Spark als beste Option, um die Extraktions- und Transformationslogik zu erstellen. Spark stellt eine verteilte Computingplattform bereit, die große Datenmengen parallel verarbeiten kann. Adam schreibt eine Spark-Anwendung mit Python oder Scala, die strukturierte, teilweise strukturierte und unstrukturierte Daten aus OneLake für Kundenbewertungen und Feedback liest. Die Anwendung bereinigt, transformiert und schreibt Daten in Delta-Tabellen im Lakehouse. Die Daten können dann für Downstreamanalysen verwendet werden.