Lakehouse- und Delta Lake-Tabellen
Microsoft Fabric Lakehouse ist eine Datenarchitekturplattform zum Speichern, Verwalten und Analysieren strukturierter und unstrukturierter Daten an einem einzelnen Speicherort. Um einen nahtlosen Datenzugriff über alle Compute-Engines in Microsoft Fabric zu erreichen, wird Delta Lake als einheitliches Tabellenformat ausgewählt.
Beim Speichern von Daten in Lakehouse mithilfe von Funktionen wie Laden in Tabellen oder Methoden, die unter Optionen zum Abrufen von Daten in Fabric Lakehouse beschrieben sind, werden alle Daten im Delta-Format gespeichert.
Eine umfassendere Einführung in das Delta Lake-Tabellenformat finden Sie unter den Links im Abschnitt „Nächste Schritte“.
Big Data, Apache Spark und ältere Tabellenformate
Microsoft Fabric Runtime für Apache Spark verwendet die gleiche Grundlage wie Azure Synapse Analytics Runtime für Apache Spark, weist jedoch wichtige Unterschiede auf, um ein optimiertes Verhalten für alle Engines im Microsoft Fabric-Dienst bereitzustellen. In Microsoft Fabric sind die wichtigsten Leistungsfeatures standardmäßig aktiviert. Fortgeschrittene Apache Spark-Benutzer*innen können Konfigurationen auf frühere Werte zurücksetzen, um sie besser an bestimmte Szenarios auszurichten.
Microsoft Fabric Lakehouse und die Apache Spark-Engine unterstützen alle Tabellentypen, sowohl verwaltet als auch nicht verwaltet. Dies umfasst Ansichten und reguläre Nicht-Delta Hive-Tabellenformate. Tabellen, die mit PARQUET, CSV, AVRO, JSON und einem beliebigen Apache Hive-kompatiblen Dateiformat definiert wurden, funktionieren wie erwartet.
Die Benutzeroberfläche des Lakehouse-Explorers variiert je nach Tabellentyp. Derzeit rendert der Lakehouse-Explorer nur Tabellenobjekte.
Konfigurationsunterschiede mit Azure Synapse Analytics
Die folgende Tabelle enthält die Konfigurationsunterschiede zwischen Azure Synapse Analytics und Microsoft Fabric Runtime für Apache Spark.
Apache Spark-Konfiguration | Microsoft Fabric-Wert | Azure Synapse Analytics-Wert | Hinweise |
---|---|---|---|
spark.sql.sources.default | delta | parquet | Standardtabellenformat |
spark.sql.parquet.vorder.enabled | true | Nicht zutreffend | Writer für V-Order |
spark.sql.parquet.vorder.dictionaryPageSize | 2 GB | Nicht zutreffend | Größenlimit für Wörterbuchseiten für V-Order |
spark.microsoft.delta.optimizeWrite.enabled | true | Nicht festgelegt (false) | Optimieren von Schreibvorgängen |
AutoErmittlung von Tabellen
Der Lakehouse-Explorer bietet eine strukturähnliche Ansicht der Objekte im Microsoft Fabric Lakehouse-Element. Er verfügt über eine wichtige Funktion zum Ermitteln und Anzeigen von Tabellen, die im Metadatenrepository und im OneLake-Speicher beschrieben werden. Die Tabellenverweise werden im Abschnitt Tables
der Benutzeroberfläche des Lakehouse-Explorers angezeigt. Die AutoErmittlung gilt auch für Tabellen, die über OneLake-Verknüpfungen definiert sind.
Tabellen über Verknüpfungen
Microsoft Fabric Lakehouse unterstützt Tabellen, die über OneLake-Verknüpfungen definiert sind, um größtmögliche Kompatibilität und keine Datenverschiebung zu gewährleisten. Die folgende Tabelle enthält die bewährten Methoden für das Szenario für jeden Elementtyp bei der Verwendung über Verknüpfungen.
Verknüpfungsziel | Wo die Verknüpfung erstellt wird | Bewährte Vorgehensweise |
---|---|---|
Delta Lake-Tabelle | Tables -Abschnitt |
Wenn mehrere Tabellen im Ziel vorhanden sind, erstellen Sie eine Verknüpfung pro Tabelle. |
Ordner mit Dateien | Files -Abschnitt |
Verwenden Sie Apache Spark, um das Ziel direkt mithilfe relativer Pfade zu verwenden. Laden Sie die Daten in native Delta-Tabellen von Lakehouse, um maximale Leistung zu erzielen. |
Apache Hive-Legacytabellen | Files -Abschnitt |
Verwenden Sie Apache Spark, um das Ziel direkt mithilfe relativer Pfade zu verwenden, oder erstellen Sie mithilfe der CREATE EXTERNAL TABLE -Syntax einen Metadatenkatalogverweis. Laden Sie die Daten in native Delta-Tabellen von Lakehouse, um maximale Leistung zu erzielen. |
Laden in Tabellen
Microsoft Fabric Lakehouse bietet eine komfortable und produktive Benutzeroberfläche, um das Laden von Daten in Delta-Tabellen zu optimieren. Das Feature zum Laden in Tabellen ermöglicht es, dass eine visuelle Umgebung gängige Dateiformate in Delta geladen werden, um die analytische Produktivität für alle Personas zu steigern. Weitere Informationen zum Feature „Laden in Tabellen“ finden Sie in der Lakehouse-Referenzdokumentation zu „Laden in Tabellen“.
Delta Lake-Tabellenoptimierung
Tabellen auf den breiten Bereich der Analyseszenarios auszulegen, ist keine geringe Herausforderung. Microsoft Fabric Lakehouse ermöglicht proaktiv die wichtigen Parameter, um häufige Probleme im Zusammenhang mit Big Data-Tabellen zu minimieren, z. B. Komprimierung und kleinen Dateigröße, und die Abfrageleistung zu maximieren. Dennoch gibt es viele Szenarios, in denen diese Parameter geändert werden müssen. Der Artikel Optimierung und V-Order für Delta Lake-Tabellen behandelt einige wichtige Szenarios und bietet eine ausführliche Anleitung zur effizienten Verwaltung von Delta-Tabellen für maximale Leistung.