Lakehouse- und Delta Lake-Tabellen

Artikel
11/15/2023

Microsoft Fabric Lakehouse ist eine Datenarchitekturplattform zum Speichern, Verwalten und Analysieren strukturierter und unstrukturierter Daten an einem einzelnen Speicherort. Um einen nahtlosen Datenzugriff über alle Compute-Engines in Microsoft Fabric zu erreichen, wird Delta Lake als einheitliches Tabellenformat ausgewählt.

Beim Speichern von Daten in Lakehouse mithilfe von Funktionen wie Laden in Tabellen oder Methoden, die unter Optionen zum Abrufen von Daten in Fabric Lakehouse beschrieben sind, werden alle Daten im Delta-Format gespeichert.

Eine umfassendere Einführung in das Delta Lake-Tabellenformat finden Sie unter den Links im Abschnitt „Nächste Schritte“.

Big Data, Apache Spark und ältere Tabellenformate

Microsoft Fabric Runtime für Apache Spark verwendet die gleiche Grundlage wie Azure Synapse Analytics Runtime für Apache Spark, weist jedoch wichtige Unterschiede auf, um ein optimiertes Verhalten für alle Engines im Microsoft Fabric-Dienst bereitzustellen. In Microsoft Fabric sind die wichtigsten Leistungsfeatures standardmäßig aktiviert. Fortgeschrittene Apache Spark-Benutzer*innen können Konfigurationen auf frühere Werte zurücksetzen, um sie besser an bestimmte Szenarios auszurichten.

Microsoft Fabric Lakehouse und die Apache Spark-Engine unterstützen alle Tabellentypen, sowohl verwaltet als auch nicht verwaltet. Dies umfasst Ansichten und reguläre Nicht-Delta Hive-Tabellenformate. Tabellen, die mit PARQUET, CSV, AVRO, JSON und einem beliebigen Apache Hive-kompatiblen Dateiformat definiert wurden, funktionieren wie erwartet.

Die Benutzeroberfläche des Lakehouse-Explorers variiert je nach Tabellentyp. Derzeit rendert der Lakehouse-Explorer nur Tabellenobjekte.

Konfigurationsunterschiede mit Azure Synapse Analytics

Die folgende Tabelle enthält die Konfigurationsunterschiede zwischen Azure Synapse Analytics und Microsoft Fabric Runtime für Apache Spark.

Apache Spark-Konfiguration	Microsoft Fabric-Wert	Azure Synapse Analytics-Wert	Hinweise
spark.sql.sources.default	delta	parquet	Standardtabellenformat
spark.sql.parquet.vorder.enabled	true	Nicht zutreffend	Writer für V-Order
spark.sql.parquet.vorder.dictionaryPageSize	2 GB	Nicht zutreffend	Größenlimit für Wörterbuchseiten für V-Order
spark.microsoft.delta.optimizeWrite.enabled	true	Nicht festgelegt (false)	Optimieren von Schreibvorgängen

AutoErmittlung von Tabellen

Der Lakehouse-Explorer bietet eine strukturähnliche Ansicht der Objekte im Microsoft Fabric Lakehouse-Element. Er verfügt über eine wichtige Funktion zum Ermitteln und Anzeigen von Tabellen, die im Metadatenrepository und im OneLake-Speicher beschrieben werden. Die Tabellenverweise werden im Abschnitt Tables der Benutzeroberfläche des Lakehouse-Explorers angezeigt. Die AutoErmittlung gilt auch für Tabellen, die über OneLake-Verknüpfungen definiert sind.

Tabellen über Verknüpfungen

Microsoft Fabric Lakehouse unterstützt Tabellen, die über OneLake-Verknüpfungen definiert sind, um größtmögliche Kompatibilität und keine Datenverschiebung zu gewährleisten. Die folgende Tabelle enthält die bewährten Methoden für das Szenario für jeden Elementtyp bei der Verwendung über Verknüpfungen.

Verknüpfungsziel	Wo die Verknüpfung erstellt wird	Bewährte Vorgehensweise
Delta Lake-Tabelle	`Tables`-Abschnitt	Wenn mehrere Tabellen im Ziel vorhanden sind, erstellen Sie eine Verknüpfung pro Tabelle.
Ordner mit Dateien	`Files`-Abschnitt	Verwenden Sie Apache Spark, um das Ziel direkt mithilfe relativer Pfade zu verwenden. Laden Sie die Daten in native Delta-Tabellen von Lakehouse, um maximale Leistung zu erzielen.
Apache Hive-Legacytabellen	`Files`-Abschnitt	Verwenden Sie Apache Spark, um das Ziel direkt mithilfe relativer Pfade zu verwenden, oder erstellen Sie mithilfe der `CREATE EXTERNAL TABLE`-Syntax einen Metadatenkatalogverweis. Laden Sie die Daten in native Delta-Tabellen von Lakehouse, um maximale Leistung zu erzielen.

Laden in Tabellen

Microsoft Fabric Lakehouse bietet eine komfortable und produktive Benutzeroberfläche, um das Laden von Daten in Delta-Tabellen zu optimieren. Das Feature zum Laden in Tabellen ermöglicht es, dass eine visuelle Umgebung gängige Dateiformate in Delta geladen werden, um die analytische Produktivität für alle Personas zu steigern. Weitere Informationen zum Feature „Laden in Tabellen“ finden Sie in der Lakehouse-Referenzdokumentation zu „Laden in Tabellen“.

Delta Lake-Tabellenoptimierung

Tabellen auf den breiten Bereich der Analyseszenarios auszulegen, ist keine geringe Herausforderung. Microsoft Fabric Lakehouse ermöglicht proaktiv die wichtigen Parameter, um häufige Probleme im Zusammenhang mit Big Data-Tabellen zu minimieren, z. B. Komprimierung und kleinen Dateigröße, und die Abfrageleistung zu maximieren. Dennoch gibt es viele Szenarios, in denen diese Parameter geändert werden müssen. Der Artikel Optimierung und V-Order für Delta Lake-Tabellen behandelt einige wichtige Szenarios und bietet eine ausführliche Anleitung zur effizienten Verwaltung von Delta-Tabellen für maximale Leistung.

Freigeben über

Lakehouse- und Delta Lake-Tabellen

Big Data, Apache Spark und ältere Tabellenformate

Konfigurationsunterschiede mit Azure Synapse Analytics

AutoErmittlung von Tabellen

Tabellen über Verknüpfungen

Laden in Tabellen

Delta Lake-Tabellenoptimierung

Feedback

Zusätzliche Ressourcen

Freigeben über

Lakehouse- und Delta Lake-Tabellen

Big Data, Apache Spark und ältere Tabellenformate

Konfigurationsunterschiede mit Azure Synapse Analytics

AutoErmittlung von Tabellen

Tabellen über Verknüpfungen

Laden in Tabellen

Delta Lake-Tabellenoptimierung

Zugehöriger Inhalt

Feedback

Zusätzliche Ressourcen