Verwenden des Tabellenwartungsfeatures zum Verwalten von Delta-Tabellen in Fabric

Mit dem Feature Tabellenwartung von Lakehouse in Microsoft Fabric können Sie Delta-Tabellen effizient verwalten und sicherstellen, dass sie jederzeit für Analysen bereit sind. Dieser Leitfaden beschreibt das Tabellenwartungsfeature in Lakehouse und seine Funktionen.

Wichtige Funktionen des Tabellenwartungsfeatures von Lakehouse:

  • Durchführen einer Ad-hoc-Tabellenwartung unter Verwendung kontextbezogener Rechtsklickaktionen in einer Delta-Tabelle im Lakehouse-Explorer
  • Anwenden von Bin-Verdichtung, V-Reihenfolge und Bereinigung nicht referenzierter alter Dateien

Hinweis

Für erweiterte Wartungsaufgaben wie etwa das Gruppieren mehrerer Tabellenwartungsbefehle mit zeitplanbasierter Orchestrierung wird eine codeorientierte Vorgehensweise empfohlen. Weitere Informationen finden Sie im Artikel Delta Lake-Tabellenoptimierung und V-Reihenfolge. Es ist auch möglich, Tabellenwartungsvorgänge mithilfe der Lakehouse-API zu automatisieren. Weitere Informationen hierzu finden Sie unter Verwalten der Lakehouse-Instanz per Microsoft Fabric-REST-API.

Unterstützte Dateitypen

Die Lakehouse-Tabellenwartung gilt nur für Delta Lake-Tabellen. Hive-Legacytabellen, die PARQUET, ORC, AVRO, CSV oder ein anderes Format verwenden, werden nicht unterstützt.

Tabellenwartungsvorgänge

Das Tabellenwartungsfeature bietet drei Vorgänge.

  • Optimieren: Konsolidiert mehrere kleine Parkettdateien in einer großen Datei. Big Data-Verarbeitungs-Engines und alle Fabric-Engines profitieren von größeren Dateigrößen. Dateien mit einer Größe ab 128 MB (optimal in der Nähe von 1 GB) verbessern die Komprimierung und die Datenverteilung auf die Clusterknoten. Dadurch müssen nicht so viele kleine Dateien gescannt werden, was effiziente Lesevorgänge ermöglicht. Es empfiehlt sich allgemein, nach dem Laden großer Tabellen Optimierungsstrategien auszuführen.
  • V-Reihenfolge: Wendet optimierte Sortier-, Codierungs- und Komprimierungsfunktionen auf Delta-Parquet-Dateien an, um schnelle Lesevorgänge für alle Fabric-Module zu ermöglichen. Die V-Reihenfolge wird während des Optimierungsbefehls angewendet und als Option für die Befehlsgruppe auf der Benutzeroberfläche angezeigt. Weitere Informationen zur V-Reihenfolge finden Sie unter Delta Lake-Tabellenoptimierung und V-Reihenfolge.
  • Bereinigen: Entfernt alte Dateien, auf die nicht mehr von einem Delta-Tabellenprotokoll verwiesen wird. Das Alter der Dateien muss über dem Aufbewahrungsschwellenwert (standardmäßig sieben Tage) liegen. Alle Delta-Tabellen in OneLake weisen den gleichen Aufbewahrungszeitraum auf. Der Aufbewahrungszeitraum für Dateien ist unabhängig vom verwendeten Fabric-Computemodul identisch. Diese Wartung ist wichtig, um die Speicherkosten zu optimieren. Ein kürzerer Aufbewahrungszeitraum wirkt sich auf die Delta-Zeitreisefunktionen aus. Es empfiehlt sich allgemein, ein Aufbewahrungsintervall von mindestens sieben Tagen festzulegen, da alte Momentaufnahmen und nicht committete Dateien weiterhin von den gleichzeitigen Lese- oder Schreibvorgängen für die Tabelle verwendet werden können. Die Bereinigung aktiver Dateien mit dem VAKUUM-Befehl kann zu Lesefehlern oder sogar zur Beschädigung der Tabelle führen, wenn die nicht committeten Dateien entfernt werden.

Ausführen einer Ad-hoc-Tabellenwartung für eine Delta-Tabelle mit Lakehouse

Gehen Sie zur Verwendung des Features wie folgt vor:

  1. Navigieren Sie von Ihrem Microsoft Fabric-Konto aus zur gewünschten Lakehouse-Instanz.

  2. Klicken Sie im Abschnitt Tabellen des Lakehouse-Explorers mit der rechten Maustaste auf die Tabelle, oder verwenden Sie die Auslassungspunkte, um das Kontextmenü aufzurufen.

  3. Wählen Sie den Menüeintrag „Wartung“ aus.

  4. Aktivieren Sie die Wartungsoptionen im Dialogfeld gemäß Ihrer Anforderung. Weitere Informationen finden Sie in diesem Artikel im Abschnitt Tabellenwartungsvorgänge.

  5. Wählen Sie Jetzt ausführen aus, um den Tabellenwartungsauftrag auszuführen.

  6. Verfolgen Sie die Ausführung des Wartungsauftrags im Benachrichtigungsbereich oder im Überwachungshub nach.

    Screenshot: Dialogfeld zum Laden in Tabelle mit eingesetztem Tabellennamen.

Wie funktioniert die Tabellenwartung?

Nach dem Auswählen von Jetzt ausführen wird ein Spark-Wartungsauftrag zur Ausführung übermittelt.

  1. Der Spark-Auftrag wird unter Verwendung der Benutzeridentität und der Tabellenberechtigungen übermittelt.
  2. Der Spark-Auftrag beansprucht Fabric-Kapazität des Arbeitsbereichs bzw. des Benutzers oder der Benutzerin, der bzw. die den Auftrag übermittelt hat.
  3. Wenn bereits ein anderer Wartungsauftrag für eine Tabelle ausgeführt wird, wird ein neuer Auftrag abgelehnt.
  4. Aufträge für verschiedene Tabellen können parallel ausgeführt werden.
  5. Tabellenwartungsaufträge können komfortabel im Überwachungshub nachverfolgt werden. Suchen Sie auf der Hauptseite des Überwachungshubs in der Spalte „Aktivitätsname“ nach dem Text „TableMaintenance“.