Verwaltete und externe Volumes

In diesem Artikel werden die Unterschiede zwischen verwalteten und externen Volumes behandelt sowie die Gründe, die für die Wahl externer Volumes sprechen. Databricks empfiehlt verwaltete Volumes als einfachste Lösung zum Speichern und Verwalten des Zugriffs auf nicht tabellarische Daten.

Weitere Anleitungen zur Verwendung des Unity-Katalogs zum Konfigurieren des Zugriffs auf Cloudobjektspeicher finden Sie unter Herstellen einer Verbindung mit Cloudobjektspeicher und -diensten mithilfe des Unity-Katalogs.

Verhaltensunterschiede zwischen verwalteten und externen Volumes

Verwaltete und externe Volumes sind bei Nutzung von Azure Databricks-Tools, -Benutzeroberflächen und -APIs in der Bedienung nahezu identisch. Die beiden Volumetypen unterscheiden sich wie folgt.

Verwaltete Volumes bieten eine vollständig verwaltete Speicherung. Dies bedeutet Folgendes:

  • Alle Interaktionen mit Dateien in verwalteten Volumes müssen über Unity Catalog erfolgen.
  • Die Benennung von Verzeichnissen und das Datenlayout werden von Unity Catalog verwaltet. Verzeichnisnamen enthalten Hashes, um Konflikte in zugrunde liegenden Cloudobjekt-Speicherkonten zu vermeiden.
  • Wenn Sie ein verwaltetes Volume löschen, löscht Azure Databricks die zugrunde liegenden Daten innerhalb von 30 Tagen.

Mit externen Volumes lassen sich die Daten im Cloudobjektspeicher besser steuern. Dies bedeutet Folgendes:

  • Sie können mithilfe von Cloud-URIs in Azure Databricks oder externen Systemen mit Dateien in externen Volumes interagieren.
  • Alle Verzeichnisse, die in einem externen Volume erstellt werden, oder hochgeladene Dateien sind relativ zu dem bei der Erstellung angegebenen LOCATION.
  • Wenn Sie ein externes Volume löschen, entfernen Sie das Volume aus Unity Catalog, aber die zugrunde liegenden Daten bleiben am externen Speicherort unverändert erhalten.

Warum sollten externe Volumes verwendet werden?

Externe Volumes ermöglichen es Ihnen, Unity Catalog-Datengovernance zu vorhandenen Cloudobjektspeicherverzeichnissen hinzuzufügen. Zu den Anwendungsfällen von externen Volumen gehören u. a.:

  • Hinzufügen von Governance zu Datendateien ohne Migration.
  • Steuern von Dateien, die von anderen Systemen erstellt werden und die von Azure Databricks erfasst oder aufgerufen werden müssen.
  • Steuern der von Azure Databricks erzeugten Daten, auf die von anderen Systemen direkt aus dem Cloudobjektspeicher zugegriffen werden muss.

Databricks empfiehlt, Dateien mit nicht tabellarischen Daten, die neben Azure Databricks auch von externen Systemen gelesen oder geschrieben werden, in externen Volumes zu speichern. Unity Catalog steuert keine Lese- und Schreibvorgänge, die von externen Systemen direkt im Cloudobjektspeicher ausgeführt werden. Daher müssen Sie zusätzliche Richtlinien und Anmeldedaten in Ihrem Cloudkonto konfigurieren, damit die Richtlinien zur Data Governance außerhalb von Azure Databricks beachtet werden.