Verwenden von Delta Live Tables-Pipelines mit legacy-Hive-Metaspeicher

Artikel
10/31/2024

In diesem Artikel werden Konfigurationen und Einschränkungen speziell für Delta Live Tables-Pipelines beschrieben, die für die Veröffentlichung von Daten im legacy-Hive-Metaspeicher konfiguriert sind. Databricks empfiehlt die Verwendung des Unity-Katalogs für alle neuen Pipelines. Weitere Informationen finden Sie unter Verwenden von Unity Catalog mit Ihren Delta Live Tables-Pipelines.

Veröffentlichen von Pipeline-Datasets im legacy-Hive-Metaspeicher

Obwohl dies optional ist, sollten Sie ein Ziel angeben, um die von Ihrer Pipeline erstellten Tabellen zu veröffentlichen, sobald Sie über die Entwicklung und den Test einer neuen Pipeline hinausgehen. Durch die Veröffentlichung einer Pipeline in einem Ziel stehen Datasets für Abfragen an anderer Stelle in Ihrer Azure Databricks-Umgebung zur Verfügung.

Sie können die Ausgabedaten Ihrer Pipeline auffindbar und für Abfragen verfügbar machen, indem Sie Datasets im Hive-Metastore veröffentlichen. Geben Sie beim Erstellen einer Pipeline im Feld Ziel einen Schemanamen ein, um Datasets im Metastore zu veröffentlichen. Sie können einer vorhandenen Pipeline auch eine Zieldatenbank hinzufügen.

Alle in Delta Live Tables erstellten Tabellen und Ansichten sind für die Pipeline standardmäßig lokal. Sie müssen Tabellen in einem Zielschema veröffentlichen, um Delta Live Tables-Datasets außerhalb der Pipeline abzufragen oder zu verwenden, in der sie deklariert werden.

Um Tabellen aus Ihren Pipelines im Unity-Katalog zu veröffentlichen, siehe Verwenden Sie Unity-Katalog mit Ihren Delta Live Tables-Pipelines.

So veröffentlichen Sie Delta Live Tables-Datasets im älteren Hive-Metaspeicher

Sie können ein Zielschema für alle Tabellen in Ihrer Delta Live Tables-Pipeline deklarieren, indem Sie das Feld Zielschema auf den Benutzeroberflächen für Pipelineeinstellungen und zum Erstellen von Pipelines verwenden.

Sie können auch ein Schema in einer JSON-Konfiguration angeben, indem Sie den Wert target festlegen.

Sie müssen ein Update für die Pipeline ausführen, um Ergebnisse im Zielschema zu veröffentlichen.

Sie können dieses Feature mit mehreren Umgebungskonfigurationen verwenden, um basierend auf der Umgebung in verschiedenen Schemas zu veröffentlichen. Sie können beispielsweise ein dev-Schema für Entwicklungsdaten und ein prod-Schema für Produktionsdaten veröffentlichen.

Abfragen von Streamingtabellen und materialisierten Ansichten im legacy-Hive-Metaspeicher

Nach Abschluss einer Aktualisierung können Sie das Schema und die Tabellen anzeigen, die Daten abfragen oder die Daten in nachgeschalteten Anwendungen verwenden.

Nach der Veröffentlichung können Delta Live Tables-Tabellen aus einer beliebigen Umgebung mit Zugriff auf das Zielschema abgefragt werden. Dazu gehören Databricks SQL, Notebooks und andere Delta Live Tables-Pipelines.

Wichtig

Wenn Sie eine target-Konfiguration erstellen, werden nur Tabellen und zugeordnete Metadaten veröffentlicht. Ansichten werden nicht im Metastore veröffentlicht.

Angeben eines Speicherorts

Sie können einen Speicherort für eine Pipeline angeben, die im Hive-Metastore veröffentlicht wird. Die primäre Motivation für die Angabe eines Speicherorts besteht darin, den Speicherort des Objekts für von Ihrer Pipeline geschriebene Daten zu steuern.

Da alle Tabellen, Daten, Prüfpunkte und Metadaten für Delta Live Tables-Pipelines vollständig von Delta Live Tables verwaltet werden, erfolgt die meiste Interaktion mit Delta Live Tables-Datasets über Tabellen, die im Hive-Metastore oder Unity Catalog registriert sind.

Cloudspeicherkonfiguration

Für den Zugriff auf Azure Storage müssen Sie die erforderlichen Parameter, einschließlich Zugriffstoken, mithilfe von spark.conf-Einstellungen in Ihren Clusterkonfigurationen konfigurieren. Ein Beispiel für das Konfigurieren des Zugriffs auf ein Azure Data Lake Storage Gen2 -Speicherkonto (ADLS Gen2) finden Sie unter Sicheres Zugreifen auf Storage-Anmeldeinformationen mit Geheimnissen in einer Pipeline.

Freigeben über