Usare pipeline di tabelle live Delta con metastore Hive legacy

Articolo
31/10/2024

Questo articolo illustra in dettaglio le configurazioni e le avvertenze specifiche delle pipeline di tabelle live Delta configurate per pubblicare i dati nel metastore Hive legacy. Databricks consiglia di usare Unity Catalog per tutte le nuove pipeline. Vedere Use Unity Catalog with your Delta Live Tables pipelines (Usare il catalogo Unity con le pipeline di Tabelle live Delta).

Pubblicare set di dati della pipeline nel metastore Hive legacy

Anche se facoltativo, è necessario specificare una destinazione per pubblicare tabelle create dalla pipeline ogni volta che si esula dallo sviluppo e dal test per una nuova pipeline. La pubblicazione di una pipeline in una destinazione rende disponibili set di dati per l'esecuzione di query altrove nell'ambiente Azure Databricks.

È possibile rendere individuabili e disponibili i dati di output della pipeline pubblicando set di dati nel metastore Hive. Per pubblicare set di dati nel metastore, immettere un nome di schema nel campo Destinazione quando si crea una pipeline. È anche possibile aggiungere un database di destinazione a una pipeline esistente.

Per impostazione predefinita, tutte le tabelle e le viste create in Tabelle live Delta sono locali per la pipeline. È necessario pubblicare tabelle in uno schema di destinazione per eseguire query o usare set di dati delta live tables all'esterno della pipeline in cui sono dichiarati.

Per pubblicare tabelle dalle pipeline nel catalogo Unity, si veda Usa il catalogo Unity con le pipeline Delta Live Tables.

Come pubblicare set di dati di tabelle live Delta nel metastore Hive legacy

È possibile dichiarare uno schema di destinazione per tutte le tabelle nella pipeline di tabelle live Delta usando il campo Schema di destinazione nelle impostazioni della pipeline e Creare interfacce utente della pipeline .

È anche possibile specificare uno schema in una configurazione JSON impostando il target valore .

È necessario eseguire un aggiornamento per la pipeline per pubblicare i risultati nello schema di destinazione.

È possibile usare questa funzionalità con più configurazioni di ambiente per pubblicare in schemi diversi in base all'ambiente. Ad esempio, è possibile pubblicare in uno dev schema per lo sviluppo e uno prod schema per i dati di produzione.

Come eseguire query su tabelle di streaming e viste materializzate nel metastore Hive legacy

Al termine di un aggiornamento, è possibile visualizzare lo schema e le tabelle, eseguire query sui dati o usare i dati nelle applicazioni downstream.

Dopo la pubblicazione, è possibile eseguire query sulle tabelle Live Delta da qualsiasi ambiente con accesso allo schema di destinazione. Sono inclusi Databricks SQL, notebook e altre pipeline di tabelle live Delta.

Importante

Quando si crea una target configurazione, vengono pubblicate solo le tabelle e i metadati associati. Le visualizzazioni non vengono pubblicate nel metastore.

Specificare un percorso di archiviazione

È possibile specificare un percorso di archiviazione per una pipeline che pubblica nel metastore Hive. La motivazione principale per specificare una posizione consiste nel controllare la posizione di archiviazione degli oggetti per i dati scritti dalla pipeline.

Poiché tutte le tabelle, i dati, i checkpoint e i metadati per le pipeline delle tabelle Delta Live sono completamente gestite da Delta Live Tables, la maggior parte dell'interazione con i set di dati delle tabelle Delta Live avviene tramite tabelle registrate nel metastore Hive o nel catalogo Unity.

Configurazione dell'archiviazione cloud

Per accedere all'archiviazione di Azure, è necessario configurare i parametri obbligatori, inclusi i token di accesso, usando spark.conf le impostazioni nelle configurazioni del cluster. Per un esempio di configurazione dell'accesso a un account di archiviazione di Azure Data Lake Storage Gen2 (ADLS Gen2), vedere Accedere in modo sicuro alle credenziali di archiviazione con segreti in una pipeline.

Microsoft Ignite

Condividi tramite