Configurare una pipeline di tabelle live delta

Articolo
15/11/2024

Questo articolo descrive la configurazione di base per le pipeline di tabelle live Delta usando l'interfaccia utente dell'area di lavoro.

Databricks consiglia di sviluppare nuove pipeline usando serverless. Per istruzioni di configurazione per le pipeline serverless, vedere Configurare una pipeline di tabelle live Delta serverless.

Le istruzioni di configurazione in questo articolo usano Il catalogo unity. Per istruzioni sulla configurazione delle pipeline con il metastore Hive legacy, vedere Usare pipeline di tabelle live Delta con metastore Hive legacy.

Nota

L'interfaccia utente ha un'opzione per visualizzare e modificare le impostazioni in JSON. È possibile configurare la maggior parte delle impostazioni con l'interfaccia utente o una specifica JSON. Alcune opzioni avanzate sono disponibili solo usando la configurazione JSON.

I file di configurazione JSON sono utili anche quando si distribuiscono pipeline in nuovi ambienti o usando l'interfaccia della riga di comando o l'API REST.

Per un riferimento completo alle impostazioni di configurazione JSON delle tabelle Delta Live, vedere Configurazioni della pipeline delle tabelle Delta Live.

Configurare una nuova pipeline di tabelle live Delta

Per configurare una nuova pipeline di tabelle live Delta, seguire questa procedura:

Fare clic su Delta Live Tables (Tabelle attive Delta) nella barra laterale.
Fare clic su Crea pipeline.
Specificare un nome di pipeline univoco.
(Facoltativo) Usare la selezione file per configurare notebook e file dell'area di lavoro come codice sorgente.
- Se non si aggiunge codice sorgente, viene creato un nuovo notebook per la pipeline. Il notebook viene creato in una nuova directory nella directory utente e un collegamento per accedere a questo notebook viene visualizzato nel campo Codice sorgente nel riquadro Dettagli pipeline dopo aver creato la pipeline.
  - È possibile accedere a questo notebook con l'URL visualizzato nel campo Codice sorgente nel pannello Dettagli pipeline dopo aver creato la pipeline.
- Usare il pulsante Aggiungi codice sorgente per aggiungere altri asset di codice sorgente.
Selezionare Catalogo Unity in Opzioni di archiviazione.
Selezionare un catalogo per pubblicare i dati.
Selezionare uno schema nel catalogo. Tutte le tabelle di streaming e le viste materializzate definite nella pipeline vengono create in questo schema.
Nella sezione Calcolo selezionare la casella accanto a Usa accelerazione Foton. Per altre considerazioni sulla configurazione di calcolo, vedere Opzioni di configurazione del calcolo.
Cliccare su Crea.

Queste configurazioni consigliate creano una nuova pipeline configurata per l'esecuzione in modalità attivata e usano il canale corrente . Questa configurazione è consigliata per molti casi d'uso, tra cui sviluppo e test, ed è particolarmente adatta ai carichi di lavoro di produzione che devono essere eseguiti in base a una pianificazione. Per informazioni dettagliate sulla pianificazione delle pipeline, vedere Attività della pipeline di tabelle live Delta per i processi.

Opzioni di configurazione del calcolo

Databricks consiglia di usare sempre la scalabilità automatica avanzata. I valori predefiniti per altre configurazioni di calcolo funzionano bene per molte pipeline.

Le pipeline serverless rimuovono le opzioni di configurazione di calcolo. Per istruzioni di configurazione per le pipeline serverless, vedere Configurare una pipeline di tabelle live Delta serverless.

Usare le impostazioni seguenti per personalizzare le configurazioni di calcolo:

Gli amministratori dell'area di lavoro possono configurare criteri cluster. I criteri di calcolo consentono agli amministratori di controllare quali opzioni di calcolo sono disponibili per gli utenti. Vedere Selezionare un criterio del cluster.
Facoltativamente, è possibile configurare la modalità cluster per l'esecuzione con dimensioni fisse o scalabilità automatica legacy. Vedere Ottimizzare l'utilizzo del cluster delle pipeline di tabelle live Delta con scalabilità automatica avanzata.
Per i carichi di lavoro con scalabilità automatica abilitata, impostare Numero minimo di ruoli di lavoro e Numero massimo di ruoli di lavoro per impostare i limiti per i comportamenti di ridimensionamento. Vedere Configurare il calcolo per una pipeline di tabelle live Delta.
Facoltativamente, puoi disattivare l'accelerazione Photon. Vedi Che cos'è Photon?.
Usare i tag cluster per monitorare i costi associati alle pipeline di tabelle live Delta. Vedere Configurare i tag del cluster.
Configurare i tipi di istanza per specificare il tipo di macchine virtuali usate per eseguire la pipeline. Vedere Selezionare i tipi di istanza per eseguire una pipeline.
- Selezionare un tipo di lavoro ottimizzato per i carichi di lavoro configurati nella pipeline.
- Facoltativamente, è possibile selezionare un tipo di driver diverso dal tipo di lavoro. Ciò può essere utile per ridurre i costi nelle pipeline con tipi di lavoro di grandi dimensioni e un utilizzo ridotto del calcolo dei driver o per scegliere un tipo di driver più grande per evitare problemi di memoria insufficiente nei carichi di lavoro con molti ruoli di lavoro di piccole dimensioni.

Altre considerazioni sulla configurazione

Per le pipeline sono disponibili anche le opzioni di configurazione seguenti:

L'edizione avanzata del prodotto consente di accedere a tutte le funzionalità delle tabelle live delta. Facoltativamente, è possibile eseguire pipeline usando le edizioni del prodotto Pro o Core . Vedere Scegliere un'edizione del prodotto.
È possibile scegliere di usare la modalità pipeline continua durante l'esecuzione di pipeline nell'ambiente di produzione. Vedere Triggered vs. continuous pipeline mode (Modalità pipeline attivata e continua).
Se l'area di lavoro non è configurata per Unity Catalog o il carico di lavoro deve usare il metastore Hive legacy, vedere Usare pipeline di tabelle live Delta con metastore Hive legacy.
Aggiungere notifiche per gli aggiornamenti tramite posta elettronica in base a condizioni di esito positivo o negativo. Vedere Aggiungere notifiche email per gli eventi della pipeline.
Usare il campo Configurazione per impostare coppie chiave-valore per la pipeline. Queste configurazioni servono due scopi:
- Impostare parametri arbitrari a cui è possibile fare riferimento nel codice sorgente. Vedere Usare i parametri con le pipeline di tabelle live Delta.
- Configurare le impostazioni della pipeline e le configurazioni di Spark. Vedere Informazioni di riferimento sulle proprietà delle tabelle live delta.
Usare il canale Anteprima per testare la pipeline rispetto alle modifiche di runtime delle tabelle live Delta in sospeso e alle nuove funzionalità di valutazione.

Scegliere un'edizione del prodotto

Selezionare l'edizione del prodotto Delta Live Tables con le funzionalità migliori per i requisiti della pipeline. Sono disponibili le seguenti edizioni del prodotto:

Core per eseguire carichi di lavoro di inserimento in streaming. Selezionare l'edizione Core se la pipeline non richiede funzionalità avanzate, ad esempio Change Data Capture (CDC) o Delta Live Tables.
Pro per eseguire carichi di lavoro di inserimento e CDC di streaming. L'edizione Pro del prodotto supporta tutte le funzionalità Core, oltre al supporto per i carichi di lavoro che richiedono l'aggiornamento delle tabelle in base alle modifiche apportate ai dati di origine.
Advanced per eseguire carichi di lavoro di inserimento di streaming, carichi di lavoro CDC e carichi di lavoro che richiedono aspettative. L'edizione Advanced del prodotto supporta le funzionalità delle Core edizioni e Pro e include vincoli di qualità dei dati con aspettative delta live tables.

È possibile selezionare l'edizione del prodotto quando si crea o si modifica una pipeline. È possibile scegliere un'edizione diversa per ogni pipeline. Vedere la pagina del prodotto Delta Live Tables.

Nota: se la pipeline include funzionalità non supportate dall'edizione del prodotto selezionata, ad esempio le aspettative, verrà visualizzato un messaggio di errore che ne spiega il motivo. È quindi possibile modificare la pipeline per selezionare l'edizione appropriata.

Configurare il codice sorgente

È possibile usare il selettore di file nell'interfaccia utente delle tabelle Delta Live per configurare il codice sorgente che definisce la pipeline. Il codice sorgente della pipeline è definito nei notebook di Databricks o negli script SQL o Python archiviati nei file dell'area di lavoro. Quando si crea o si modifica la pipeline, è possibile aggiungere uno o più notebook o file dell’area di lavoro o una combinazione di notebook e file dell’area di lavoro.

Poiché le tabelle live delta analizzano automaticamente le dipendenze dei set di dati per costruire il grafico di elaborazione per la pipeline, è possibile aggiungere asset di codice sorgente in qualsiasi ordine.

È possibile modificare il file JSON per includere il codice sorgente delle tabelle live Delta definite negli script SQL e Python archiviati nei file dell'area di lavoro. L'esempio seguente include notebook e file dell'area di lavoro:

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

Gestire le dipendenze esterne per le pipeline che usano Python

Le tabelle live delta supportano l'uso di dipendenze esterne nelle pipeline, ad esempio pacchetti e librerie Python. Per informazioni sulle opzioni e le raccomandazioni per l'uso delle dipendenze, vedere Gestire le dipendenze Python per le pipeline di tabelle live Delta.

Usare i moduli Python archiviati nell'area di lavoro di Azure Databricks

Oltre a implementare il codice Python nei notebook di Databricks, è possibile usare cartelle Git o file di area di lavoro di Databricks per archiviare il codice come moduli Python. L'archiviazione del codice come moduli Python è particolarmente utile quando si hanno funzionalità comuni da usare in più pipeline o notebook nella stessa pipeline. Per informazioni su come usare i moduli Python con le pipeline, vedere Importare moduli Python da cartelle Git o file dell'area di lavoro.

Microsoft Ignite

Condividi tramite