Eventi
Ottieni gratuitamente la certificazione in Microsoft Fabric.
19 nov, 23 - 10 dic, 23
Per un periodo di tempo limitato, il team della community di Microsoft Fabric offre buoni per esami DP-600 gratuiti.
Prepara oraQuesto browser non è più supportato.
Esegui l'aggiornamento a Microsoft Edge per sfruttare i vantaggi di funzionalità più recenti, aggiornamenti della sicurezza e supporto tecnico.
Questo articolo descrive la configurazione di base per le pipeline di tabelle live Delta usando l'interfaccia utente dell'area di lavoro.
Databricks consiglia di sviluppare nuove pipeline usando serverless. Per istruzioni di configurazione per le pipeline serverless, vedere Configurare una pipeline di tabelle live Delta serverless.
Le istruzioni di configurazione in questo articolo usano Il catalogo unity. Per istruzioni sulla configurazione delle pipeline con il metastore Hive legacy, vedere Usare pipeline di tabelle live Delta con metastore Hive legacy.
Nota
L'interfaccia utente ha un'opzione per visualizzare e modificare le impostazioni in JSON. È possibile configurare la maggior parte delle impostazioni con l'interfaccia utente o una specifica JSON. Alcune opzioni avanzate sono disponibili solo usando la configurazione JSON.
I file di configurazione JSON sono utili anche quando si distribuiscono pipeline in nuovi ambienti o usando l'interfaccia della riga di comando o l'API REST.
Per un riferimento completo alle impostazioni di configurazione JSON delle tabelle Delta Live, vedere Configurazioni della pipeline delle tabelle Delta Live.
Per configurare una nuova pipeline di tabelle live Delta, seguire questa procedura:
Queste configurazioni consigliate creano una nuova pipeline configurata per l'esecuzione in modalità attivata e usano il canale corrente . Questa configurazione è consigliata per molti casi d'uso, tra cui sviluppo e test, ed è particolarmente adatta ai carichi di lavoro di produzione che devono essere eseguiti in base a una pianificazione. Per informazioni dettagliate sulla pianificazione delle pipeline, vedere Attività della pipeline di tabelle live Delta per i processi.
Databricks consiglia di usare sempre la scalabilità automatica avanzata. I valori predefiniti per altre configurazioni di calcolo funzionano bene per molte pipeline.
Le pipeline serverless rimuovono le opzioni di configurazione di calcolo. Per istruzioni di configurazione per le pipeline serverless, vedere Configurare una pipeline di tabelle live Delta serverless.
Usare le impostazioni seguenti per personalizzare le configurazioni di calcolo:
Gli amministratori dell'area di lavoro possono configurare criteri cluster. I criteri di calcolo consentono agli amministratori di controllare quali opzioni di calcolo sono disponibili per gli utenti. Vedere Selezionare un criterio del cluster.
Facoltativamente, è possibile configurare la modalità cluster per l'esecuzione con dimensioni fisse o scalabilità automatica legacy. Vedere Ottimizzare l'utilizzo del cluster delle pipeline di tabelle live Delta con scalabilità automatica avanzata.
Per i carichi di lavoro con scalabilità automatica abilitata, impostare Numero minimo di ruoli di lavoro e Numero massimo di ruoli di lavoro per impostare i limiti per i comportamenti di ridimensionamento. Vedere Configurare il calcolo per una pipeline di tabelle live Delta.
Facoltativamente, puoi disattivare l'accelerazione Photon. Vedi Che cos'è Photon?.
Usare i tag cluster per monitorare i costi associati alle pipeline di tabelle live Delta. Vedere Configurare i tag del cluster.
Configurare i tipi di istanza per specificare il tipo di macchine virtuali usate per eseguire la pipeline. Vedere Selezionare i tipi di istanza per eseguire una pipeline.
Per le pipeline sono disponibili anche le opzioni di configurazione seguenti:
Selezionare l'edizione del prodotto Delta Live Tables con le funzionalità migliori per i requisiti della pipeline. Sono disponibili le seguenti edizioni del prodotto:
Core
per eseguire carichi di lavoro di inserimento in streaming. Selezionare l'edizione Core
se la pipeline non richiede funzionalità avanzate, ad esempio Change Data Capture (CDC) o Delta Live Tables.Pro
per eseguire carichi di lavoro di inserimento e CDC di streaming. L'edizione Pro
del prodotto supporta tutte le funzionalità Core
, oltre al supporto per i carichi di lavoro che richiedono l'aggiornamento delle tabelle in base alle modifiche apportate ai dati di origine.Advanced
per eseguire carichi di lavoro di inserimento di streaming, carichi di lavoro CDC e carichi di lavoro che richiedono aspettative. L'edizione Advanced
del prodotto supporta le funzionalità delle Core
edizioni e Pro
e include vincoli di qualità dei dati con aspettative delta live tables.È possibile selezionare l'edizione del prodotto quando si crea o si modifica una pipeline. È possibile scegliere un'edizione diversa per ogni pipeline. Vedere la pagina del prodotto Delta Live Tables.
Nota: se la pipeline include funzionalità non supportate dall'edizione del prodotto selezionata, ad esempio le aspettative, verrà visualizzato un messaggio di errore che ne spiega il motivo. È quindi possibile modificare la pipeline per selezionare l'edizione appropriata.
È possibile usare il selettore di file nell'interfaccia utente delle tabelle Delta Live per configurare il codice sorgente che definisce la pipeline. Il codice sorgente della pipeline è definito nei notebook di Databricks o negli script SQL o Python archiviati nei file dell'area di lavoro. Quando si crea o si modifica la pipeline, è possibile aggiungere uno o più notebook o file dell’area di lavoro o una combinazione di notebook e file dell’area di lavoro.
Poiché le tabelle live delta analizzano automaticamente le dipendenze dei set di dati per costruire il grafico di elaborazione per la pipeline, è possibile aggiungere asset di codice sorgente in qualsiasi ordine.
È possibile modificare il file JSON per includere il codice sorgente delle tabelle live Delta definite negli script SQL e Python archiviati nei file dell'area di lavoro. L'esempio seguente include notebook e file dell'area di lavoro:
{
"name": "Example pipeline 3",
"storage": "dbfs:/pipeline-examples/storage-location/example3",
"libraries": [
{ "notebook": { "path": "/example-notebook_1" } },
{ "notebook": { "path": "/example-notebook_2" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
]
}
Le tabelle live delta supportano l'uso di dipendenze esterne nelle pipeline, ad esempio pacchetti e librerie Python. Per informazioni sulle opzioni e le raccomandazioni per l'uso delle dipendenze, vedere Gestire le dipendenze Python per le pipeline di tabelle live Delta.
Oltre a implementare il codice Python nei notebook di Databricks, è possibile usare cartelle Git o file di area di lavoro di Databricks per archiviare il codice come moduli Python. L'archiviazione del codice come moduli Python è particolarmente utile quando si hanno funzionalità comuni da usare in più pipeline o notebook nella stessa pipeline. Per informazioni su come usare i moduli Python con le pipeline, vedere Importare moduli Python da cartelle Git o file dell'area di lavoro.
Eventi
Ottieni gratuitamente la certificazione in Microsoft Fabric.
19 nov, 23 - 10 dic, 23
Per un periodo di tempo limitato, il team della community di Microsoft Fabric offre buoni per esami DP-600 gratuiti.
Prepara ora