Creare pipeline completamente gestite usando tabelle Live Delta con calcolo serverless

Nota

  • Per informazioni sull'idoneità e l'abilitazione per le pipeline DLT serverless, vedere Abilitare il calcolo serverless.

  • Se è necessario usare una connessione collegamento privato di Azure con le pipeline DLT serverless, contattare il rappresentante di Databricks.

Questo articolo illustra come usare le tabelle Live Delta con calcolo serverless per eseguire gli aggiornamenti della pipeline con calcolo completamente gestito e informazioni dettagliate sulle funzionalità di calcolo serverless che migliorano le prestazioni delle pipeline.

Usare le pipeline DLT serverless per eseguire le pipeline di tabelle live Delta senza configurare e distribuire l'infrastruttura. Con le pipeline DLT serverless, ci si concentra sull'implementazione dell'inserimento e della trasformazione dei dati e azure Databricks gestisce in modo efficiente le risorse di calcolo, inclusa l'ottimizzazione e il ridimensionamento del calcolo per i carichi di lavoro. Le pipeline DLT serverless includono le funzionalità seguenti:

  • Calcolo ottimizzato automaticamente che viene eseguito solo quando necessario.
  • Risorse di calcolo affidabili e completamente gestite.
  • Aggiornamenti più efficienti del set di dati con aggiornamento incrementale per le viste materializzate.
  • Avvio più rapido per le risorse di calcolo che eseguono un aggiornamento della pipeline.

Le pipeline DLT serverless includono anche le funzionalità seguenti per ottimizzare le prestazioni di elaborazione delle pipeline, supportare un utilizzo più efficiente delle risorse di calcolo e ridurre il costo dell'esecuzione della pipeline:

  • Pipelining del flusso: per migliorare l'utilizzo, la velocità effettiva e la latenza per i carichi di lavoro di dati di streaming, ad esempio l'inserimento di dati, vengono pipeline di microbatches. In altre parole, invece di eseguire microbatches in sequenza come spark structured streaming standard, le pipeline DLT serverless eseguono contemporaneamente microbatches, con conseguente migliore utilizzo delle risorse di calcolo. La pipelining del flusso è abilitata per impostazione predefinita nelle pipeline DLT serverless.
  • Scalabilità automatica verticale: le pipeline DLT serverless aggiungono alla scalabilità automatica orizzontale fornita dalla scalabilità automatica avanzata di Databricks allocando automaticamente i tipi di istanza più convenienti che possono eseguire la pipeline di tabelle live Delta senza errori di memoria insufficiente. Vedere Che cos'è la scalabilità automatica verticale?

Poiché l'autorizzazione di creazione del cluster non è necessaria, tutti gli utenti dell'area di lavoro possono usare pipeline DLT serverless per eseguire i flussi di lavoro.

Requisiti

  • Per usare le pipeline DLT serverless, l'area di lavoro deve avere Unity Catalog abilitato.

  • L'area di lavoro deve trovarsi in un'area abilitata per serverless.

Eseguire un aggiornamento della pipeline con pipeline DLT serverless

Importante

Poiché le risorse di calcolo sono completamente gestite per le pipeline DLT serverless, le impostazioni di calcolo non sono disponibili nell'interfaccia utente delle tabelle live Delta per una pipeline serverless. Quando si abilita serverless, tutte le impostazioni di calcolo configurate per una pipeline vengono rimosse. Se si torna a una pipeline a aggiornamenti non serverless, queste impostazioni di calcolo devono essere aggiunte nuovamente alla configurazione della pipeline. Non è anche possibile aggiungere manualmente le impostazioni di calcolo in un clusters oggetto nella configurazione JSON per la pipeline.

Per eseguire un aggiornamento della pipeline che usa pipeline DLT serverless, selezionare la casella di controllo Serverless quando si crea o si modifica una pipeline.

Come vengono aggiornate le viste materializzate nelle pipeline DLT serverless?

Quando possibile, i risultati delle query vengono aggiornati in modo incrementale per le viste materializzate in una pipeline serverless. Quando viene eseguito un aggiornamento incrementale, i risultati sono equivalenti a una ricompilazione completa. Se la vista materializzata non può essere aggiornata in modo incrementale, il processo di aggiornamento usa invece un aggiornamento completo. Vedere Operazioni di aggiornamento per le viste materializzate.

Che cos'è la scalabilità automatica verticale?

La scalabilità automatica verticale delle pipeline DLT serverless alloca automaticamente i tipi di istanze disponibili più convenienti per eseguire gli aggiornamenti della pipeline delle tabelle live Delta senza errori a causa di errori di memoria insufficiente. La scalabilità automatica verticale aumenta quando sono necessari tipi di istanza più grandi per eseguire un aggiornamento della pipeline e riduce anche le prestazioni quando determina che l'aggiornamento può essere eseguito con tipi di istanza più piccoli. La scalabilità automatica verticale determina se i nodi driver, i nodi di lavoro o i nodi driver e di lavoro devono essere ridimensionati verso l'alto o verso il basso.

La scalabilità automatica verticale viene usata per tutte le pipeline DLT serverless, incluse le pipeline usate dalle viste materializzate e dalle tabelle di streaming di Databricks SQL.

La scalabilità automatica verticale funziona rilevando gli aggiornamenti della pipeline non riusciti a causa di errori di memoria insufficiente. Quando vengono rilevati questi errori, la scalabilità automatica verticale alloca tipi di istanza più grandi in base ai dati di memoria insufficiente raccolti dall'aggiornamento non riuscito. In modalità di produzione viene avviato automaticamente un nuovo aggiornamento che usa le nuove risorse di calcolo. In modalità di sviluppo, le nuove risorse di calcolo vengono usate quando si avvia manualmente un nuovo aggiornamento.

Se la scalabilità automatica verticale rileva che la memoria delle istanze allocate è costantemente sottoutilizzata, riduce i tipi di istanza da usare nell'aggiornamento successivo della pipeline.