Konfigurera en serverlös Delta Live Tables-pipeline

I den här artikeln beskrivs konfigurationer för serverlösa Delta Live Tables-pipelines.

Databricks rekommenderar att du utvecklar nya pipelines med hjälp av serverlös. Vissa arbetsbelastningar kan kräva att du konfigurerar klassisk beräkning eller arbetar med det äldre Hive-metaarkivet. Se Konfigurera beräkning för en Delta Live Tables-pipeline och Använd Delta Live Tables-pipelines med äldre Hive-metaarkiv.

Kommentar

  • Serverlösa pipelines använder alltid Unity Catalog. Unity Catalog for Delta Live Tables finns i offentlig förhandsversion och har vissa begränsningar. Se Använda Unity Catalog med dina Delta Live Tables-pipelines.

  • Du kan inte lägga till beräkningsinställningar manuellt i ett clusters objekt i JSON-konfigurationen för en serverlös pipeline. Om du försöker göra det resulterar det i ett fel.

  • Information om berättigande och aktivering för serverlösa DLT-pipelines finns i Aktivera serverlös beräkning.

  • Om du behöver använda en Azure Private Link-anslutning med dina serverlösa DLT-pipelines kontaktar du din Databricks-representant.

Krav

  • Din arbetsyta måste ha Unity Catalog aktiverat för att kunna använda serverlösa pipelines.

  • Arbetsytan måste vara i en serverlös aktiverad region.

Viktigt!

Behörighet att skapa kluster krävs inte för att konfigurera serverlösa pipelines. Som standard kan alla arbetsyteanvändare använda serverlösa pipelines.

Serverlösa pipelines tar bort de flesta konfigurationsalternativ eftersom Azure Databricks hanterar all infrastruktur. Gör följande för att konfigurera en serverlös pipeline:

  1. Klicka på Delta Live Tables (Delta Live Tables ) i sidofältet.
  2. Klicka på Skapa pipeline.
  3. Ange ett unikt pipelinenamn.
  4. Markera kryssrutan bredvid Serverlös.
  5. Använd filväljaren Ikon för filväljare för att konfigurera notebook-filer och arbetsytefiler som källkod.
    • Du måste lägga till minst en källkodstillgång.
    • Använd knappen Lägg till källkod för att lägga till ytterligare källkodstillgångar.
  6. Välj en katalog för att publicera data.
  7. Välj ett schema i katalogen. Alla strömmande tabeller och materialiserade vyer som definierats i pipelinen skapas i det här schemat.
  8. Klicka på Skapa.

Dessa rekommenderade konfigurationer skapar en ny pipeline som är konfigurerad att köras i utlöst läge och den aktuella kanalen. Den här konfigurationen rekommenderas för många användningsfall, inklusive utveckling och testning, och passar bra för produktionsarbetsbelastningar som ska köras enligt ett schema. Mer information om hur du schemalägger pipelines finns i Delta Live Tables pipeline task for jobs (Delta Live Tables pipeline task for jobs).

Du kan också konvertera befintliga pipelines som konfigurerats med Unity Catalog för att använda serverlösa. Se Konvertera en befintlig pipeline för att använda serverlös.

Andra konfigurationsöverväganden

Följande konfigurationsalternativ är också tillgängliga för serverlösa pipelines:

Serverlösa pipelinefunktioner

Förutom att förenkla konfigurationen har serverlösa pipelines följande funktioner:

  • Inkrementell uppdatering för materialiserade vyer: Uppdateringar för materialiserade vyer uppdateras stegvis när det är möjligt. Inkrementell uppdatering har samma resultat som fullständig omkomputation. Uppdateringen använder en fullständig uppdatering om resultatet inte kan beräknas stegvis. Se Uppdatera åtgärder för materialiserade vyer.
  • Stream pipelining: För att förbättra användningen, dataflödet och svarstiden för strömmande dataarbetsbelastningar, till exempel datainmatning, pipelines mikrobatcher. Med andra ord, i stället för att köra mikrobatcher sekventiellt som Standard Spark Structured Streaming, kör serverlösa DLT-pipelines mikrobatcher samtidigt, vilket förbättrar användningen av beräkningsresurser. Stream pipelining är aktiverat som standard i serverlösa DLT-pipelines.
  • Lodrät autoskalning: Serverlösa DLT-pipelines lägger till den horisontella autoskalning som tillhandahålls av Databricks förbättrad autoskalning genom att automatiskt allokera de mest kostnadseffektiva instanstyperna som kan köra din Delta Live Tables-pipeline utan att misslyckas på grund av minnesfel. Se Vad är lodrät autoskalning?

Vad är lodrät autoskalning?

Lodrät automatisk skalning av serverlösa DLT-pipelines allokerar automatiskt de mest kostnadseffektiva tillgängliga instanstyperna för att köra dina Delta Live Tables-pipelineuppdateringar utan att misslyckas på grund av minnesfel. Lodrät autoskalning skalas upp när större instanstyper krävs för att köra en pipelineuppdatering och skalas även ned när den fastställer att uppdateringen kan köras med mindre instanstyper. Lodrät autoskalning avgör om drivrutinsnoder, arbetsnoder eller både drivrutins- och arbetsnoder ska skalas upp eller ned.

Lodrät autoskalning används för alla serverlösa DLT-pipelines, inklusive pipelines som används av Databricks SQL-materialiserade vyer och strömmande tabeller.

Lodrät autoskalning fungerar genom att identifiera pipelineuppdateringar som har misslyckats på grund av minnesfel. Lodrät autoskalning allokerar större instanstyper när dessa fel identifieras baserat på minnesutdata som samlats in från den misslyckade uppdateringen. I produktionsläge startas en ny uppdatering som använder de nya beräkningsresurserna automatiskt. I utvecklingsläge används de nya beräkningsresurserna när du startar en ny uppdatering manuellt.

Om lodrät autoskalning upptäcker att minnet för de allokerade instanserna är konsekvent underutnyttat, kommer instanstyperna att skalas ned som ska användas i nästa pipelineuppdatering.

Konvertera en befintlig pipeline till att använda serverlös

Du kan konvertera befintliga pipelines som konfigurerats med Unity Catalog till serverlösa pipelines. Slutför följande steg:

  1. Klicka på Delta Live Tables (Delta Live Tables ) i sidofältet.
  2. Klicka på namnet på den önskade pipelinen i listan.
  3. Klicka på Inställningar.
  4. Markera kryssrutan bredvid Serverlös.
  5. Klicka på Spara och starta.

Viktigt!

När du aktiverar serverlös tas alla beräkningsinställningar som du har konfigurerat för en pipeline bort. Om du växlar tillbaka en pipeline till icke-serverlösa uppdateringar måste du konfigurera om önskade beräkningsinställningar till pipelinekonfigurationen.

Hur hittar jag DBU-användningen av en serverlös pipeline?

Du hittar DBU-användningen av serverlösa DLT-pipelines genom att fråga den fakturerbara användningstabellen, som är en del av Azure Databricks-systemtabellerna. Se Vad är DBU-förbrukningen för en serverlös DLT-pipeline?.