Egenskapsreferens för Delta Live Tables

Artikel
10/31/2024

Den här artikeln innehåller en referens för JSON-inställningsspecifikationen för Delta Live Tables och tabellegenskaper i Azure Databricks. Mer information om hur du använder dessa olika egenskaper och konfigurationer finns i följande artiklar:

Pipelinekonfigurationer för Delta Live Tables

Fält
`id` Typ: `string` En globalt unik identifierare för den här pipelinen. Identifieraren tilldelas av systemet och kan inte ändras.
`name` Typ: `string` Ett användarvänligt namn för den här pipelinen. Namnet kan användas för att identifiera pipelinejobb i användargränssnittet.
`storage` Typ: `string` En plats i DBFS eller molnlagring där utdata och metadata som krävs för pipelinekörning lagras. Tabeller och metadata lagras i underkataloger på den här platsen. När inställningen `storage` inte har angetts kommer systemet som standard att vara en plats i `dbfs:/pipelines/`. Det `storage` går inte att ändra inställningen när en pipeline har skapats.
`configuration` Typ: `object` En valfri lista med inställningar som ska läggas till i Spark-konfigurationen för klustret som ska köra pipelinen. De här inställningarna läss av Delta Live Tables-körningen och är tillgängliga för pipelinefrågor via Spark-konfigurationen. Element måste formateras som `key:value` par.
`libraries` Typ: `array of objects` En matris med notebook-filer som innehåller pipelinekoden och nödvändiga artefakter.
`clusters` Typ: `array of objects` En matris med specifikationer för de kluster som ska köra pipelinen. Om detta inte anges väljer pipelines automatiskt en standardklusterkonfiguration för pipelinen.
`development` Typ: `boolean` En flagga som anger om pipelinen ska köras i `development` eller `production` läge. Standardvärdet är `true`
`notifications` Typ: `array of objects` En valfri matris med specifikationer för e-postmeddelanden när en pipelineuppdatering slutförs, misslyckas med ett nytt försöksfel, misslyckas med ett fel som inte kan försökas igen eller om ett flöde misslyckas.
`continuous` Typ: `boolean` En flagga som anger om pipelinen ska köras kontinuerligt. Standardvärdet är `false`.
`target` Typ: `string` Namnet på en databas för att bevara pipelineutdata. När du konfigurerar `target` inställningen kan du visa och köra frågor mot pipelinens utdata från Azure Databricks-användargränssnittet.
`channel` Typ: `string` Den version av Delta Live Tables-körningen som ska användas. De värden som stöds är: - `preview` för att testa din pipeline med kommande ändringar i körningsversionen. - `current` för att använda den aktuella körningsversionen. Fältet `channel` är valfritt. Standardvärdet är `current`. Databricks rekommenderar att du använder den aktuella körningsversionen för produktionsarbetsbelastningar.
`edition` Skriv `string` Delta Live Tables-produktutgåvan för att köra pipelinen. Med den här inställningen kan du välja den bästa produktutgåvan baserat på kraven för din pipeline: - `CORE` för att köra strömmande inmatningsarbetsbelastningar. - `PRO` för att köra arbetsbelastningar för strömmande inmatning och ändring av datainsamling (CDC). - `ADVANCED` för att köra strömmande inmatningsarbetsbelastningar, CDC-arbetsbelastningar och arbetsbelastningar som kräver förväntningar på Delta Live Tables för att framtvinga datakvalitetsbegränsningar. Fältet `edition` är valfritt. Standardvärdet är `ADVANCED`.
`photon` Typ: `boolean` En flagga som anger om du vill använda Vad är Photon? för att köra pipelinen. Photon är Spark-motorn med höga prestanda i Azure Databricks. Photon-aktiverade pipelines faktureras med en annan hastighet än icke-Photon-pipelines. Fältet `photon` är valfritt. Standardvärdet är `false`.
`pipelines.maxFlowRetryAttempts` Typ: `int` Det maximala antalet försök att försöka igen ett flöde innan en pipelineuppdatering misslyckas när ett återförsöksbart fel inträffar. Standardvärdet är två. När ett återförsöksbart fel inträffar försöker Delta Live Tables-körningen som standard att köra flödet tre gånger, inklusive det ursprungliga försöket.
`pipelines.numUpdateRetryAttempts` Typ: `int` Det maximala antalet försök att försöka göra en uppdatering igen innan uppdateringen misslyckas när ett återförsöksfel inträffar. Återförsöket körs som en fullständig uppdatering. Standardvärdet är fem. Den här parametern gäller endast för utlösta uppdateringar som körs i produktionsläge. Det går inte att försöka igen när pipelinen körs i utvecklingsläge.

Tabellegenskaper för Delta Live Tables

Förutom de tabellegenskaper som stöds av Delta Lake kan du ange följande tabellegenskaper.

Tabellegenskaper
`pipelines.autoOptimize.managed` Standard: `true` Aktiverar eller inaktiverar automatiskt schemalagd optimering av den här tabellen.
`pipelines.autoOptimize.zOrderCols` Standard: Ingen En valfri sträng som innehåller en kommaavgränsad lista med kolumnnamn för att z-beställa tabellen efter. Till exempel: `pipelines.autoOptimize.zOrderCols = "year,month"`
`pipelines.reset.allowed` Standard: `true` Styr om en fullständig uppdatering tillåts för den här tabellen.

Utlösarintervall för pipelines

Du kan ange ett pipeline-utlösarintervall för hela Delta Live Tables-pipelinen eller som en del av en datamängdsdeklaration. Se Ange utlösarintervall för kontinuerliga pipelines.

`pipelines.trigger.interval`
Standardvärdet baseras på flödestyp: – Fem sekunder för strömningsfrågor. – En minut för fullständiga frågor när alla indata kommer från Delta-källor. – Tio minuter för fullständiga frågor när vissa datakällor kan vara icke-Delta. Värdet är ett tal plus tidsenheten. Följande är giltiga tidsenheter: - `second`, `seconds` - `minute`, `minutes` - `hour`, `hours` - `day`, `days` Du kan använda singular- eller pluralenheten när du definierar värdet, till exempel: - `{"pipelines.trigger.interval" : "1 hour"}` - `{"pipelines.trigger.interval" : "10 seconds"}` - `{"pipelines.trigger.interval" : "30 second"}` - `{"pipelines.trigger.interval" : "1 minute"}` - `{"pipelines.trigger.interval" : "10 minutes"}` - `{"pipelines.trigger.interval" : "10 minute"}`

pipelines.trigger.interval

Standardvärdet baseras på flödestyp:

– Fem sekunder för strömningsfrågor.
– En minut för fullständiga frågor när alla indata kommer från Delta-källor.
– Tio minuter för fullständiga frågor när vissa datakällor kan vara icke-Delta.

Värdet är ett tal plus tidsenheten. Följande är giltiga tidsenheter:

- second, seconds
- minute, minutes
- hour, hours
- day, days

Du kan använda singular- eller pluralenheten när du definierar värdet, till exempel:

- {"pipelines.trigger.interval" : "1 hour"}
- {"pipelines.trigger.interval" : "10 seconds"}
- {"pipelines.trigger.interval" : "30 second"}
- {"pipelines.trigger.interval" : "1 minute"}
- {"pipelines.trigger.interval" : "10 minutes"}
- {"pipelines.trigger.interval" : "10 minute"}

Klusterattribut som inte kan användas

Eftersom Delta Live Tables hanterar klusterlivscykler anges många klusterinställningar av Delta Live Tables och kan inte konfigureras manuellt av användare, antingen i en pipelinekonfiguration eller i en klusterprincip som används av en pipeline. I följande tabell visas de här inställningarna och varför de inte kan anges manuellt.

Fält
`cluster_name` Delta Live Tables anger namnen på de kluster som används för att köra pipelineuppdateringar. Dessa namn kan inte åsidosättas.
`data_security_mode` `access_mode` Dessa värden anges automatiskt av systemet.
`spark_version` Delta Live Tables-kluster körs på en anpassad version av Databricks Runtime som uppdateras kontinuerligt för att inkludera de senaste funktionerna. Versionen av Spark paketeras med Databricks Runtime-versionen och kan inte åsidosättas.
`autotermination_minutes` Eftersom Delta Live Tables hanterar logik för automatisk avslutning och återanvändning av kluster kan inte tiden för automatisk avslutning av klustret åsidosättas.
`runtime_engine` Även om du kan styra det här fältet genom att aktivera Photon för din pipeline kan du inte ange det här värdet direkt.
`effective_spark_version` Det här värdet anges automatiskt av systemet.
`cluster_source` Det här fältet anges av systemet och är skrivskyddat.
`docker_image` Eftersom Delta Live Tables hanterar klusterlivscykeln kan du inte använda en anpassad container med pipelinekluster.
`workload_type` Det här värdet anges av systemet och kan inte åsidosättas.

Dela via

Egenskapsreferens för Delta Live Tables

Pipelinekonfigurationer för Delta Live Tables

Tabellegenskaper för Delta Live Tables

Utlösarintervall för pipelines

Klusterattribut som inte kan användas

Feedback

Ytterligare resurser