Egenskapsreferens för Delta Live Tables
Den här artikeln innehåller en referens för JSON-inställningsspecifikationen för Delta Live Tables och tabellegenskaper i Azure Databricks. Mer information om hur du använder dessa olika egenskaper och konfigurationer finns i följande artiklar:
Pipelinekonfigurationer för Delta Live Tables
Fält |
---|
id Typ: string En globalt unik identifierare för den här pipelinen. Identifieraren tilldelas av systemet och kan inte ändras. |
name Typ: string Ett användarvänligt namn för den här pipelinen. Namnet kan användas för att identifiera pipelinejobb i användargränssnittet. |
storage Typ: string En plats i DBFS eller molnlagring där utdata och metadata som krävs för pipelinekörning lagras. Tabeller och metadata lagras i underkataloger på den här platsen. När inställningen storage inte har angetts kommer systemet som standard att vara en plats i dbfs:/pipelines/ .Det storage går inte att ändra inställningen när en pipeline har skapats. |
configuration Typ: object En valfri lista med inställningar som ska läggas till i Spark-konfigurationen för klustret som ska köra pipelinen. De här inställningarna läss av Delta Live Tables-körningen och är tillgängliga för pipelinefrågor via Spark-konfigurationen. Element måste formateras som key:value par. |
libraries Typ: array of objects En matris med notebook-filer som innehåller pipelinekoden och nödvändiga artefakter. |
clusters Typ: array of objects En matris med specifikationer för de kluster som ska köra pipelinen. Om detta inte anges väljer pipelines automatiskt en standardklusterkonfiguration för pipelinen. |
development Typ: boolean En flagga som anger om pipelinen ska köras i development eller production läge.Standardvärdet är true |
notifications Typ: array of objects En valfri matris med specifikationer för e-postmeddelanden när en pipelineuppdatering slutförs, misslyckas med ett nytt försöksfel, misslyckas med ett fel som inte kan försökas igen eller om ett flöde misslyckas. |
continuous Typ: boolean En flagga som anger om pipelinen ska köras kontinuerligt. Standardvärdet är false . |
target Typ: string Namnet på en databas för att bevara pipelineutdata. När du konfigurerar target inställningen kan du visa och köra frågor mot pipelinens utdata från Azure Databricks-användargränssnittet. |
channel Typ: string Den version av Delta Live Tables-körningen som ska användas. De värden som stöds är: - preview för att testa din pipeline med kommande ändringar i körningsversionen.- current för att använda den aktuella körningsversionen.Fältet channel är valfritt. Standardvärdet ärcurrent . Databricks rekommenderar att du använder den aktuella körningsversionen för produktionsarbetsbelastningar. |
edition Skriv string Delta Live Tables-produktutgåvan för att köra pipelinen. Med den här inställningen kan du välja den bästa produktutgåvan baserat på kraven för din pipeline: - CORE för att köra strömmande inmatningsarbetsbelastningar.- PRO för att köra arbetsbelastningar för strömmande inmatning och ändring av datainsamling (CDC).- ADVANCED för att köra strömmande inmatningsarbetsbelastningar, CDC-arbetsbelastningar och arbetsbelastningar som kräver förväntningar på Delta Live Tables för att framtvinga datakvalitetsbegränsningar.Fältet edition är valfritt. Standardvärdet ärADVANCED . |
photon Typ: boolean En flagga som anger om du vill använda Vad är Photon? för att köra pipelinen. Photon är Spark-motorn med höga prestanda i Azure Databricks. Photon-aktiverade pipelines faktureras med en annan hastighet än icke-Photon-pipelines. Fältet photon är valfritt. Standardvärdet är false . |
pipelines.maxFlowRetryAttempts Typ: int Det maximala antalet försök att försöka igen ett flöde innan en pipelineuppdatering misslyckas när ett återförsöksbart fel inträffar. Standardvärdet är två. När ett återförsöksbart fel inträffar försöker Delta Live Tables-körningen som standard att köra flödet tre gånger, inklusive det ursprungliga försöket. |
pipelines.numUpdateRetryAttempts Typ: int Det maximala antalet försök att försöka göra en uppdatering igen innan uppdateringen misslyckas när ett återförsöksfel inträffar. Återförsöket körs som en fullständig uppdatering. Standardvärdet är fem. Den här parametern gäller endast för utlösta uppdateringar som körs i produktionsläge. Det går inte att försöka igen när pipelinen körs i utvecklingsläge. |
Tabellegenskaper för Delta Live Tables
Förutom de tabellegenskaper som stöds av Delta Lake kan du ange följande tabellegenskaper.
Tabellegenskaper |
---|
pipelines.autoOptimize.managed Standard: true Aktiverar eller inaktiverar automatiskt schemalagd optimering av den här tabellen. |
pipelines.autoOptimize.zOrderCols Standard: Ingen En valfri sträng som innehåller en kommaavgränsad lista med kolumnnamn för att z-beställa tabellen efter. Till exempel: pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed Standard: true Styr om en fullständig uppdatering tillåts för den här tabellen. |
Utlösarintervall för pipelines
Du kan ange ett pipeline-utlösarintervall för hela Delta Live Tables-pipelinen eller som en del av en datamängdsdeklaration. Se Ange utlösarintervall för kontinuerliga pipelines.
pipelines.trigger.interval |
---|
Standardvärdet baseras på flödestyp: – Fem sekunder för strömningsfrågor. – En minut för fullständiga frågor när alla indata kommer från Delta-källor. – Tio minuter för fullständiga frågor när vissa datakällor kan vara icke-Delta. Värdet är ett tal plus tidsenheten. Följande är giltiga tidsenheter: - second , seconds - minute , minutes - hour , hours - day , days Du kan använda singular- eller pluralenheten när du definierar värdet, till exempel: - {"pipelines.trigger.interval" : "1 hour"} - {"pipelines.trigger.interval" : "10 seconds"} - {"pipelines.trigger.interval" : "30 second"} - {"pipelines.trigger.interval" : "1 minute"} - {"pipelines.trigger.interval" : "10 minutes"} - {"pipelines.trigger.interval" : "10 minute"} |
Klusterattribut som inte kan användas
Eftersom Delta Live Tables hanterar klusterlivscykler anges många klusterinställningar av Delta Live Tables och kan inte konfigureras manuellt av användare, antingen i en pipelinekonfiguration eller i en klusterprincip som används av en pipeline. I följande tabell visas de här inställningarna och varför de inte kan anges manuellt.
Fält |
---|
cluster_name Delta Live Tables anger namnen på de kluster som används för att köra pipelineuppdateringar. Dessa namn kan inte åsidosättas. |
data_security_mode access_mode Dessa värden anges automatiskt av systemet. |
spark_version Delta Live Tables-kluster körs på en anpassad version av Databricks Runtime som uppdateras kontinuerligt för att inkludera de senaste funktionerna. Versionen av Spark paketeras med Databricks Runtime-versionen och kan inte åsidosättas. |
autotermination_minutes Eftersom Delta Live Tables hanterar logik för automatisk avslutning och återanvändning av kluster kan inte tiden för automatisk avslutning av klustret åsidosättas. |
runtime_engine Även om du kan styra det här fältet genom att aktivera Photon för din pipeline kan du inte ange det här värdet direkt. |
effective_spark_version Det här värdet anges automatiskt av systemet. |
cluster_source Det här fältet anges av systemet och är skrivskyddat. |
docker_image Eftersom Delta Live Tables hanterar klusterlivscykeln kan du inte använda en anpassad container med pipelinekluster. |
workload_type Det här värdet anges av systemet och kan inte åsidosättas. |