Informations de référence sur les propriétés Delta Live Tables

Article
10/31/2024

Cet article fournit une référence pour la spécification de paramètre JSON delta Live Tables et les propriétés de table dans Azure Databricks. Pour plus d’informations sur l’utilisation de ces différentes propriétés et configurations, consultez les articles suivants :

Configurations de pipeline Delta Live Tables

Champs
`id` Entrez : `string` Identificateur global unique (GUID) pour ce pipeline. L’identificateur est attribué par le système et ne peut pas être modifié.
`name` Entrez : `string` Nom convivial pour ce pipeline. Le nom peut servir à identifier les travaux du pipeline dans l’interface utilisateur.
`storage` Entrez : `string` Emplacement dans DBFS ou le stockage cloud où sont stockées les données de sortie et les métadonnées requises pour l’exécution du pipeline. Les tables et les métadonnées sont stockées dans des sous-répertoires de cet emplacement. Si le paramètre `storage` n’est pas spécifié, le système utilise par défaut un emplacement dans `dbfs:/pipelines/`. Le paramètre `storage` ne peut pas être modifié une fois le pipeline créé.
`configuration` Entrez : `object` Liste facultative de paramètres à ajouter à la configuration Spark du cluster qui exécutera le pipeline. Ces paramètres sont lus par le runtime Delta Live Tables et sont utilisés dans les requêtes du pipeline via la configuration Spark. Les éléments doivent être spécifiés sous la forme de paires `key:value`.
`libraries` Entrez : `array of objects` Tableau de notebooks contenant le code du pipeline et les artefacts requis.
`clusters` Entrez : `array of objects` Tableau de spécifications pour les clusters qui exécuteront le pipeline. Si ce paramètre n’est pas spécifié, les pipelines sélectionnent automatiquement une configuration de cluster par défaut pour le pipeline.
`development` Entrez : `boolean` Un indicateur précisant s’il faut exécuter le pipeline en mode `development` ou `production`. La valeur par défaut est `true`.
`notifications` Entrez : `array of objects` Tableau facultatif de spécifications pour Notifications par e-mail lorsqu’une mise à jour de pipeline se termine, échoue avec une erreur pouvant faire de nouvelles tentatives, échoue avec une erreur non nouvelle tentative ou qu’un flux échoue.
`continuous` Entrez : `boolean` Indicateur précisant s’il faut exécuter le pipeline en continu. La valeur par défaut est `false`.
`target` Entrez : `string` Nom d’une base de données où conserver les données de sortie du pipeline. La configuration du paramètre `target` vous permet d’afficher et d’interroger les données de sortie du pipeline à partir de l’interface utilisateur Azure Databricks.
`channel` Entrez : `string` Version du runtime Delta Live Tables à utiliser. Les valeurs prises en charge sont les suivantes : - `preview` pour tester votre pipeline avec les modifications à venir de la version du runtime. - `current` pour utiliser la version actuelle du runtime. Le champ `channel` est facultatif. La valeur par défaut est `current`. Databricks recommande d’utiliser la version actuelle du runtime pour les charges de travail de production.
`edition` Tapez `string`. Édition du produit Delta Live Tables sur laquelle exécuter le pipeline. Ce paramètre vous permet de choisir la meilleure édition du produit en fonction des exigences de votre pipeline : - `CORE` pour exécuter des charges de travail d’ingestion de streaming. - `PRO` pour exécuter des charges de travail d’ingestion de streaming et de capture des changements de données (CDC). - `ADVANCED` pour exécuter des charges de travail d’ingestion de streaming, des charges de travail CDC et des charges de travail qui nécessitent que les attentes de Delta Live Tables appliquent des contraintes de qualité des données. Le champ `edition` est facultatif. La valeur par défaut est `ADVANCED`.
`photon` Entrez : `boolean` Indicateur précisant s’il faut utiliser Qu’est-ce que Photon ? pour exécuter le pipeline. Photon est le moteur Spark haute performance d’Azure Databricks. Les pipelines Photon sont facturés à un prix différent des pipelines non-Photon. Le champ `photon` est facultatif. La valeur par défaut est `false`.
`pipelines.maxFlowRetryAttempts` Entrez : `int` Nombre maximal de nouvelles tentatives d’un flux avant l’échec d’une mise à jour de pipeline lorsqu’un échec avec nouvelle tentative possible se produit. La valeur par défaut est de deux. Par défaut, lorsqu’un échec avec nouvelle tentative possible se produit, le runtime Delta Live Tables tente d’exécuter le flux trois fois, y compris la tentative d’origine.
`pipelines.numUpdateRetryAttempts` Entrez : `int` Nombre maximal de nouvelles tentatives de mise à jour avant l’échec d’une mise à jour lorsqu’un échec avec nouvelle tentative possible se produit. La nouvelle tentative est exécutée en tant que mise à jour complète. La valeur par défaut est cinq. Ce paramètre s’applique uniquement aux mises à jour déclenchées exécutées en mode production. Aucune nouvelle tentative n’est possible lorsque votre pipeline s’exécute en mode développement.

Propriétés Delta Live Tables

Outre les propriétés des tables prises en charge par Delta Lake, vous pouvez définir les propriétés des tables suivantes.

Propriétés des tables
`pipelines.autoOptimize.managed` Valeur par défaut : `true` Active ou désactive automatiquement l’optimisation planifiée de cette table.
`pipelines.autoOptimize.zOrderCols` Valeur par défaut : aucune Une chaîne facultative contenant des noms de colonnes séparés par des virgules qui détermine l’ordre de plan de cette table. Par exemple : `pipelines.autoOptimize.zOrderCols = "year,month"`
`pipelines.reset.allowed` Valeur par défaut : `true` Détermine si une actualisation complète de cette table est autorisée.

Intervalle de déclenchement des pipelines

Vous pouvez spécifier un intervalle de déclenchement de pipeline pour l’ensemble du pipeline Delta Live Tables ou dans le cadre d’une déclaration de jeu de données. Consultez Définir l’intervalle de déclencheur pour les pipelines continus.

`pipelines.trigger.interval`
La valeur par défaut est basée sur le type de flux : - Cinq secondes pour les requêtes de diffusion en continu. - Une minute pour les requêtes complètes lorsque toutes les données d’entrée proviennent de sources Delta. - Dix minutes pour les requêtes complètes lorsque certaines données d’entrée peuvent provenir de sources non Delta. La valeur est un nombre exprimé dans l’unité de temps choisie. Les unités de temps valides sont les suivantes : - `second`, `seconds` - `minute`, `minutes` - `hour`, `hours` - `day`, `days` Vous pouvez utiliser l’unité au singulier ou au pluriel lorsque vous définissez la valeur. Par exemple : - `{"pipelines.trigger.interval" : "1 hour"}` - `{"pipelines.trigger.interval" : "10 seconds"}` - `{"pipelines.trigger.interval" : "30 second"}` - `{"pipelines.trigger.interval" : "1 minute"}` - `{"pipelines.trigger.interval" : "10 minutes"}` - `{"pipelines.trigger.interval" : "10 minute"}`

pipelines.trigger.interval

La valeur par défaut est basée sur le type de flux :

- Cinq secondes pour les requêtes de diffusion en continu.
- Une minute pour les requêtes complètes lorsque toutes les données d’entrée proviennent de sources Delta.
- Dix minutes pour les requêtes complètes lorsque certaines données d’entrée peuvent provenir de sources non Delta.

La valeur est un nombre exprimé dans l’unité de temps choisie. Les unités de temps valides sont les suivantes :

- second, seconds
- minute, minutes
- hour, hours
- day, days

Vous pouvez utiliser l’unité au singulier ou au pluriel lorsque vous définissez la valeur. Par exemple :

- {"pipelines.trigger.interval" : "1 hour"}
- {"pipelines.trigger.interval" : "10 seconds"}
- {"pipelines.trigger.interval" : "30 second"}
- {"pipelines.trigger.interval" : "1 minute"}
- {"pipelines.trigger.interval" : "10 minutes"}
- {"pipelines.trigger.interval" : "10 minute"}

Attributs de cluster qui ne sont pas définissables par l’utilisateur

Étant donné que Delta Live Tables gère les cycles de vie des clusters, de nombreux paramètres de cluster sont définis par Delta Live Tables et ne peuvent pas être configurés manuellement par les utilisateurs, soit dans une configuration du pipeline, soit dans une stratégie de cluster utilisée par un pipeline. Le tableau suivant répertorie ces paramètres et explique pourquoi ils ne peuvent pas être définis manuellement.

Champs
`cluster_name` Delta Live Tables définit les noms des clusters utilisés pour exécuter les mises à jour de pipeline. Ces noms ne peuvent pas être remplacés.
`data_security_mode` `access_mode` Ces valeurs sont automatiquement définies par le système.
`spark_version` Les clusters Delta Live Tables s’exécutent sur une version personnalisée de Databricks Runtime qui est continuellement mise à jour avec les fonctionnalités les plus récentes. La version de Spark est fournie avec la version Databricks Runtime et ne peut pas être remplacée.
`autotermination_minutes` Étant donné que Delta Live Tables gère la logique d’arrêt automatique et de réutilisation du cluster, l’heure d’arrêt automatique du cluster ne peut pas être remplacée.
`runtime_engine` Bien que vous puissiez contrôler ce champ en activant Photon pour votre pipeline, vous ne pouvez pas définir cette valeur directement.
`effective_spark_version` Cette valeur est automatiquement définie par le système.
`cluster_source` Ce champ est défini par le système et est en lecture seule.
`docker_image` Étant donné que Delta Live Tables gère le cycle de vie du cluster, vous ne pouvez pas utiliser de conteneur personnalisé avec des clusters de pipeline.
`workload_type` Cette valeur est définie par le système et ne peut pas être remplacée.

Partager via

Informations de référence sur les propriétés Delta Live Tables

Configurations de pipeline Delta Live Tables

Propriétés Delta Live Tables

Intervalle de déclenchement des pipelines

Attributs de cluster qui ne sont pas définissables par l’utilisateur

Commentaires

Ressources supplémentaires