Informations de référence sur les propriétés Delta Live Tables
Cet article fournit une référence pour la spécification de paramètre JSON delta Live Tables et les propriétés de table dans Azure Databricks. Pour plus d’informations sur l’utilisation de ces différentes propriétés et configurations, consultez les articles suivants :
Configurations de pipeline Delta Live Tables
Champs |
---|
id Entrez : string Identificateur global unique (GUID) pour ce pipeline. L’identificateur est attribué par le système et ne peut pas être modifié. |
name Entrez : string Nom convivial pour ce pipeline. Le nom peut servir à identifier les travaux du pipeline dans l’interface utilisateur. |
storage Entrez : string Emplacement dans DBFS ou le stockage cloud où sont stockées les données de sortie et les métadonnées requises pour l’exécution du pipeline. Les tables et les métadonnées sont stockées dans des sous-répertoires de cet emplacement. Si le paramètre storage n’est pas spécifié, le système utilise par défaut un emplacement dans dbfs:/pipelines/ .Le paramètre storage ne peut pas être modifié une fois le pipeline créé. |
configuration Entrez : object Liste facultative de paramètres à ajouter à la configuration Spark du cluster qui exécutera le pipeline. Ces paramètres sont lus par le runtime Delta Live Tables et sont utilisés dans les requêtes du pipeline via la configuration Spark. Les éléments doivent être spécifiés sous la forme de paires key:value . |
libraries Entrez : array of objects Tableau de notebooks contenant le code du pipeline et les artefacts requis. |
clusters Entrez : array of objects Tableau de spécifications pour les clusters qui exécuteront le pipeline. Si ce paramètre n’est pas spécifié, les pipelines sélectionnent automatiquement une configuration de cluster par défaut pour le pipeline. |
development Entrez : boolean Un indicateur précisant s’il faut exécuter le pipeline en mode development ou production .La valeur par défaut est true . |
notifications Entrez : array of objects Tableau facultatif de spécifications pour Notifications par e-mail lorsqu’une mise à jour de pipeline se termine, échoue avec une erreur pouvant faire de nouvelles tentatives, échoue avec une erreur non nouvelle tentative ou qu’un flux échoue. |
continuous Entrez : boolean Indicateur précisant s’il faut exécuter le pipeline en continu. La valeur par défaut est false . |
target Entrez : string Nom d’une base de données où conserver les données de sortie du pipeline. La configuration du paramètre target vous permet d’afficher et d’interroger les données de sortie du pipeline à partir de l’interface utilisateur Azure Databricks. |
channel Entrez : string Version du runtime Delta Live Tables à utiliser. Les valeurs prises en charge sont les suivantes : - preview pour tester votre pipeline avec les modifications à venir de la version du runtime.- current pour utiliser la version actuelle du runtime.Le champ channel est facultatif. La valeur par défaut estcurrent . Databricks recommande d’utiliser la version actuelle du runtime pour les charges de travail de production. |
edition Tapez string .Édition du produit Delta Live Tables sur laquelle exécuter le pipeline. Ce paramètre vous permet de choisir la meilleure édition du produit en fonction des exigences de votre pipeline : - CORE pour exécuter des charges de travail d’ingestion de streaming.- PRO pour exécuter des charges de travail d’ingestion de streaming et de capture des changements de données (CDC).- ADVANCED pour exécuter des charges de travail d’ingestion de streaming, des charges de travail CDC et des charges de travail qui nécessitent que les attentes de Delta Live Tables appliquent des contraintes de qualité des données.Le champ edition est facultatif. La valeur par défaut estADVANCED . |
photon Entrez : boolean Indicateur précisant s’il faut utiliser Qu’est-ce que Photon ? pour exécuter le pipeline. Photon est le moteur Spark haute performance d’Azure Databricks. Les pipelines Photon sont facturés à un prix différent des pipelines non-Photon. Le champ photon est facultatif. La valeur par défaut est false . |
pipelines.maxFlowRetryAttempts Entrez : int Nombre maximal de nouvelles tentatives d’un flux avant l’échec d’une mise à jour de pipeline lorsqu’un échec avec nouvelle tentative possible se produit. La valeur par défaut est de deux. Par défaut, lorsqu’un échec avec nouvelle tentative possible se produit, le runtime Delta Live Tables tente d’exécuter le flux trois fois, y compris la tentative d’origine. |
pipelines.numUpdateRetryAttempts Entrez : int Nombre maximal de nouvelles tentatives de mise à jour avant l’échec d’une mise à jour lorsqu’un échec avec nouvelle tentative possible se produit. La nouvelle tentative est exécutée en tant que mise à jour complète. La valeur par défaut est cinq. Ce paramètre s’applique uniquement aux mises à jour déclenchées exécutées en mode production. Aucune nouvelle tentative n’est possible lorsque votre pipeline s’exécute en mode développement. |
Propriétés Delta Live Tables
Outre les propriétés des tables prises en charge par Delta Lake, vous pouvez définir les propriétés des tables suivantes.
Propriétés des tables |
---|
pipelines.autoOptimize.managed Valeur par défaut : true Active ou désactive automatiquement l’optimisation planifiée de cette table. |
pipelines.autoOptimize.zOrderCols Valeur par défaut : aucune Une chaîne facultative contenant des noms de colonnes séparés par des virgules qui détermine l’ordre de plan de cette table. Par exemple : pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed Valeur par défaut : true Détermine si une actualisation complète de cette table est autorisée. |
Intervalle de déclenchement des pipelines
Vous pouvez spécifier un intervalle de déclenchement de pipeline pour l’ensemble du pipeline Delta Live Tables ou dans le cadre d’une déclaration de jeu de données. Consultez Définir l’intervalle de déclencheur pour les pipelines continus.
pipelines.trigger.interval |
---|
La valeur par défaut est basée sur le type de flux : - Cinq secondes pour les requêtes de diffusion en continu. - Une minute pour les requêtes complètes lorsque toutes les données d’entrée proviennent de sources Delta. - Dix minutes pour les requêtes complètes lorsque certaines données d’entrée peuvent provenir de sources non Delta. La valeur est un nombre exprimé dans l’unité de temps choisie. Les unités de temps valides sont les suivantes : - second , seconds - minute , minutes - hour , hours - day , days Vous pouvez utiliser l’unité au singulier ou au pluriel lorsque vous définissez la valeur. Par exemple : - {"pipelines.trigger.interval" : "1 hour"} - {"pipelines.trigger.interval" : "10 seconds"} - {"pipelines.trigger.interval" : "30 second"} - {"pipelines.trigger.interval" : "1 minute"} - {"pipelines.trigger.interval" : "10 minutes"} - {"pipelines.trigger.interval" : "10 minute"} |
Attributs de cluster qui ne sont pas définissables par l’utilisateur
Étant donné que Delta Live Tables gère les cycles de vie des clusters, de nombreux paramètres de cluster sont définis par Delta Live Tables et ne peuvent pas être configurés manuellement par les utilisateurs, soit dans une configuration du pipeline, soit dans une stratégie de cluster utilisée par un pipeline. Le tableau suivant répertorie ces paramètres et explique pourquoi ils ne peuvent pas être définis manuellement.
Champs |
---|
cluster_name Delta Live Tables définit les noms des clusters utilisés pour exécuter les mises à jour de pipeline. Ces noms ne peuvent pas être remplacés. |
data_security_mode access_mode Ces valeurs sont automatiquement définies par le système. |
spark_version Les clusters Delta Live Tables s’exécutent sur une version personnalisée de Databricks Runtime qui est continuellement mise à jour avec les fonctionnalités les plus récentes. La version de Spark est fournie avec la version Databricks Runtime et ne peut pas être remplacée. |
autotermination_minutes Étant donné que Delta Live Tables gère la logique d’arrêt automatique et de réutilisation du cluster, l’heure d’arrêt automatique du cluster ne peut pas être remplacée. |
runtime_engine Bien que vous puissiez contrôler ce champ en activant Photon pour votre pipeline, vous ne pouvez pas définir cette valeur directement. |
effective_spark_version Cette valeur est automatiquement définie par le système. |
cluster_source Ce champ est défini par le système et est en lecture seule. |
docker_image Étant donné que Delta Live Tables gère le cycle de vie du cluster, vous ne pouvez pas utiliser de conteneur personnalisé avec des clusters de pipeline. |
workload_type Cette valeur est définie par le système et ne peut pas être remplacée. |