Créer un moniteur à l’aide de l’interface utilisateur Databricks

Cet article montre comment créer un moniteur de données à l’aide de l’interface utilisateur Databricks. Vous pouvez également utiliser l'API.

Pour accéder à l’interface utilisateur de Databricks, procédez comme suit :

  1. Dans la barre latérale gauche de l’espace de travail, cliquez sur l’icône Catalogue pour ouvrir l’Explorateur de catalogues.
  2. Accédez à la table que vous souhaitez analyser.
  3. Cliquez sur l'onglet Qualité.
  4. Cliquez sur le bouton Commencer.
  5. Dans Créer un moniteur, choisissez les options que vous souhaitez configurer.

Profilage

Dans le menu Type de profil, sélectionnez le type de moniteur que vous souhaitez créer. Les types de profils sont indiqués dans le tableau.

Type de profil Description
Profil de série chronologique Table contenant des valeurs mesurées au fil du temps. Ce tableau comprend une colonne timestamp.
Profil d’inférence Une table contenant les valeurs prédites sorties par un modèle de classification ou de régression Machine Learning. Cette table comprend un timestamp, un ID de modèle, des entrées de modèle (fonctionnalités), une colonne contenant des prédictions de modèle et des colonnes facultatives contenant des ID d’observation uniques et des étiquettes de vérité au sol. Elle peut également contenir des métadonnées, telles que des informations démographiques, qui ne sont pas utilisées comme entrée dans le modèle, mais qui peuvent être utiles pour des enquêtes d’impartialité et de biais ou d’autres surveillances.
Profil d’instantané Toute table managée Delta, table externe, vue, vue matérialisée ou table de diffusion en continu.

Si vous sélectionnez TimeSeries ou Inference, des paramètres supplémentaires sont requis et sont décrits dans les sections suivantes.

Remarque

  • Lorsque vous créez un profil de série chronologique ou d’inférence, le moniteur analyse uniquement les données des 30 jours précédant sa création. Une fois le moniteur créé, toutes les nouvelles données sont traitées.
  • Les moniteurs créés à partir d’affichages matérialisés et de tables de diffusion en continu ne prennent pas en charge le traitement incrémentiel.

Conseil

Pour les profils TimeSeries et Inference, il est recommandé d’activer le flux des changements de données (CDF) sur votre table. Lorsque le CDF est activé, seules les données nouvellement ajoutées sont traitées, plutôt que de retraiter l’intégralité de la table toutes les actualisations. Cela rend l’exécution plus efficace et réduit les coûts à mesure que vous mettez à l’échelle la surveillance sur de nombreuses tables.

TimeSeries profil

Pour un TimeSeries profil, vous devez effectuer les sélections suivantes :

  • Spécifiez les granularités des métriques qui déterminent comment partitionner les données dans des fenêtres au fil du temps.
  • Spécifiez la colonne Timestamp, la colonne dans la table qui contient l’horodatage. Le type de données de colonne timestamp doit être TIMESTAMP ou un type pouvant être converti en timestamps à l’aide de la fonction PySpark to_timestamp.

Inference profil

Pour un profilInference, en plus des granularités et de l’horodatage, vous devez effectuer les sélections suivantes :

  • Sélectionnez type de problème, classification ou régression.
  • Spécifiez la colonne Prédiction, la colonne contenant les valeurs prédites du modèle.
  • Spécifiez éventuellement la colonne Label, la colonne contenant la vérité du sol pour les prédictions de modèle.
  • Spécifiez la colonne ID de modèle, la colonne contenant l’ID du modèle utilisé pour la prédiction.

Planifier

Pour configurer un moniteur pour qu’il s’exécute sur une base planifiée, sélectionnez Actualiser selon la planification , puis sélectionnez la fréquence et l’heure d’exécution du moniteur. Si vous ne souhaitez pas que le moniteur s’exécute automatiquement, sélectionnez Actualiser manuellement. Si vous sélectionnez Actualiser manuellement, vous pouvez actualiser les métriques à partir de l’onglet Qualité .

Notifications

Pour configurer les notifications par e-mail d’un moniteur, entrez l’adresse e-mail à notifier et sélectionnez les notifications à activer. Un type d’événement de notification prend en charge jusqu’à 5 adresses e-mail.

Général

Dans la section Général , vous devez spécifier un paramètre requis et quelques options de configuration supplémentaires :

  • Vous devez spécifier le schéma Unity Catalog où sont stockées les tables de métriques créées par le moniteur. L’emplacement doit être au format {catalog}. {schema}.

Vous pouvez également spécifier les paramètres suivants :

  • Répertoire de ressources. Entrez le chemin d’accès absolu au répertoire existant pour stocker des ressources de monitoring telles que le tableau de bord généré. Par défaut, les ressources sont stockées dans le répertoire par défaut : « /Users/{user_name}/databricks_lakehouse_monitoring/{table_name} ». Si vous saisissez un autre emplacement dans ce champ, les ressources sont créées sous « /{nom_de_table} » dans le répertoire spécifié. Ce répertoire peut se trouver n’importe où dans l’espace de travail. Pour les moniteurs destinés à être partagés au sein d’une organisation, vous pouvez utiliser un chemin d’accès dans le répertoire « /Shared/ ».

    Ce champ ne peut pas être vide.

  • Nom de la table de référence Unity Catalog. Nom d’une table ou d’une vue qui contient des données de base à des fins de comparaison. Pour plus d’informations sur les tables de référence, consultez Table d’entrée principale et Table de base.

  • Expressions de découpage de métriques. Les expressions de découpage vous permettent de définir des sous-ensembles de la table à surveiller en plus de la table dans son ensemble. Pour créer une expression de découpage, cliquez sur Ajouter une expression et entrez la définition de l’expression. Par exemple, l’expression "col_2 > 10" génère deux tranches : une pour col_2 > 10 et une pour col_2 <= 10. Comme autre exemple, l’expression "col_1" génère une tranche pour chaque valeur unique dans col_1. Les données sont regroupées par chaque expression indépendamment, ce qui aboutit à une tranche distincte pour chaque prédicat et ses compléments.

  • Métriques personnalisées. Les métriques personnalisées apparaissent dans les tables de métriques comme n’importe quelle métrique intégrée. Pour plus d’informations, consultez Utiliser des métriques personnalisées avec Databricks Lakehouse Monitoring. Pour configurer une métrique personnalisée, cliquez sur Ajouter une métrique personnalisée.

    • Entrez un Nom pour la métrique personnalisée.
    • Sélectionnez le type de métrique personnalisé, l’un des éléments Aggregate, Derivedou Drift. Pour obtenir des définitions, consultez Types de métriques personnalisées.
    • Dans la liste déroulante des colonnes d’entrée, sélectionnez les colonnes à laquelle appliquer la métrique.
    • Dans le champ Type de sortie , sélectionnez le type de données Spark de la métrique.
    • Dans le champ Définition , entrez le code SQL qui définit la métrique personnalisée.

Modifier les paramètres du moniteur dans l’interface utilisateur

Une fois que vous avez créé un moniteur, vous pouvez apporter des modifications aux paramètres du moniteur en cliquant sur le bouton Modifier la configuration du moniteur sous l’onglet Qualité.

Actualiser et afficher les résultats de l’analyse dans l’interface utilisateur

Pour exécuter le moniteur manuellement, cliquez sur Actualiser les métriques.

Pour plus d’informations sur les statistiques stockées dans les tables de métriques de surveillance, consultez Surveiller les tables de métriques. Les tables de métriques sont des tables Unity Catalog. Vous pouvez les interroger dans des notebooks ou dans l’Explorateur de requêtes SQL et les afficher dans l’Explorateur de catalogues.

Contrôler l’accès pour surveiller les sorties

Les tables de métriques et le tableau de bord créés par un moniteur appartiennent à l’utilisateur qui a créé le moniteur. Vous pouvez utiliser les privilèges Unity Catalog pour contrôler l’accès aux tables de métriques. Pour partager des tableaux de bord au sein d’un espace de travail, cliquez sur le bouton Partager en haut à droite du tableau de bord.

Supprimer un moniteur de l’interface utilisateur

Pour supprimer un moniteur de l’interface utilisateur, cliquez sur le menu kebab en regard du bouton Actualiser les métriques , puis sélectionnez Supprimer le moniteur.