guide d’utilisation de la traçabilité Catalogue de données Microsoft Purview

Cet article fournit une vue d’ensemble des fonctionnalités de traçabilité des données dans Catalogue de données Microsoft Purview.

Arrière-plan

L’une des fonctionnalités de plateforme de Microsoft Purview est la possibilité d’afficher la traçabilité entre les jeux de données créés par les processus de données. Des systèmes tels que Data Factory, Data Share et Power BI capturent la traçabilité des données à mesure qu’elles se déplacent. Les rapports de traçabilité personnalisés sont également pris en charge via les hooks Atlas et l’API REST.

Collection lignage

Les métadonnées collectées dans Microsoft Purview à partir de systèmes de données d’entreprise sont cousues pour montrer une traçabilité des données de bout en bout. Les systèmes de données qui collectent la traçabilité dans Microsoft Purview sont généralement classés en trois types :

Chaque système prend en charge un niveau différent d’étendue de traçabilité. Consultez les sections ci-dessous ou l’article de traçabilité individuelle de votre système pour confirmer l’étendue de la traçabilité actuellement disponible.

Limitations connues

  • Les vues de base de données utilisées comme source d’activité de processus (Azure Data Factory, Pipelines Synapse, Azure SQL Database, Azure Data Share) sont actuellement capturées en tant qu’objets Table de base de données dans Microsoft Purview. Si la base de données est également analysée, les ressources d’affichage sont découvertes séparément dans Microsoft Purview. Dans ce scénario, deux ressources portant le même nom sont capturées dans Microsoft Purview, l’une en tant que table avec traçabilité des données et l’autre en tant que vue.
  • Si une procédure stockée contient des instructions drop ou create, elles ne sont actuellement pas capturées dans la traçabilité.

Systèmes de traitement des données

Les outils d’intégration de données et ETL peuvent pousser la traçabilité dans Microsoft Purview au moment de l’exécution. Des outils tels que Data Factory, Data Share, Synapse, Azure Databricks, etc., appartiennent à cette catégorie de systèmes de traitement des données. Les systèmes de traitement des données référencent les jeux de données en tant que source de différentes bases de données et solutions de stockage pour créer des jeux de données cibles. La liste des systèmes de traitement des données actuellement intégrés à Microsoft Purview pour la traçabilité est répertoriée dans le tableau ci-dessous.

Système de traitement des données Étendue prise en charge
Circulation d’air Traçabilité du flux d’air
Azure Data Share Partager instantané
Azure Data Factory activité Copy
Activité de flux de données
Activité d’exécution de package SSIS
base de données Azure SQL (préversion) Extraction de traçabilité pour les exécutions de procédures stockées
Azure Synapse Analytics activité Copy
Activité de flux de données

Systèmes de stockage de données

Les bases de données & solutions de stockage telles qu’Oracle, Teradata et SAP ont des moteurs de requête pour transformer les données à l’aide du langage de script. Les informations de traçabilité des données des vues/procédures stockées/etc. sont collectées dans Microsoft Purview et sont assemblées avec la traçabilité d’autres systèmes. La traçabilité est prise en charge pour les sources de données suivantes via l’analyse des données Microsoft Purview. Pour en savoir plus sur les scénarios de traçabilité pris en charge, consultez l’article correspondant.

Catégorie Source de données
Azure Azure Databricks
Database Cassandra
Db2
Google BigQuery
Base de données Hive Metastore
MySQL
Oracle
PostgreSQL
Snowflake
Teradata
Services et applications Erwin
Looker
SAP ECC
SAP S/4HANA

Systèmes d’analytique des données et de création de rapports

Systèmes d’analytique et de création de rapports de données comme Azure Machine Learning et Power BI dans Microsoft Purview. Ces systèmes utilisent les jeux de données des systèmes de stockage et traitent via leur métamodélise pour créer des tableaux de bord BI, des expériences ML, etc.

Analytique des données & système de création de rapports Étendue prise en charge
Power BI Jeux de données, flux de données, rapports & tableaux de bord

Bien démarrer avec la traçabilité

La traçabilité dans Microsoft Purview comprend des jeux de données et des processus. Les jeux de données sont également appelés nœuds, tandis que les processus peuvent également être appelés arêtes :

  • Jeu de données (nœud) : jeu de données (structuré ou non structuré) fourni en tant qu’entrée à un processus. Par exemple, une table SQL, un objet blob Azure et des fichiers (tels que .csv et .xml), sont tous considérés comme des jeux de données. Dans la section traçabilité de Microsoft Purview, les jeux de données sont représentés par des zones rectangulaires.

  • Processus (Edge) : une activité ou une transformation effectuée sur un jeu de données est appelée processus. Par exemple, ADF activité Copy, Data Share instantané, etc. Dans la section traçabilité de Microsoft Purview, les processus sont représentés par des zones arrondies.

Pour accéder aux informations de traçabilité d’une ressource dans Microsoft Purview, procédez comme suit :

  1. Ouvrez le portail de gouvernance Microsoft Purview en :

  2. Dans la page d’accueil du portail de gouvernance Microsoft Purview, recherchez le nom d’un jeu de données ou le nom du processus, par exemple copie ADF ou Data Flow activité. Appuyez ensuite sur Entrée.

  3. Dans les résultats de la recherche, sélectionnez la ressource et sélectionnez son onglet Traçabilité .

    Capture d’écran montrant comment sélectionner l’onglet Traçabilité.

Traçabilité au niveau de la ressource

Microsoft Purview prend en charge la traçabilité au niveau des ressources pour les jeux de données et les processus. Pour afficher la traçabilité au niveau de la ressource, accédez à l’onglet Traçabilité de la ressource actuelle dans le catalogue. Sélectionnez le nœud actif du jeu de données. Par défaut, la liste des colonnes appartenant aux données s’affiche dans le volet gauche.

Capture d’écran montrant comment sélectionner Afficher les colonnes dans la page de traçabilité.

Traçabilité manuelle

La traçabilité des données dans Microsoft Purview est automatisée pour de nombreuses ressources dans des environnements locaux, multiclouds et SaaS. Bien que nous continuions à ajouter des sources automatisées, la traçabilité manuelle vous permet de documenter les métadonnées de traçabilité pour les sources pour lesquelles l’automatisation n’est pas encore prise en charge, sans utiliser de code.

Pour ajouter une traçabilité manuelle pour l’une de vos ressources, procédez comme suit :

  1. Recherchez votre ressource dans le catalogue de données et sélectionnez-la pour afficher les détails.

  2. Sélectionnez Modifier, accédez à l’onglet Traçabilité , puis sélectionnez Ajouter une traçabilité manuelle dans le panneau inférieur.

    Capture d’écran de la modification d’une ressource et de l’ajout d’une traçabilité manuelle.

  3. Pour configurer la traçabilité des ressources :

    1. Sélectionnez la liste déroulante des ressources pour rechercher la ressource dans la liste suggérée ou En savoir plus pour rechercher dans le catalogue complet. Sélectionnez la ressource que vous souhaitez lier.
    2. Sélectionnez l’icône d’échange pour configurer la direction de la relation en tant que Produit (pour la traçabilité en aval) ou Consomme (pour amont traçabilité).
    3. Si vous souhaitez supprimer une traçabilité, sélectionnez l’icône de corbeille.

    Capture d’écran d’une page de traçabilité des ressources de données, avec la liste déroulante des ressources mise en surbrillance.

  4. Lorsque vous ajoutez une traçabilité entre deux ressources de données, vous pouvez également configurer la traçabilité au niveau de la colonne. Sélectionnez l’icône développer au début de la ligne, puis sélectionnez les colonnes amont et en aval dans les listes déroulantes correspondantes pour configurer le mappage de colonnes. Sélectionnez l’icône plus pour ajouter d’autres lignages de colonne. sélectionnez l’icône de corbeille pour supprimer les éléments existants.

    Capture d’écran de la configuration de la traçabilité au niveau de la colonne.

  5. Vous pouvez ajouter d’autres lignages au niveau des ressources en sélectionnant à nouveau le bouton Ajouter une traçabilité manuelle . Lorsque vous avez terminé, sélectionnez le bouton Enregistrer pour enregistrer votre traçabilité et quitter le mode d’édition.

Limitations connues de la traçabilité manuelle

  • L’expérience actuelle du sélecteur de ressources permet de sélectionner une seule ressource à la fois.
  • La traçabilité manuelle au niveau des colonnes est actuellement prise en charge pour la traçabilité entre deux ressources de données, alors qu’elle n’est pas prise en charge lorsque la ressource de processus est impliquée entre les deux.
  • Accès à la curation des données requis pour les ressources source et cible.
  • Actuellement, ces types de ressources n’autorisent pas la traçabilité manuelle, car ils prennent en charge la traçabilité automatisée :
    • Azure Data Factory
    • Pipelines Synapse
    • Jeux de données Power BI
    • Procédure stockée Teradata
    • procédure stockée Azure SQL

Traçabilité des colonnes du jeu de données

Pour afficher la traçabilité au niveau des colonnes d’un jeu de données, accédez à l’onglet Traçabilité de la ressource actuelle dans le catalogue et suivez les étapes ci-dessous :

  1. Une fois que vous êtes dans l’onglet Traçabilité, dans le volet gauche, sélectionnez la zone case activée en regard de chaque colonne que vous souhaitez afficher dans la traçabilité des données.

    Capture d’écran montrant comment sélectionner des colonnes à afficher dans la page de traçabilité.

  2. Pointez sur une colonne sélectionnée dans le volet gauche ou dans le jeu de données du canevas de traçabilité pour voir le mappage de colonne. Toutes les instances de colonne sont mises en surbrillance.

    Capture d’écran montrant comment pointer sur un nom de colonne pour mettre en surbrillance le flux de colonne dans un chemin de traçabilité des données.

  3. Si le nombre de colonnes est supérieur à ce qui peut être affiché dans le volet gauche, utilisez l’option de filtre pour sélectionner une colonne spécifique par nom. Vous pouvez également utiliser votre souris pour faire défiler la liste.

    Capture d’écran montrant comment filtrer des colonnes par nom de colonne sur la page de traçabilité.

  4. Si le canevas de traçabilité contient davantage de nœuds et d’arêtes, utilisez le filtre pour sélectionner la ressource de données ou traiter les nœuds par nom. Vous pouvez également utiliser votre souris pour effectuer un panoramique autour de la fenêtre de traçabilité.

    Capture d’écran montrant les nœuds de ressource de données par nom sur la page de traçabilité.

  5. Utilisez le bouton bascule dans le volet gauche pour mettre en surbrillance la liste des jeux de données dans le canevas de traçabilité. Si vous désactivez le bouton bascule, toute ressource contenant au moins l’une des colonnes sélectionnées s’affiche. Si vous activez le bouton bascule, seuls les jeux de données qui contiennent toutes les colonnes sont affichés.

    Capture d’écran montrant comment utiliser le bouton bascule pour filtrer la liste des nœuds sur la page de traçabilité.

Traiter la traçabilité des colonnes

Vous pouvez également afficher les processus de données, comme les activités de copie, dans le catalogue de données. Par exemple, dans ce flux de traçabilité, sélectionnez l’activité de copie :

Capture d’écran d’un flux de traçabilité des données avec l’un des nœuds de l’activité de copie mis en évidence.

L’activité de copie se développe, puis vous pouvez sélectionner le bouton Basculer vers la ressource , qui vous donnera plus de détails sur le processus lui-même.

Capture d’écran du nœud d’activité de copie développé et du bouton Nouveau commutateur vers la ressource sélectionné.

Le processus de données peut prendre un ou plusieurs jeux de données d’entrée pour produire une ou plusieurs sorties. Dans Microsoft Purview, la traçabilité au niveau des colonnes est disponible pour les nœuds de processus.

  1. Basculez entre les jeux de données d’entrée et de sortie à partir d’une liste déroulante dans le panneau colonnes.

  2. Sélectionnez les colonnes d’une ou de plusieurs tables pour voir la traçabilité du jeu de données d’entrée vers le jeu de données de sortie correspondant.

    Capture d’écran montrant la traçabilité des colonnes d’un nœud de processus.

Parcourir les ressources dans la traçabilité

  1. Sélectionnez Basculer vers la ressource sur n’importe quelle ressource pour afficher ses métadonnées correspondantes à partir de l’affichage de traçabilité. Cela est un moyen efficace d’accéder à une autre ressource dans le catalogue à partir de la vue traçabilité.

    Capture d’écran comment sélectionner Basculer vers une ressource dans une ressource de données de traçabilité.

  2. Le canevas de traçabilité peut devenir complexe pour les jeux de données populaires. Pour éviter tout encombrement, l’affichage par défaut n’affiche que cinq niveaux de traçabilité pour la ressource en cours de focus. Le reste de la traçabilité peut être développé en sélectionnant les bulles dans le canevas de traçabilité. Les consommateurs de données peuvent également masquer les ressources du canevas qui ne sont pas intéressantes. Pour réduire davantage l’encombrement, désactivez le bouton bascule Plus de traçabilité en haut du canevas de traçabilité. Cette action masque toutes les bulles dans le canevas de traçabilité.

    Capture d’écran montrant comment basculer plus de traçabilité.

  3. Utilisez les boutons intelligents dans le canevas de traçabilité pour obtenir une vue optimale de la traçabilité :

    1. Plein écran
    2. Zoom pour ajuster
    3. Zoom avant/arrière
    4. Alignement automatique
    5. Aperçu du zoom
    6. Et d’autres options :
      1. Centrer la ressource actuelle
      2. Rétablir l’affichage par défaut

    Capture d’écran montrant comment sélectionner les boutons intelligents de traçabilité.

Créer une traçabilité personnalisée manuellement ou avec des API REST

L’une des fonctionnalités de plateforme importantes de Microsoft Purview est la possibilité d’afficher la traçabilité entre les jeux de données créés par les processus de données. Des systèmes tels que Data Factory, Data Share et Power BI capturent la traçabilité des données à mesure qu’elles se déplacent. Dans certaines situations, la traçabilité générée automatiquement par Purview est incomplète ou manquante à des fins de visualisation pratique et/ou de création de rapports d’entreprise. Dans ces scénarios, vous pouvez créer des entrées de traçabilité personnalisées manuellement dans le portail Microsoft Purview, ou via des hooks Apache Atlas et l’API REST. Un autre avantage majeur de l’utilisation des API REST pour créer des rapports ou créer une traçabilité personnalisée est de surmonter ou d’atténuer les limitations des fonctionnalités exposées par la traçabilité manuelle.

Pour créer une traçabilité personnalisée manuellement, vous pouvez suivre ce guide de l’utilisateur : Entrées de traçabilité manuelles dans Microsoft Purview.

Pour créer une traçabilité personnalisée dans Microsoft Purview à l’aide des API REST, suivez ce guide de l’utilisateur : Microsoft Purview - Création d’une traçabilité personnalisée à l’aide des API REST.

Conseil

Dans certains cas, les API REST peuvent fournir davantage d’options d’entrée et de personnalisation que la création manuelle des entrées de traçabilité via le portail.

Meilleures pratiques en matière de traçabilité

Étapes suivantes