Qualité des données avec Catalogue unifié Microsoft Purview

Article
01/28/2025

La qualité des données dans Catalogue unifié Microsoft Purview permet aux domaines de gouvernance et aux propriétaires de données d’évaluer et de superviser la qualité de leur écosystème de données, ce qui facilite les actions ciblées pour l’amélioration. Dans le paysage actuel piloté par l’IA, la fiabilité des données a un impact direct sur la précision des insights et des recommandations pilotés par l’IA. Sans données dignes de confiance, il existe un risque d’éroder la confiance dans les systèmes d’IA et d’entraver leur adoption.

Une mauvaise qualité des données ou des structures de données incompatibles peuvent entraver les processus métier et les capacités de prise de décision. La qualité des données répond à ces défis en offrant aux utilisateurs la possibilité d’évaluer la qualité des données à l’aide de règles sans code/low-code, y compris les règles OOB (out-of-the-box) et les règles générées par l’IA. Ces règles sont appliquées au niveau de la colonne et agrégées pour fournir des scores aux niveaux des ressources de données, des produits de données et des domaines de gouvernance, ce qui garantit une visibilité de bout en bout de la qualité des données dans chaque domaine.

La qualité des données intègre également des fonctionnalités de profilage des données basées sur l’IA, ce qui recommande des colonnes pour le profilage tout en permettant à l’intervention humaine d’affiner ces recommandations. Ce processus itératif améliore non seulement la précision du profilage des données, mais contribue également à l’amélioration continue des modèles IA sous-jacents.

En appliquant la qualité des données, les organisations peuvent mesurer, surveiller et améliorer efficacement la qualité de leurs ressources de données, ce qui renforce la fiabilité des insights pilotés par l’IA et favorise la confiance dans les processus décisionnels basés sur l’IA.

Cycle de vie de la qualité des données

Attribuez aux utilisateurs des autorisations de gestionnaire de la qualité des données dans Catalogue unifié d’utiliser toutes les fonctionnalités de qualité des données.
Inscrivez et analysez une source de données dans votre Mappage de données Microsoft Purview.
Ajouter votre ressource de données à un produit de données
Configurez une connexion à la source de données pour préparer votre source pour l’évaluation de la qualité des données.
Configurez et exécutez le profilage des données pour une ressource dans votre source de données.
1. Une fois le profilage terminé, parcourez les résultats de chaque colonne de la ressource de données pour comprendre la structure et l’état actuels de vos données.
Configurez des règles de qualité des données basées sur les résultats du profilage et appliquez-les à votre ressource de données.
Configurez et exécutez une analyse de la qualité des données sur un produit de données pour évaluer la qualité de toutes les ressources prises en charge dans le produit de données.
Passez en revue les résultats de votre analyse pour évaluer la qualité actuelle des données de votre produit de données.
Répétez régulièrement les étapes 5 à 8 sur le cycle de vie de votre ressource de données pour vous assurer qu’elle maintient la qualité.
Surveiller en permanence la qualité de vos données
1. Passez en revue les actions de qualité des données pour identifier et résoudre les problèmes.
2. Définissez des notifications de qualité des données pour vous avertir des problèmes de qualité.

Régions de qualité des données prises en charge

La qualité des données est actuellement prise en charge dans les régions suivantes

Sources de données multicloud prises en charge

Azure Data Lake Storage (ADLS Gen2)
- Types de fichiers : Delta Parquet et Parquet
Base de données Azure SQL
Patrimoine de données fabric dans OneLake, y compris le raccourci et le patrimoine de données de mise en miroir. L’analyse de la qualité des données est prise en charge uniquement pour les tables delta Lakehouse et les fichiers Parquet.
- Mise en miroir du patrimoine de données : Cosmos DB, Snowflake, Azure SQL
- Patrimoine de données de raccourci : AWS S3, GCS, AdlsG2 et dataverse
Azure Synapse serverless et l’entrepôt de données
Catalogue Unity d' Azure Databricks
Flocon de neige
Google Big Query (préversion privée)
Données iceberg dans ADLS Gen2, Microsoft Fabric Lakehouse, AWS S3 et GCP GCS

Importante

La qualité des données du fichier Parquet est conçue pour prendre en charge :

Répertoire avec fichier de composant Parquet. Par exemple : ./Sales/{Parquet Part Files}. Le nom complet doit suivre https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Assurez-vous que nous n’avons pas de modèles {n} dans la structure de répertoires/sous-répertoires. Il doit plutôt s’agir d’un nom de domaine complet direct menant à {SparkPartitions}.
Répertoire avec des fichiers Parquet partitionnés, partitionnés par colonnes dans le jeu de données, comme les données de ventes partitionnée par année et par mois. Par exemple : ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Ces deux scénarios essentiels, qui présentent un schéma de jeu de données Parquet cohérent, sont pris en charge. Limitation: Il n’est pas conçu pour ou ne prend pas en charge N hiérarchies arbitraires de répertoires avec des fichiers Parquet. Nous vous recommandons de présenter des données dans (1) ou (2) structure construite.

Actuellement, Microsoft Purview peut uniquement exécuter des analyses de qualité des données à l’aide de l’option Identité managée comme option d’authentification. Les services de qualité des données s’exécutent sur Apache Spark 3.4 et Delta Lake 2.4.

Fonctionnalités de qualité des données

Configuration de la connexion à la source de données
- Configurez la connexion pour autoriser l’application SaaS Purview DQ à disposer d’un accès en lecture aux données pour l’analyse qualité et le profilage.
- MS Purview utilise l’identité managée comme option d’authentification
Profilage des données
- Expérience de profilage des données avec l’IA
- Instantané statistiques standard de l’industrie (distribution, min, max, écart type, unicité, exhaustivité, doublon, ...)
- Explorer les mesures de profilage au niveau des colonnes.
Règles sur la qualité des données
- Règles prêtes à l’emploi pour mesurer six normes industrielles Dimensions de la qualité des données (exhaustivité, cohérence, conformité, précision, actualisation et unicité)
- Les fonctionnalités de création de règles personnalisées incluent le nombre de fonctions prêtes à l’emploi et de valeurs d’expression.
- Règles générées automatiquement avec expérience intégrée à l’IA
Analyse de la qualité des données
- Sélectionnez et affectez des règles aux colonnes pour l’analyse de la qualité des données.
- Appliquez la règle d’actualisation des données au niveau de l’entité/de la table pour mesurer le contrat SLA d’actualisation des données.
- Planification du travail d’analyse de la qualité des données pour une période de temps (toutes les heures, tous les jours, hebdomadaires, mensuels, etc.)
Surveillance des travaux de qualité des données
- Activer le travail de surveillance de la qualité des données status (actif, terminé, en échec, etc.)
- Activez la navigation dans l’historique d’analyse DQ.
Scoring de la qualité des données
- Score de qualité des données au niveau de la règle (quel est le score de qualité d’une règle qui s’applique à une colonne)
- Score de qualité des données pour les ressources de données, les produits de données et les domaines de gouvernance (un domaine de gouvernance peut avoir plusieurs produits de données, un produit de données peut avoir plusieurs ressources de données, une ressource de données peut avoir plusieurs colonnes de données)
Qualité des données pour les éléments de données critiques (CTE)
- Il s’agit de l’une des principales caractéristiques de la qualité des données, c’est-à-dire la possibilité d’appliquer des règles de qualité des données à la construction logique des CDE, qui se propagent ensuite aux éléments de données physiques qui les composent. En définissant des règles de qualité des données au niveau des CTE, les organisations peuvent établir des critères et des seuils spécifiques que les CED doivent respecter pour maintenir leur qualité
Alertes de qualité des données
- Configurez des alertes pour avertir les propriétaires de données et les gestionnaires de données si le seuil de qualité des données n’a pas été atteint.
- configurez l’alias de messagerie ou le groupe de distribution pour envoyer la notification sur les problèmes de qualité des données.
Actions sur la qualité des données
- Centre d’actions pour DQ avec des actions pour traiter les états d’anomalie DQ, y compris les requêtes de diagnostic pour le gestionnaire de DQ à zéro sur les données spécifiques à corriger pour chaque état d’anomalie.
Réseau virtuel de la qualité des données managé
- Un réseau virtuel géré par la qualité des données qui se connecte avec des points de terminaison privés à vos sources de données Azure.

Restriction

Le réseau virtuel n’est pas pris en charge pour le catalogue Google Big Query, Snowflake et Azure Databricks Unity.

Étapes suivantes

Attribuez aux utilisateurs des autorisations de gestionnaire de la qualité des données dans Catalogue unifié d’utiliser toutes les fonctionnalités de qualité des données.
Configurez une connexion à la source de données pour préparer votre source pour l’évaluation de la qualité des données.
Configurez et exécutez le profilage des données pour une ressource dans votre source de données.

Partager via

Qualité des données avec Catalogue unifié Microsoft Purview

Cycle de vie de la qualité des données

Régions de qualité des données prises en charge

Sources de données multicloud prises en charge

Fonctionnalités de qualité des données

Restriction

Étapes suivantes

Commentaires

Ressources supplémentaires

Partager via

Qualité des données avec Catalogue unifié Microsoft Purview

Cycle de vie de la qualité des données

Régions de qualité des données prises en charge

Sources de données multicloud prises en charge

Fonctionnalités de qualité des données

Restriction

Contenu associé

Étapes suivantes

Commentaires

Ressources supplémentaires