Qualité des données Microsoft Purview vue d’ensemble

Qualité des données Microsoft Purview est une solution complète qui permet aux propriétaires de domaine de gouvernance et de données d’évaluer et de superviser la qualité de leur écosystème de données, ce qui facilite l’amélioration des actions ciblées. Dans le paysage actuel piloté par l’IA, la fiabilité des données a un impact direct sur la précision des insights et des recommandations pilotés par l’IA. Sans données dignes de confiance, il existe un risque d’éroder la confiance dans les systèmes d’IA et d’entraver leur adoption.

Une mauvaise qualité des données ou des structures de données incompatibles peuvent entraver les processus métier et les capacités de prise de décision. Qualité des données Microsoft Purview répond à ces défis en offrant aux utilisateurs la possibilité d’évaluer la qualité des données à l’aide de règles sans code/low-code, y compris les règles OOB (out-of-the-box) et les règles générées par l’IA. Ces règles sont appliquées au niveau de la colonne et agrégées pour fournir des scores aux niveaux des ressources de données, des produits de données et des domaines de gouvernance, ce qui garantit une visibilité de bout en bout de la qualité des données dans chaque domaine.

Qualité des données Microsoft Purview intègre également des fonctionnalités de profilage des données basées sur l’IA, recommandant des colonnes pour le profilage tout en permettant à l’intervention humaine d’affiner ces recommandations. Ce processus itératif améliore non seulement la précision du profilage des données, mais contribue également à l’amélioration continue des modèles IA sous-jacents.

En appliquant Qualité des données Microsoft Purview, les organisations peuvent mesurer, surveiller et améliorer efficacement la qualité de leurs ressources de données, ce qui renforce la fiabilité des insights pilotés par l’IA et favorise la confiance dans les processus décisionnels basés sur l’IA.

Cycle de vie de la qualité des données

  1. Affectez aux utilisateurs des autorisations de gestionnaire de la qualité des données dans votre catalogue de données pour utiliser toutes les fonctionnalités de qualité des données.
  2. Inscrivez et analysez une source de données dans votre Mappage de données Microsoft Purview.
  3. Ajouter votre ressource de données à un produit de données
  4. Configurez une connexion à la source de données pour préparer votre source pour l’évaluation de la qualité des données.
  5. Configurez et exécutez le profilage des données pour une ressource dans votre source de données.
    1. Une fois le profilage terminé, parcourez les résultats de chaque colonne de la ressource de données pour comprendre la structure et l’état actuels de vos données.
  6. Configurez des règles de qualité des données basées sur les résultats du profilage et appliquez-les à votre ressource de données.
  7. Configurez et exécutez une analyse de la qualité des données sur un produit de données pour évaluer la qualité de toutes les ressources prises en charge dans le produit de données.
  8. Passez en revue les résultats de votre analyse pour évaluer la qualité actuelle des données de votre produit de données.
  9. Répétez régulièrement les étapes 5 à 8 sur le cycle de vie de votre ressource de données pour vous assurer qu’elle maintient la qualité.
  10. Surveiller en permanence la qualité de vos données
    1. Passez en revue les actions de qualité des données pour identifier et résoudre les problèmes.
    2. Définissez des notifications de qualité des données pour vous avertir des problèmes de qualité.

Régions de qualité des données prises en charge

Qualité des données Microsoft Purview est actuellement pris en charge dans les régions suivantes

Sources de données multicloud prises en charge

  • Azure Data Lake Storage (ADLS Gen2)
    • Types de fichiers : Delta Parquet et Parquet
  • Base de données Azure SQL
  • Patrimoine de données fabric dans OneLake, y compris le raccourci et le patrimoine de données de mise en miroir. L’analyse de la qualité des données est prise en charge uniquement pour les tables delta Lakehouse et les fichiers Parquet.
    • Mise en miroir du patrimoine de données : CosmosDB, Snowflake, Azure SQL
    • Patrimoine de données de raccourci : AWS S3, GCS, AdlsG2 et dataverse
  • Azure Synapse serverless et l’entrepôt de données
  • Catalogue Unity d' Azure Databricks
  • Flocon de neige
  • Google Big Query (préversion privée)

Importante

La qualité des données pour le fichier Parquet est conçue pour prendre en charge les points suivants :

  1. Répertoire avec fichier de composant Parquet. Par exemple : ./Sales/{Parquet Part Files}. Le nom complet doit suivre https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Assurez-vous que nous n’avons pas de modèles {n} dans la structure des répertoires/sous-répertoires. Il doit plutôt s’agir d’un nom de domaine complet direct menant à {SparkPartitions}.
  2. Répertoire avec des fichiers Parquet partitionnés, partitionnés par colonnes dans le jeu de données, comme les données de ventes partitionnée par année et par mois. Par exemple : ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Ces deux scénarios essentiels qui présentent un schéma de jeu de données Parquet cohérent sont pris en charge.
Limitation: Il n’est pas conçu pour ou ne prend pas en charge N hiérarchies arbitraires de répertoires avec des fichiers Parquet. Nous conseillons au client de présenter des données dans (1) ou (2) structure construite.

Actuellement, Microsoft Purview peut uniquement exécuter des analyses de qualité des données à l’aide de l’option Identité managée comme option d’authentification. Les services de qualité des données s’exécutent sur Apache Spark 3.4 et Delta Lake 2.4.

Fonctionnalités de qualité des données

  • Configuration de la connexion à la source de données
    • Configurez la connexion pour autoriser l’application SaaS Purview DQ à disposer d’un accès en lecture aux données pour l’analyse qualité et le profilage.
    • MS Purview utilise l’identité managée comme option d’authentification
  • Profilage des données
    • Expérience de profilage des données avec l’IA
    • Instantané statistiques standard de l’industrie (distribution, min, max, écart type, unicité, exhaustivité, doublon, ...)
    • Explorer les mesures de profilage au niveau des colonnes.
  • Règles sur la qualité des données
    • Règles prêtes à l’emploi pour mesurer six normes industrielles Dimensions de la qualité des données (exhaustivité, cohérence, conformité, précision, actualisation et unicité)
    • Les fonctionnalités de création de règles personnalisées incluent le nombre de fonctions prêtes à l’emploi et de valeurs d’expression.
    • Règles générées automatiquement avec expérience intégrée à l’IA
  • Analyse de la qualité des données
    • Sélectionnez et affectez des règles aux colonnes pour l’analyse de la qualité des données.
    • Appliquez la règle d’actualisation des données au niveau de l’entité/de la table pour mesurer le contrat SLA d’actualisation des données.
    • Planification du travail d’analyse de la qualité des données pour une période de temps (toutes les heures, tous les jours, hebdomadaires, mensuels, etc.)
  • Surveillance des travaux de qualité des données
    • Activer le travail de surveillance de la qualité des données status (actif, terminé, en échec, etc.)
    • Activez la navigation dans l’historique d’analyse DQ.
  • Scoring de la qualité des données
    • Score de qualité des données au niveau de la règle (quel est le score de qualité d’une règle appliquée à une colonne)
    • Score de qualité des données pour les ressources de données, les produits de données et les domaines de gouvernance (un domaine de gouvernance peut avoir plusieurs produits de données, un produit de données peut avoir plusieurs ressources de données, une ressource de données peut avoir plusieurs colonnes de données)
  • Qualité des données pour les éléments de données critiques (CTE)
    • Il s’agit de l’une des principales fonctionnalités de Purview Data Quality, c’est-à-dire sa capacité à appliquer des règles de qualité des données à la construction logique des CDE, qui se propagent ensuite aux éléments de données physiques qui les composent. En définissant des règles de qualité des données au niveau des CTE, les organisations peuvent établir des critères et des seuils spécifiques que les CED doivent respecter pour maintenir leur qualité
  • Alertes de qualité des données
    • Configurez des alertes pour avertir les propriétaires de données et les gestionnaires de données si le seuil de qualité des données n’a pas été atteint.
    • configurez l’alias de messagerie ou le groupe de distribution pour envoyer la notification sur les problèmes de qualité des données.
  • Actions sur la qualité des données
    • Centre d’actions pour DQ avec des actions pour traiter les états d’anomalie DQ, y compris les requêtes de diagnostic pour le gestionnaire de DQ à zéro sur les données spécifiques à corriger pour chaque état d’anomalie.
  • Réseau virtuel de la qualité des données managé
    • Un réseau virtuel géré par la qualité des données qui se connecte avec des points de terminaison privés à vos sources de données Azure.

Restriction

  • Le réseau virtuel n’est pas pris en charge pour google Big Query, Snowflake et le catalogue Azure Data Bricks Unity.

Étapes suivantes

  1. Affectez aux utilisateurs des autorisations de gestionnaire de la qualité des données dans votre catalogue de données pour utiliser toutes les fonctionnalités de qualité des données.
  2. Configurez une connexion à la source de données pour préparer votre source pour l’évaluation de la qualité des données.
  3. Configurez et exécutez le profilage des données pour une ressource dans votre source de données.