Tâche de profilage des données et visionneuse
S’applique à : SQL Server SSIS Integration Runtime dans Azure Data Factory
La tâche de profilage des données fournit des fonctionnalités de profilage de données à l'intérieur du processus d'extraction, de transformation et de chargement de données. Grâce à la tâche de profilage des données, vous pouvez bénéficier des avantages suivants :
Analyser les données sources plus efficacement
Mieux comprendre les données sources
Empêcher les problèmes de qualité des données avant qu'ils ne soient introduits dans l'entrepôt de données
Important
La tâche de profilage des données fonctionne uniquement avec les données stockées dans SQL Server. Elle ne fonctionne pas avec les sources de données tierces ou basées sur des fichiers.
Présentation du profilage des données
La qualité des données est cruciale dans toute entreprise. Compte tenu du fait que les systèmes analytiques et décisionnels des entreprises sont fondés sur leurs systèmes transactionnels, la fiabilité des indicateurs de performance clés et des prédictions d'exploration de données dépend entièrement de la validité des données sur lesquelles ils sont basés. Parallèlement à l'importance croissante des données valides dans la prise de décision en entreprise, le processus de validation de ces données est de plus en plus complexe. Les données affluent constamment dans l'entreprise, en provenance de systèmes et de sources variés et d'un grand nombre d'utilisateurs.
Les mesures de la qualité des données peuvent être difficiles à mettre en place car elles sont spécifiques au domaine ou à l'application. Une approche commune à la définition de la qualité des données est le profilage des données.
Un profil de données est une collection de statistiques agrégées sur les données qui peut regrouper, par exemple :
le nombre de lignes dans la table Customer ;
le nombre de valeurs distinctes dans la colonne State ;
le nombre de valeurs Null ou manquantes dans la colonne Zip ;
la distribution des valeurs dans la colonne City ;
la puissance de la dépendance fonctionnelle de la colonne State sur la colonne Zip (en d’autres termes, un État américain doit toujours être le même pour une valeur de code postal donnée).
Les statistiques fournies par un profil de données vous donnent les informations nécessaires pour minimiser de manière efficace les problèmes de qualité qui peuvent résulter de l'utilisation des données sources.
Integration Services et profilage des données
Dans Integration Services, le processus de profilage des données comprend les étapes suivantes :
Étape 1 : Configuration de la tâche de profilage des données
La tâche de profilage des données vous permet de configurer les profils à calculer. Vous exécutez ensuite le package qui contient la tâche de profilage des données pour calculer les profils. La tâche enregistre la sortie du profil au format XML dans un fichier ou une variable de package.
Pour plus d’informations : Configuration de la tâche de profilage des données
Étape 2 : Vérification des profils calculés par la tâche de profilage des données
Pour examiner les profils de données calculés par la tâche de profilage des données, vous envoyez la sortie à un fichier, puis vous utilisez la visionneuse du profil des données. Cette visionneuse est un utilitaire autonome qui affiche la sortie du profil, sous forme d'informations résumées et détaillées, avec en option une fonction d'exploration vers le bas.
Pour plus d’informations : Visionneuse du profil des données
Ajout de la logique conditionnelle au flux de travail de profilage des données
La tâche de profilage des données n'inclut pas de fonctionnalités intégrées vous permettant d'utiliser la logique conditionnelle pour connecter cette tâche aux tâches en aval basées sur la sortie du profil. Toutefois, vous pouvez ajouter facilement cette logique, avec un minimum de programmation, dans une tâche de script. Par exemple, vous pouvez définir une tâche de script qui effectue une requête XPath sur le fichier de sortie de la tâche de profilage des données. La requête peut déterminer si le pourcentage de valeurs NULL dans une colonne particulière dépasse un certain seuil. Si tel est le cas, vous pouvez interrompre le package et résoudre le problème dans les données sources avant de continuer. Pour plus d’informations, consultez Incorporer une tâche de profilage des données dans le flux de travail du package.