Se connecter aux tables Delta dans Azure Data Lake Storage
Connectez-vous aux données des tables Delta et intégrez-les à Dynamics 365 Customer Insights - Data.
Principales raisons de se connecter aux données stockées au format Delta :
- Importez directement des données au format Delta pour gagner du temps et des efforts.
- Éliminez les coûts de calcul et de stockage associés à la transformation et au stockage d’une copie de vos données Lakehouse.
- Améliorez automatiquement la fiabilité de l’ingestion de données dans Customer Insights - Data fournie par le contrôle de version Delta.
Fonctionnalités et versions Databricks prises en charge
Customer Insights - Data prend en charge les fonctionnalités Databricks avec « minReaderVersion » version 2 ou antérieure. Les fonctionnalités Databricks qui nécessitent le lecteur Databricks version 3 ou ultérieure ne sont pas prises en charge. Le tableau présente les fonctionnalités Databricks prises en charge et non prises en charge.
Fonctionnalités prises en charge | Fonctionnalités non prises en charge |
---|---|
Fonctionnalité de base | Vecteurs de suppression |
Modifier le flux de données | Clusters Liquid |
Vérifier les contraintes | Écriture des fonctionnalités de table |
Mappage de colonne | TimestampNTZ |
Générer des colonnes | Élargissement du type |
Colonnes d’identité | Variante |
Suivi des lignes | |
Lecture des fonctionnalités de table | |
UniForm |
En savoir plus : Comment Databricks gère-t-il la compatibilité des fonctionnalités de Delta Lake ?.
Prérequis
Le Azure Data Lake Storage doit se trouver dans le même locataire et la même région Azure que Customer Insights - Data.
Pour vous connecter au stockage protégé par des pare-feu, consultez Configurez des liens privés Azure.
Le principal de service Customer Insights - Data doit avoir les autorisations du collaborateur Storage Blob Data pour accéder au compte de stockage. Pour plus d’informations, voir Accorder des autorisations au principal du service pour accéder au compte de stockage.
L’utilisateur qui configure ou met à jour la source de données a besoin du minimum d’autorisations Lecteur Storage Blob Data sur le compte Azure Data Lake Storage.
Les données stockées dans des services en ligne peuvent être stockées dans un emplacement différent de celui où les données sont traitées ou stockées. En important ou en vous connectant aux données stockées dans des services en ligne, vous acceptez que les données puissent être transférées. En savoir plus dans le Centre de gestion de la confidentialité Microsoft.
Customer Insights - Data prend en charge Databricks Lecteur version 2. Les tables delta utilisant des fonctionnalités qui nécessitent Databricks Lecteur version 3 ou supérieure ne sont pas prises en charge. Pour en savoir plus, consultez Fonctionnalités Databricks prises en charge.
Les tables Delta doivent se trouver dans un dossier du conteneur de stockage et ne peuvent pas se trouver dans le répertoire racine du conteneur. Par exemple :
storageaccountcontainer/ DeltaDataRoot/ ADeltaTable/ _delta_log/ 0000.json 0001.json part-0001-snappy.parquet part-0002-snappy.parquet
- Les données de votre Azure Data Lake Storage doivent être des tables Delta. Customer Insights - Data s’appuie sur la propriété version dans l’historique de la table pour identifier les dernières modifications en vue d’un traitement incrémentiel.
Se connecter aux données Delta depuis Azure Data Lake Storage
Accédez à Données>Sources de données.
Sélectionnez Ajouter une source de données.
Sélectionnez Tables Delta Azure Data Lake.
Entrez le nom de la source de données et une description facultative. Le nom est référencé dans les processus en aval et ne peut pas être modifié après la création de la source de données.
Choisissez l’une des options suivantes pour Connecter votre stockage à l’aide de.
- Abonnement Azure : Sélectionnez le compte Abonnement, puis le Groupe de ressources et le Compte de stockage.
- Ressource Azure : entrez l’ID de la ressource.
Choisissez le nom du Conteneur qui contient le dossier de vos données.
Facultativement, si vous souhaitez ingérer des données à partir d’un compte de stockage via un lien privé Azure, sélectionnez Activer la liaison privée. Pour plus d’informations, consultez Liens privés.
Accédez au dossier contenant les données tables Delta et sélectionnez-le. Sélectionnez ensuite Suivant. La liste des tables disponibles s’affiche.
Sélectionnez les tables que vous souhaitez inclure.
Pour les tables sélectionnées où une clé primaire n’a pas été définie, Obligatoire s’affiche sous Clé primaire. Pour chacune de ces tables :
- Sélectionnez Obligatoire. Le panneau Modifier l’entité s’affiche.
- Choisissez la Clé primaire. La clé primaire est un attribut unique à la table. Pour qu’un attribut soit une clé primaire valide, il ne doit inclure aucune valeur en double, aucune valeur manquante, ni aucune valeur nulle. Les attributs de type de données chaîne, entier et GUID sont pris en charge en tant que clés primaires.
- Sélectionnez Fermer, puis enregistrez et fermez le volet.
Pour activer le profilage des données sur l’une des colonnes, sélectionnez le nombre de Colonnes pour la table. La page Gérer les attributs s’affiche.
- Sélectionnez Profilage des données pour l’ensemble de la table ou pour des colonnes spécifiques. Par défaut, aucune table n’est activée pour le profilage des données.
- Cliquez sur Terminé.
Sélectionnez Enregistrer. La page Source de données s’ouvre et affiche la nouvelle source de données avec le statut Actualisation en cours.
Astuce
Il existe des statuts pour les tâches et les processus. La plupart des processus dépendent d’autres processus en amont, tels que l’actualisation des sources de données et du profilage des données.
Sélectionnez le statut pour ouvrir le volet Détails de la progression et afficher la progression des tâches. Pour annuler la tâche, sélectionnez Annuler la tâche en bas du volet.
Sous chaque tâche, sélectionnez Afficher les détails pour plus d’informations sur l’avancement, telles que l’heure du traitement, la date du dernier traitement et les erreurs et avertissements applicables associés à la tâche ou au processus. Sélectionnez l’option Afficher le statut du système en bas du volet pour voir les autres processus du système.
Le chargement des données peut prendre du temps. Après une actualisation réussie, les données ingérées peuvent être consultées à partir de la page Tables.
Gérer les modifications du schéma
Lorsqu’une colonne est ajoutée ou supprimée du schéma d’une source de données des dossiers Delta, le système exécute une actualisation complète des données. Une actualisation complète nécessite plus de temps pour traiter toutes les données qu’une actualisation incrémentielle.
Ajouter une colonne
Lorsqu’une colonne est ajoutée au source de données, les informations s’ajoutent automatiquement aux données Customer Insights - Data une fois l’actualisation effectuée. Si l’unification est déjà configurée pour la table, la nouvelle colonne doit être ajoutée au processus d’unification.
À partir de l’étape Données client, sélectionnez Sélectionner des tables et des colonnes et sélectionnez la nouvelle colonne.
À l’étape Vue unifiée des données, assurez-vous que la colonne n’est pas exclue du profil client. Sélectionnez Exclu et lisez la colonne.
À l’étape Exécuter des mises à jour du profil unifié, sélectionnez Unifier les profils client et les dépendances.
Modifier ou supprimer une colonne
Lorsqu’une colonne est supprimée d’un source de données, le système vérifie les dépendances dans d’autres processus. S’il existe une dépendance sur les colonnes, le système arrête l’actualisation et génère une erreur indiquant que les dépendances doivent être supprimées. Ces dépendances s’affichent dans une notification pour vous aider à les localiser et à les supprimer.
Valider un changement de schéma
Après l’actualisation de source de données, accédez à la page Données>Tables. Sélectionnez la table pour la source de données et vérifiez le schéma.
Le déplacement du temps Delta Lake et les données sont actualisés
Le déplacement du temps Delta Lake consiste en la capacité d’interroger les versions de table selon un horodatage ou un numéro de version. Les modifications apportées aux dossiers Delta sont versionnées et Customer Insights - Data utilise les versions du dossier Delta pour suivre les données à traiter. Lors d’une actualisation régulière de la table delta, les données sont extraites de toutes les versions de la table de données depuis la dernière actualisation. Tant que toutes les versions sont présentes, Customer Insights - Data peut traiter uniquement les éléments modifiés et fournir des résultats plus rapides. En savoir plus sur le parcours dans le temps.
Par exemple, si Customer Insights – Données a été synchronisé pour la dernière fois avec la version 23 des données de votre dossier Delta, il s’attend à trouver la version 23 et éventuellement les versions ultérieures disponibles. Si les versions de données attendues ne sont pas disponibles, la synchronisation des données échoue et nécessite une actualisation manuelle complète des données. La synchronisation des données peut échouer si les données de votre dossier Delta ont été supprimées puis recréées. Ou si Customer Insights - Data ne parvient pas à se connecter à vos dossiers Delta pendant une période prolongée pendant que les versions progressent.
Pour éviter d’avoir besoin d’une actualisation complète des données, nous vous recommandons de maintenir un historique raisonnable, par exemple 15 jours.
Exécuter manuellement une actualisation complète des données sur un dossier de table Delta
Une actualisation complète prend toutes les données d’une table au format Delta et les recharge à partir de la version zéro (0) de la table Delta. Les modifications apportées au schéma du dossier Delta déclenchent une actualisation complète automatique. Pour déclencher manuellement une actualisation complète, effectuez les étapes suivantes.
Accédez à Données>Sources de données.
Sélectionnez la source de données Tables Delta Azure Data Lake.
Sélectionnez la table que vous souhaitez actualiser. Le volet Modifier la table s’affiche.
Sélectionnez Exécuter une actualisation complète unique.
Sélectionnez Enregistrer pour exécuter l’actualisation. La page Sources de données s’ouvre et affiche la source de données avec le statut Actualisation en cours, mais seule la table sélectionnée est actualisée.
Répétez le processus pour les autres tables, le cas échéant.
Échec de la synchronisation des données
La synchronisation des données peut échouer si les données de votre dossier Delta ont été supprimées puis recréées. Ou si Customer Insights - Data ne parvient pas à se connecter à vos dossiers Delta pendant une période prolongée pendant que les versions progressent. Pour réduire l’impact d’un échec intermittent du pipeline de données qui nécessite une actualisation complète, nous vous recommandons de maintenir un historique raisonnable, par exemple 15 jours.