Démarrage rapide : créer votre premier flux de données pour obtenir et transformer des données

Les flux de données sont une technologie de préparation des données en libre-service, basée sur le cloud. Dans cet article, vous créez votre premier flux de données, vous obtenez des données pour votre flux de données, puis vous transformez les données et publiez le flux de données.

Prérequis

Les prérequis suivants sont requis avant de commencer :

Créer un flux de données

Dans cette section, vous créez votre premier flux de données.

  1. Passez à l’expérience Data Factory.

  2. Accédez à votre espace de travail Microsoft Fabric.

    Capture d’écran de la fenêtre Espaces de travail à partir de laquelle vous accédez à votre espace de travail.

  3. Sélectionnez Nouveau, puis Flux de données Gen2.

    Capture d’écran avec la sélection Flux de données Gen2 mise en évidence.

Obtenir des données

Nous allons maintenant obtenir des données. Dans cet exemple, vous obtenez des données à partir d’un service OData. Procédez comme suit pour obtenir des données dans votre flux de données.

  1. Dans l’éditeur de flux de données, sélectionnez Obtenir des données, puis Plus.

    Capture d’écran avec l’option Obtenir des données sélectionnée et l’option Plus mise en évidence dans la zone déroulante.

  2. Dans Choisir une source de données, sélectionnez Afficher plus.

    Capture d'écran de Obtenir la source de données avec Afficher plus mis en évidence.

  3. Dans Nouvelle source, sélectionnez Autre>OData comme source de données.

    Capture d’écran de Obtenir la source de données avec la catégorie Autre et le connecteur OData mis en évidence.

  4. Entrez l’URL https://services.odata.org/v4/northwind/northwind.svc/, puis sélectionnez Suivant.

    Capture d’écran de la source de données OData où vous entrez l’URL.

  5. Sélectionnez les tables Commandes et Clients, puis cliquez sur Créer.

    Capture d’écran du navigateur Power Query avec les tables Clients et Commandes mises en évidence.

Pour en savoir plus sur l’expérience et les fonctionnalités d’obtention de données, consultez Vue d’ensemble de l’obtention de données.

Appliquer des transformations et publier

Félicitations ! Vous avez maintenant chargé vos données dans votre premier flux de données. Il est maintenant temps d’appliquer quelques transformations afin de donner à ces données la forme souhaitée.

Vous allez effectuer cette tâche à partir de l’éditeur Power Query. Vous trouverez une vue d’ensemble détaillée de l’éditeur Power Query dans Interface utilisateur Power Query.

Procédez comme suit pour appliquer des transformations et publier :

  1. Vérifiez que les outils de profilage des données sont activés en accédant àAccueil>Options>Options globales.

    Capture d’écran des options globales avec les sélections de Profil de colonne mises en évidence.

    Vérifiez également que vous avez activé l’affichage des diagrammes à l’aide des options sous l’onglet Affichage dans le ruban de l’éditeur Power Query, ou en sélectionnant l’icône d’affichage des diagrammes en bas à droite de la fenêtre Power Query.

    Capture d’écran de l’aspect général de l’affichage des diagrammes dans Power Query.

  2. Dans la table Commandes, vous calculez le nombre total de commandes par client. Pour atteindre cet objectif, sélectionnez la colonne CustomerID dans l’aperçu des données, puis sélectionnez Regrouper par sous l’onglet Transformer dans le ruban.

    Capture d’écran montrant la table Commandes sélectionnée et l’option Regrouper par mise en évidence dans l’onglet Transformer.

  3. Vous effectuez un compte des lignes en tant qu’agrégation dans Regrouper par. Pour en savoir plus sur les fonctionnalités deRegrouper par, consultez Regroupement ou synthèse des lignes.

    Capture d’écran de Regrouper par, avec l’opération Compter les lignes sélectionnée.

  4. Après avoir groupé les données dans la table Commandes, nous obtenons une table avec deux colonnes : CustomerID et Compte.

    Capture d’écran de la table à deux colonnes.

  5. Ensuite, vous souhaitez combiner les données de la table Clients avec le nombre de commandes par client. Pour combiner des données, sélectionnez la requête Clients dans l’affichage des diagramme et utilisez le menu « ⋮ » pour accéder à la transformation Fusionner les requêtes en tant que nouvelles transformation.

    Capture d’écran de l’éditeur de flux de données, avec les ellipses verticales de la table Clients et l’option Fusionner les requêtes en tant que nouvelles mise en évidence.

  6. Configurez l’opération de fusion comme illustré dans la capture d’écran suivante en sélectionnant CustomerID comme colonne correspondante dans les deux tables. Sélectionnez ensuite Ok.

    Capture d’écran de la fenêtre Fusionner.

    Capture d’écran de la fenêtre Fusionner, avec la table de gauche pour la fusion définie sur la table Clients et la table de droite pour la fusion définie sur la table Commandes. La colonne CustomerID est sélectionnée pour les tables Clients et Commandes. En outre, l’option Type de jointure est définie sur Externe gauche. Toutes les autres sélections sont définies sur leur valeur par défaut.

  7. Lors de l’exécution de l’opération Fusionner les requêtes comme nouvelles, vous obtenez une nouvelle requête avec toutes les colonnes de la table Clients et une colonne avec des données imbriquées de la table Commandes.

    Capture d’écran de l’éditeur de flux de données avec Fusionner la requête ajouté à droite des tables Clients et Commandes.

  8. Dans cet exemple, vous ne vous intéressez qu’à un sous-ensemble de colonnes dans la table Clients. Vous sélectionnez ces colonnes à l’aide de la vue de schéma. Activez la vue de schéma avec le bouton bascule dans le coin inférieur droit de l’éditeur de flux de données.

    Capture d’écran de l’éditeur de flux de données avec le bouton de vue de schéma mis en évidence dans le coin inférieur droit.

  9. La vue de schéma fournit une vue ciblée sur les informations de schéma d’une table, y compris les noms de colonnes et les types de données. La vue schéma comporte un ensemble d’outils de schéma disponibles via un onglet contextuel du ruban. Dans ce scénario, vous sélectionnez les colonnes CustomerID, CompanyNameet Commandes (2), puis le bouton Supprimer les colonnes, puis Supprimer d’autres colonnes sous l’onglet Outils de schéma.

    Capture d’écran de la vue de schéma montrant tous les noms de colonnes disponibles, avec les colonnes CustomerID, CompanyName et Orders (2) mises en évidence.

    Capture d’écran du menu des outils de schéma avec l’option Supprimer d’autres colonnes mises en évidence.

  10. La colonne Orders (2) contient des informations imbriquées résultant de l’opération de fusion que vous avez effectuée il y a quelques étapes. À présent, revenez à la vue de données en sélectionnant le bouton Afficher la vue Données en regard du bouton Afficher la vue de schéma dans le coin inférieur droit de l’interface utilisateur. Utilisez ensuite la transformation Développer la colonne dans l’en-tête de colonne Orders (2) pour sélectionner la colonne Count .

    Capture d’écran pour l’utilisation de la vue de données.

  11. Pour votre dernière opération, vous souhaitez classer vos clients en fonction de leur nombre de commandes. Sélectionnez la colonne Count, puis sélectionnez le bouton Colonne de rang sous l’onglet Ajouter une colonne dans le ruban.

    Capture d’écran de l’éditeur de flux de données avec la colonne Count sélectionnée.

  12. Conservez les paramètres par défaut dans Colonne de rang. Sélectionnez ensuite OK pour appliquer cette transformation.

    Capture d’écran de la fenêtre Rang avec tous les paramètres par défaut affichés.

  13. À présent, renommez la requête obtenue en Clients classés à l’aide du volet Paramètres de la requête sur le côté droit de l’écran.

    Capture d’écran de l’éditeur de flux de données avec le nom Clients classés mis en évidence sous les propriétés des paramètres de la requête.

  14. Vous avez terminé la transformation et la combinaison de vos données. Vous configurez maintenant ses paramètres de destination de sortie. Sélectionnez Choisir la destination des données en bas du volet Paramètres de la requête.

    Capture d’écran de l’éditeur de flux de données avec l’emplacement de la sélection de destination des données mis en évidence.

  15. Pour cette étape, vous pouvez configurer une sortie sur votre lakehouse, si vous en avez un de disponible, ou ignorez cette étape si ce n’est pas le cas. Dans cette expérience, vous pouvez configurer le lakehouse de destination et la table pour vos résultats de requête, en plus de la méthode de mise à jour (Ajouter ou Remplacer).

    Capture d'écran de la fenêtre de connexion à la destination des données avec Lakehouse sélectionné.

    Capture d'écran de la fenêtre Choisir les paramètres de la destination.

  16. Votre flux de données est maintenant prêt à être publié. Passez en revue les requêtes dans la vue des diagrammes, puis sélectionnez Publier.

    Capture d’écran de l’éditeur de flux de données avec le bouton Publier dans le coin inférieur droit mis en évidence.

    Vous êtes de nouveau dans l’espace de travail. Une icône de boucle de rotation en regard du nom de votre flux de données indique que la publication est en cours. Une fois la publication terminée, votre flux de données est prêt à être actualisé.

    Important

    Lorsque le premier Dataflow Gen2 est créé dans un espace de travail, les éléments lakehouse et entrepôt sont approvisionnés, ainsi que leur point de terminaison d’analytique SQL et leurs modèles sémantiques associés. Ces éléments sont partagés par tous les flux de données de l’espace de travail et sont requis pour que Dataflow Gen2 fonctionne. Ils ne doivent pas être supprimés et ne doivent pas être utilisés directement par les utilisateurs. Les éléments sont un détail d’implémentation de Dataflow Gen2. Les éléments ne sont pas visibles dans l’espace de travail, mais peuvent être accessibles dans d’autres expériences telles que les expériences notebook, point de terminaison d’analytique SQL, lakehouse et entrepôt. Vous pouvez reconnaître les éléments par leur préfixe dans le nom. Le préfixe des éléments est « DataflowsStaging ».

  17. Dans votre espace de travail, sélectionnez l’icône Planifier l’actualisation.

    Capture d’écran de l’espace de travail avec l’icône Planifier l’actualisation mise en évidence.

  18. Activez l’actualisation planifiée, sélectionnez Ajouter un autre horaire, puis configurez l’actualisation comme illustré dans la capture d’écran suivante.

    Capture d'écran montrant comment sélectionner un autre horaire.

    Capture d’écran des options d’actualisation planifiée, avec l’actualisation planifiée activée, la fréquence d’actualisation définie sur Quotidienne, le fuseau horaire défini sur l’heure universelle coordonnée et l’horaire défini sur 4h00. Le bouton activé, la sélection Ajouter un autre horaire, le propriétaire du flux de données et le bouton appliquer sont tous mis en évidence.

Nettoyer les ressources

Si vous ne prévoyez pas de continuer à utiliser ce flux de données, supprimez-le en effectuant les étapes suivantes :

  1. Accédez à votre espace de travail Microsoft Fabric.

    Capture d’écran de la fenêtre Espaces de travail à partir de laquelle vous accédez à votre espace de travail.

  2. Sélectionnez les ellipses verticales en regard du nom de votre flux de données, puis sélectionnez Supprimer.

    Capture d’écran avec les ellipses verticales et l’option supprimer dans le menu déroulant mis en évidence.

  3. Sélectionnez Supprimer pour confirmer la suppression de votre flux de données.

    Capture d’écran de la fenêtre Supprimer le flux de données, avec le bouton Supprimer mis en évidence.

Le flux de données de cet exemple vous montre comment charger et transformer des données dans Flux de données Gen2. Vous avez appris à :

  • Créer un Flux de données Gen2.
  • Transformer les données.
  • Configurez les paramètres de destination pour les données transformées.
  • Exécutez et planifiez votre pipeline de données.

Passez à l’article suivant pour découvrir comment créer un pipeline de données.