Tutoriel : Analyser les rapports d’inventaire d’objets blob

En comprenant comment vos objets blob et conteneurs sont stockés, organisés et utilisés en production, vous pouvez mieux optimiser les compromis entre les coûts et les performances.

Ce tutoriel vous montre comment générer et visualiser des statistiques telles que la croissance des données au fil du temps, les données ajoutées au fil du temps, le nombre de fichiers modifiés, les tailles d’instantanés d’objets blob, les modèles d’accès sur chaque niveau et la façon dont les données sont distribuées actuellement et au fil du temps (par exemple : données entre les niveaux, les types de fichiers, dans les conteneurs et les types d’objets blob).

Dans ce tutoriel, vous allez apprendre à :

  • Générer un rapport d’inventaire d’objets blob
  • Configurer un espace de travail Synapse
  • Configurer Synapse Studio
  • Générer des données analytiques dans Synapse Studio
  • Visualiser les résultats dans Power BI

Prérequis

Générer un rapport d’inventaire

Activez les rapports d’inventaire des objets blob à votre compte de stockage. Voir Activer les rapports d’inventaire d’objets blob de stockage Azure.

Vous devrez peut-être attendre jusqu’à 24 heures après avoir activé les rapports d’inventaire pour que votre premier rapport soit généré.

Configurer un espace de travail Synapse

  1. Créer un espace de travail Azure Synapse. Voir Créer un espace de travail Azure Synapse.

    Notes

    Dans le cadre de la création de l’espace de travail, vous allez créer un compte de stockage qui a un espace de noms hiérarchique. Azure Synapse stocke les tables Spark et les journaux d’application dans ce compte. Azure Synapse fait référence à ce compte en tant que compte de stockage principal. Pour éviter toute confusion, cet article utilise le terme compte de rapport d’inventaire pour faire référence au compte qui contient des rapports d’inventaire.

  2. Dans l’espace de travail Synapse, attribuez le rôle Contributeur à votre identité d’utilisateur. Voir Azure RBAC : Rôle de Propriétaire de l'espace de travail.

  3. Donnez à l’espace de travail Synapse l’autorisation d’accéder aux rapports d’inventaire dans votre compte de stockage en accédant à votre compte de rapport d’inventaire, puis en attribuant le rôle Contributeur aux données Blob de stockage à l’identité managée système de l’espace de travail. Voir Attribuer des rôles Azure à l’aide du portail Azure.

  4. Accédez au compte de stockage principal et attribuez le rôle Contributeur au stockage Blob à votre identité d’utilisateur.

Configurer Synapse Studio

  1. Ouvrez votre espace de travail Synapse dans Synapse Studio. Consultez Ouvrir Synapse Studio.

  2. Dans Synapse Studio, assurez-vous que le rôle Administrateur Synapse est attribué à votre identité. Voir Synapse RBAC : Rôle d'Administrateur Synapse de l'espace de travail.

  3. Créer un pool Apache Spark. Consultez Créer un pool Apache Spark serverless.

Configurer et exécuter l’exemple de notebook

Dans cette section, vous allez générer des données statistiques que vous allez visualiser dans un rapport. Pour simplifier ce didacticiel, cette section utilise un exemple de fichier de configuration et un exemple de notebook PySpark. Le notebook contient une collection de requêtes qui s’exécutent dans Azure Synapse Studio.

Modifier et charger l’exemple de fichier de configuration

  1. Téléchargez le fichier BlobInventoryStorageAccountConfiguration.json .

  2. Mettez à jour les espaces réservés suivants de ce fichier :

    • Définissez storageAccountName sur le nom de votre compte de rapport d’inventaire.

    • Définissez destinationContainer sur le nom du conteneur qui contient les rapports d’inventaire.

    • Définissez blobInventoryRuleName sur le nom de la règle de rapport d’inventaire qui a généré les résultats que vous souhaitez analyser.

    • Définissez accessKey sur la clé de compte du compte de rapport d’inventaire.

  3. Chargez ce fichier dans le conteneur de votre compte de stockage principal que vous avez spécifié lorsque vous avez créé l’espace de travail Synapse.

Importer l’exemple de notebook PySpark

  1. Téléchargez l’exemple de notebook ReportAnalysis.ipynb .

    Notes

    Veillez à enregistrer ce fichier avec l’extension .ipynb .

  2. Ouvrez votre espace de travail Synapse dans Synapse Studio. Consultez Ouvrir Synapse Studio.

  3. Dans Synapse Studio, sélectionnez l’onglet Développer.

  4. Sélectionnez le grand signe plus (+) pour ajouter un élément.

  5. Sélectionnez Importer, accédez à l’exemple de fichier que vous avez téléchargé, sélectionnez ce fichier, puis sélectionnez Ouvrir.

    La boîte de dialogue Properties (Propriétés) s’affiche.

  6. Dans la boîte de dialogue Propriétés , sélectionnez le lien Configurer la session .

    Capture d’écran de la boîte de dialogue Importer les propriétés

    La boîte de dialogue Configurer la session s’ouvre.

  7. Dans la liste déroulante Attacher à de la boîte de dialogue Configurer la session, sélectionnez le pool Spark que vous avez créé précédemment dans cet article. Ensuite, sélectionnez le bouton Appliquer.

Modifier le notebook Python

  1. Dans la première cellule du notebook Python, définissez la valeur de la variable storage_account sur le nom du compte de stockage principal.

  2. Mettez à jour la valeur de la variable container_name avec le nom du conteneur dans ce compte que vous avez spécifié lors de la création de l’espace de travail Synapse.

  3. Cliquez sur le bouton Publier.

Exécuter le notebook PySpark

  1. Dans le notebook PySpark, sélectionnez Exécuter tout.

    Le démarrage de la session Spark prend quelques minutes et quelques minutes supplémentaires pour traiter les rapports d’inventaire. La première exécution peut prendre un certain temps s’il existe de nombreux rapports d’inventaire à traiter. Les exécutions suivantes traitent uniquement les nouveaux rapports d’inventaire créés depuis la dernière exécution.

    Notes

    Si vous apportez des modifications au bloc-notes que le bloc-notes est en cours d’exécution, veillez à publier ces modifications à l’aide du bouton Publier .

  2. Vérifiez que le notebook s’est correctement exécuté en sélectionnant l’onglet Données .

    Une base de données nommée reportdata doit apparaître sous l’onglet Espace de travail du volet Données . Si cette base de données n’apparaît pas, vous devrez peut-être actualiser la page web.

    Capture d’écran du volet Données qui montre la base de données de rapports

    La base de données contient un ensemble de tables. Chaque table contient des informations obtenues en exécutant les requêtes à partir du notebook PySpark.

  3. Pour examiner le contenu d’une table, développez le dossier Tables de la base de données reportdata . Cliquez ensuite avec le bouton droit sur une table, sélectionnez Sélectionner un script SQL, puis sélectionnez Sélectionner les 100 premières lignes.

    Capture d’écran de l’option de menu permettant de créer un script sql

  4. Vous pouvez modifier la requête en fonction des besoins, puis sélectionner Exécuter pour afficher les résultats.

    Capture d’écran de l’éditeur de requête et des résultats de la requête

Visualiser les données

  1. Téléchargez l’exemple de fichier de rapport ReportAnalysis.pbit .

  2. Ouvrez Power BI Desktop. Pour obtenir des conseils d’installation, consultez Obtenir Power BI Desktop.

  3. Dans Power BI, sélectionnez Fichier, Ouvrir un rapport, puis Parcourir les rapports.

  4. Dans la boîte de dialogue Ouvrir, remplacez le type de fichier par Fichiers de modèle Power BI (*.pbit).

    Capture d’écran du type de fichiers de modèle Power BI qui apparaît dans la boîte de dialogue Ouvrir

  5. Accédez à l’emplacement du fichier ReportAnalysis.pbit que vous avez téléchargé, puis sélectionnez Ouvrir.

    Une boîte de dialogue s’affiche et vous demande de fournir le nom de l’espace de travail Synapse et le nom de la base de données.

  6. Dans la boîte de dialogue, définissez le champ synapse_workspace_name sur le nom de l’espace de travail et définissez le champ database_name sur reportdata. Ensuite, sélectionnez le bouton Charger .

    Capture d’écran de la boîte de dialogue configuration du rapport

    Un rapport s’affiche qui fournit des visualisations des données récupérées par le bloc-notes. Les images suivantes montrent les types de graphiques et de graphiques qui apparaissent dans ce rapport.

    Capture d’écran de l’onglet Vue d’ensemble du rapport

    Capture d’écran de l’onglet Analyse détaillée du rapport

    Capture d’écran de l’onglet répartition du rapport

Étapes suivantes