Découvrir des données

Azure Databricks fournit une suite d’outils et de produits qui simplifient la découverte des ressources de données accessibles via la plateforme Databricks Data Intelligence. Cet article fournit une vue d’ensemble avisée de la façon dont vous pouvez découvrir et afficher un aperçu des données qui ont déjà été configurées pour l’accès dans votre espace de travail.

Les rubriques de cette section sont axées sur l’exploration des objets de données et des fichiers de données. Si vous recherchez des informations sur l’utilisation de ressources telles que des notebooks, des requêtes SQL, des bibliothèques et des modèles, consultez Parcourir l’espace de travail.

Si vous recherchez des conseils sur la génération de statistiques récapitulatives pour les jeux de données ou d’autres tâches associées à l’analyse exploratoire des données (EDA), consultez Analyse exploratoire des données dans Azure Databricks : outils et techniques.

Comment faire pour découvrir des ressources de données ?

Les outils de découverte de données sur Azure Databricks appartiennent aux catégories générales suivantes :

  • Insights, résumés et recherches assistés par l’IA
  • Recherche par mot clé
  • Exploration de catalogue à l’aide de l’interface utilisateur
  • Exploration de métadonnées et établissement de listes par programmation

Les outils de découverte de données sont optimisés pour les données régies par Unity Catalog. Les ressources de données qui n’ont pas été inscrites en tant qu’objets Unity Catalog peuvent ne pas être détectables à l’aide de certaines de ces approches.

Rechercher des données à l’aide de l’interface utilisateur

Catalog Explorer fournit des outils permettant d’explorer et de régir des ressources de données. Vous accédez à Catalog Explorer en sélectionnant icône Catalogue Catalogue dans la barre latérale de l’espace de travail. Consultez Qu’est-ce que Catalog Explorer ?.

Les notebooks et l’éditeur de requête SQL fournissent également un navigateur de catalogue pour l’exploration des objets de base de données. Cliquez sur l’icône Catalogue dans ces interfaces pour développer ou réduire le navigateur du catalogue sans quitter votre éditeur de code.

Une fois que vous avez découvert un jeu de données intéressant, vous pouvez utiliser l’onglet Insights pour découvrir comment les données sont utilisées dans votre espace de travail. Consultez Afficher les requêtes et les utilisateurs fréquents d’une table.

Explorer des données par programmation

Vous pouvez utiliser la commande SHOW sur tous les objets de base de données pour découvrir les ressources inscrites auprès de Unity Catalog. Utilisez la commande LIST, la commande magic %fs ou Databricks Utilities pour répertorier les fichiers.

Consultez Explorer le stockage et rechercher des fichiers de données et Explorer des objets de base de données.

Passer en revue les commentaires des données

Vous pouvez consulter les commentaires pour en savoir plus sur le contenu des jeux de données disponibles dans votre lakehouse. Les commentaires peuvent être définis sur des objets de données, notamment des catalogues, des schémas, des tables et des colonnes. Vous pouvez afficher les commentaires dans Catalog Explorer ou à l’aide de la commande DESCRIBE pour un objet.

Catalog Explorer peut fournir des commentaires générés par l’IA pour les tables, ce qui permet aux propriétaires de ressources de données de fournir aisément une vue d’ensemble complète des jeux de données. Consultez Ajouter des commentaires générés par l’IA à une table.

Les utilisateurs peuvent également fournir des commentaires sur des tables et d’autres objets de base de données à l’aide de Markdown, qui est rendu dans Catalog Explorer. Consultez Ajouter des commentaires aux ressources Données et IA.

Rechercher des tables dans votre lakehouse

Vous pouvez utiliser la barre de recherche dans Azure Databricks pour rechercher des tables inscrites auprès de Unity Catalog. Vous pouvez effectuer une recherche par mot clé, ou utiliser la recherche sémantique pour rechercher des jeux de données ou des colonnes liés à votre requête de recherche. La recherche retourne uniquement les résultats pour les tables que vous avez l’autorisation de voir. La recherche examine les noms de tables, les commentaires de table, les noms de colonnes et les commentaires de colonne. Consultez Recherche des objets de l’espace de travail.