Обнаружение данных

Azure Databricks предоставляет набор средств и продуктов, упрощающих обнаружение ресурсов данных, доступных через платформу Databricks Data Intelligence. В этой статье представлен обзор того, как можно обнаруживать и просматривать данные, которые уже настроены для доступа в рабочей области.

В этом разделе рассматриваются объекты данных и файлы данных. Если вы ищете сведения о работе с ресурсами, такими как записные книжки, запросы SQL, библиотеки и модели, см . статью "Навигация по рабочей области".

Если вы ищете рекомендации по созданию сводной статистики для наборов данных или других задач, связанных с анализом аналитических данных (EDA), ознакомьтесь с аналитическим анализом данных в Azure Databricks: сервис и методы.

Как обнаружить ресурсы данных?

Средства обнаружения данных в Azure Databricks делятся на следующие общие категории:

  • Аналитические сведения, сводка и поиск с помощью ИИ.
  • Поиск по ключевому слову.
  • Просмотр каталога с помощью пользовательского интерфейса.
  • Программное описание и исследование метаданных.

Средства обнаружения данных оптимизированы для данных, управляемых каталогом Unity. Ресурсы данных, которые не были зарегистрированы в качестве объектов каталога Unity, могут быть недоступны для обнаружения с помощью некоторых из этих подходов.

Поиск данных с помощью пользовательского интерфейса

Обозреватель каталогов предоставляет средства для изучения и управления ресурсами данных. Вы обращаетесь к обозревателе каталогов Значок каталога с помощью каталога на боковой панели рабочей области. См. раздел "Что такое обозреватель каталогов?".

Записные книжки и редактор запросов SQL также предоставляют навигатор каталога для изучения объектов базы данных. Щелкните значок каталога в этих интерфейсах, чтобы развернуть или свернуть навигатор каталога, не выходя из редактора кода.

После обнаружения интересующего набора данных можно использовать вкладку "Аналитика ", чтобы узнать, как данные используются в рабочей области. Просмотр частых запросов и пользователей таблицы.

Программное изучение данных

Для обнаружения ресурсов, зарегистрированных в каталоге SHOW Unity, можно использовать команду для всех объектов базы данных. LIST Используйте команду, магическую команду или служебные %fs программы Databricks для перечисления файлов.

Ознакомьтесь со сведениями о хранилище и поиске файлов данных и поиске объектов базы данных.

Просмотр комментариев к данным

Вы можете просмотреть комментарии, чтобы узнать о содержимом наборов данных, доступных в lakehouse. Примечания можно задать для объектов данных, включая каталоги, схемы, таблицы и столбцы. Комментарии можно просмотреть в обозревателе каталога или с помощью DESCRIBE команды для объекта.

Обозреватель каталогов может предоставлять примечания, созданные ИИ для таблиц, что упрощает использование владельцев ресурсов данных для предоставления полного обзора наборов данных. См. сведения о добавлении примечаний, созданных ИИ, в объекты каталога Unity.

Пользователи также могут предоставлять комментарии к таблицам и другим объектам базы данных с помощью markdown, который отображается в обозревателе каталогов. См. раздел "Добавление комментариев к данным и ресурсам ИИ".

Поиск таблиц в lakehouse

Панель поиска в Azure Databricks можно использовать для поиска таблиц, зарегистрированных в каталоге Unity. Вы можете выполнить поиск по ключевым словам или использовать семантический поиск для поиска наборов данных или столбцов, связанных с запросом поиска. Поиск возвращает только результаты для таблиц, которые у вас есть разрешение на просмотр. Поиск проверяет имена таблиц, имена столбцов, примечания к таблицам и примечания к столбцам. См. статью "Поиск объектов рабочей области".