Descobrir dados

O Azure Databricks fornece um conjunto de ferramentas e produtos que simplificam a descoberta de ativos de dados acessíveis por meio da Plataforma Data Intelligence do Databricks. Este artigo fornece uma visão geral opinativa de como você pode descobrir e visualizar dados que já foram configurados para acesso em seu workspace.

Os tópicos desta seção se concentram na exploração de objetos de dados e arquivos de dados. Se você estiver procurando informações sobre como trabalhar com ativos como notebooks, consultas SQL, bibliotecas e modelos, consulte Navegar no workspace.

Se você estiver buscando orientações sobre como gerar estatísticas resumidas para conjuntos de dados ou outras tarefas associadas à análise exploratória de dados (EDA), consulte análise de dados exploratórios no Azure Databricks: ferramentas e técnicas.

Como você pode descobrir ativos de dados?

As ferramentas de descoberta de dados no Azure Databricks se enquadram nas seguintes categorias gerais:

  • Insights, resumo e pesquisa assistidos por IA.
  • Pesquisa de palavras-chave.
  • Exploração de catálogo usando a interface do usuário.
  • Listagem programática e exploração de metadados.

As ferramentas de descoberta de dados são otimizadas para dados regidos pelo Catálogo do Unity. Os ativos de dados que não foram registrados como objetos do Catálogo do Unity podem não ser detectáveis usando algumas dessas abordagens.

Localizar dados usando a interface do usuário

O Explorador de Catálogos fornece ferramentas para explorar e controlar ativos de dados. Você acessa o Explorador de Catálogos usando o Ícone do catálogo Catálogo na barra lateral do workspace. Confira O que é o Explorador de Catálogos?.

Notebooks e o editor de consultas SQL também fornecem um navegador de catálogo para explorar objetos de banco de dados. Clique no ícone Catálogo nessas interfaces para expandir ou recolher o navegador do catálogo sem sair do editor de código.

Depois de descobrir um conjunto de dados de interesse, você pode usar a guia Insights para saber como os dados estão sendo usados em seu workspace. Consulte Exibir usuários e consultas frequentes de um tabela.

Explorar dados programaticamente

Você pode usar o comando SHOW em todos os objetos de banco de dados para descobrir ativos registrados no Catálogo do Unity. Use o comando LIST, o comando %fs magic ou os Utilitários do Databricks para listar arquivos.

Consulte Explorar o armazenamento e localizar arquivos de dados e Explorar objetos de banco de dados.

Examinar comentários de dados

Você pode examinar os comentários para saber mais sobre o conteúdo dos conjuntos de dados disponíveis em seu lakehouse. Os comentários podem ser definidos em objetos de dados, incluindo catálogos, esquemas, tabelas e colunas. Você pode exibir comentários no Explorador de Catálogos ou usando o comando DESCRIBE para um objeto.

O Explorador de Catálogo pode fornecer comentários gerados por IA para tabelas, o que facilita que os proprietários de ativos de dados forneçam uma visão geral avançada dos conjuntos de dados. Confira Adicionar comentários gerados por IA a objetos do Catálogo do Unity.

Os usuários também podem, opcionalmente, fornecer comentários sobre tabelas e outros objetos de banco de dados usando markdown, que é renderizado no Explorador de Catálogos. Consulte Adicionar comentários a dados e ativos de IA.

Procure tabelas no lakehouse

Você pode usar a barra de pesquisa no Azure Databricks para encontrar tabelas registradas no Catálogo do Unity. Você pode executar uma pesquisa de palavra-chave ou usar a pesquisa semântica para localizar conjuntos de dados ou colunas relacionadas à consulta de pesquisa. A pesquisa só retorna resultados para tabelas que você tem permissão para ver. A pesquisa analisa nomes de tabela, nomes de coluna, comentários de tabela e comentários de coluna. Consulte Pesquisar objetos do espaço de trabalho.