Verificações e ingestão no Microsoft Purview

Este artigo fornece uma visão geral dos recursos de verificação e ingestão no Microsoft Purview. Esses recursos conectam sua conta do Microsoft Purview às suas fontes para preencher o mapa de dados e o catálogo de dados para que você possa começar a explorar e gerenciar seus dados por meio do Microsoft Purview.

  • A verificação captura metadados de fontes de dados e os traz para o Microsoft Purview.
  • A ingestão processa metadados e os armazena no catálogo de dados de ambos:
    • Verificações de fonte de dados – os metadados verificados são adicionados ao Mapa de Dados do Microsoft Purview.
    • Conexões de linhagem – os recursos de transformação adicionam metadados sobre suas fontes, saídas e atividades ao Mapa de Dados do Microsoft Purview.

Verificação

Depois que as fontes de dados são registradas em sua conta do Microsoft Purview, a próxima etapa é verificar as fontes de dados. O processo de verificação estabelece uma conexão com a fonte de dados e captura metadados técnicos como nomes, tamanho do arquivo, colunas e assim por diante. Ele também extrai esquema para fontes de dados estruturadas, aplica classificações em esquemas e aplica rótulos de confidencialidade se o Mapa de Dados do Microsoft Purview estiver conectado a um portal de conformidade do Microsoft Purview. O processo de verificação pode ser disparado para ser executado imediatamente ou pode ser agendado para ser executado periodicamente para manter sua conta do Microsoft Purview atualizada.

Para cada verificação, há personalizações que você pode aplicar para que você esteja apenas verificando as informações necessárias, em vez de toda a origem.

Escolha um método de autenticação para seus exames

O Microsoft Purview é seguro por padrão. Nenhuma senha ou segredos são armazenados diretamente no Microsoft Purview, portanto, você precisará escolher um método de autenticação para suas fontes. Há várias maneiras possíveis de autenticar sua conta do Microsoft Purview, mas nem todos os métodos têm suporte para cada fonte de dados.

  • Identidade Gerenciada
  • Entidade de Serviço
  • Autenticação SQL
  • Autenticação do Windows
  • Função ARN
  • Autenticação delegada
  • Chave do Consumidor
  • Chave de Conta ou Autenticação Básica

Sempre que possível, uma Identidade Gerenciada é o método de autenticação preferencial porque elimina a necessidade de armazenar e gerenciar credenciais para fontes de dados individuais. Isso pode reduzir consideravelmente o tempo que você e sua equipe gastam configurando e solução de problemas de autenticação para verificações. Quando você habilita uma identidade gerenciada para sua conta do Microsoft Purview, uma identidade é criada no Azure Active Directory e está vinculada ao ciclo de vida da sua conta.

Escopo da verificação

Ao examinar uma fonte, você tem a opção de examinar toda a fonte de dados ou escolher apenas entidades específicas (pastas/tabelas) para examinar. As opções disponíveis dependem da origem que você está examinando e podem ser definidas para verificações pontuais e agendadas.

Por exemplo, ao criar e executar uma verificação de um banco de dados SQL do Azure, você pode escolher quais tabelas examinar ou selecionar todo o banco de dados.

Para cada entidade (pasta/tabela), haverá três estados de seleção: totalmente selecionados, parcialmente selecionados e não selecionados. No exemplo abaixo, se você selecionar "Departamento 1" na hierarquia de pastas, "Departamento 1" será considerado como totalmente selecionado. As entidades-mãe do "Departamento 1" como "Empresa" e "exemplo" são consideradas parcialmente selecionadas, pois há outras entidades sob o mesmo pai que não foram selecionadas, por exemplo, "Departamento 2". Ícones diferentes serão usados na interface do usuário para entidades com diferentes estados de seleção.

Captura de tela que mostra o escopo da página de verificação.

Depois de executar a verificação, é provável que haja novos ativos adicionados no sistema de origem. Por padrão, os ativos futuros em um determinado pai serão selecionados automaticamente se o pai estiver totalmente ou parcialmente selecionado quando você executar a verificação novamente. No exemplo acima, depois de selecionar "Departamento 1" e executar a verificação, todos os novos ativos na pasta "Departamento 1" ou em "Empresa" e "exemplo" serão incluídos quando você executar a verificação novamente.

Um botão de alternância é introduzido para que os usuários controlem a inclusão automática de novos ativos em pai parcialmente selecionado. Por padrão, o alternância será desativado e o comportamento de inclusão automática para pai parcialmente selecionado está desabilitado. No mesmo exemplo com o alternância desativado, todos os novos ativos em pais parcialmente selecionados, como "Empresa" e "exemplo" não serão incluídos quando você executar a verificação novamente, apenas novos ativos em "Departamento 1" serão incluídos na verificação futura.

Captura de tela que mostra o escopo da página de verificação com o botão de alternância desativado.

Se o botão de alternância estiver ativado, os novos ativos em um determinado pai serão selecionados automaticamente se o pai estiver totalmente ou parcialmente selecionado quando você executar a verificação novamente. O comportamento de inclusão será o mesmo que antes do botão de alternância ser introduzido.

Captura de tela que mostra o escopo da página de verificação com o botão de alternância ativado.

Observação

  • A disponibilidade do botão de alternância dependerá do tipo de fonte de dados. Atualmente, ele está disponível em versão prévia pública para fontes como Armazenamento de Blobs do Azure, Azure Data Lake Storage Gen 1, Azure Data Lake Storage Gen 2, Arquivos do Azure e pool de SQL dedicado do Azure (antigo SQL DW).
  • Para quaisquer verificações criadas ou agendadas antes que o botão de alternância seja introduzido, o estado de alternância é definido como ativado e não pode ser alterado. Para quaisquer verificações criadas ou agendadas após a introdução do botão de alternância, o estado de alternância não pode ser alterado depois que a verificação for salva. Você precisa criar uma nova verificação para alterar o estado de alternância.
  • Quando o botão de alternância é desativado, para fontes do tipo de armazenamento como Azure Data Lake Storage Gen 2, pode levar até quatro horas até que a experiência de navegação por tipo de origem fique totalmente disponível após a conclusão do trabalho de verificação.

Limitações conhecidas

Quando o botão de alternância é desativado:

  • As entidades de arquivo em um pai parcialmente selecionado não serão examinadas.
  • Se todas as entidades existentes em um pai forem explicitamente selecionadas, o pai será considerado como totalmente selecionado e quaisquer novos ativos sob o pai serão incluídos quando você executar a verificação novamente.

Conjunto de regras de verificação

Um conjunto de regras de verificação determina os tipos de informações que uma verificação procurará quando estiver em execução em uma de suas fontes. As regras disponíveis dependem do tipo de origem que você está examinando, mas incluem coisas como os tipos de arquivo que você deve examinar e os tipos de classificações de que você precisa.

Existem conjuntos de regras de verificação do sistema já disponíveis para muitos tipos de fonte de dados, mas você também pode criar seus próprios conjuntos de regras de verificação para adaptar suas verificações à sua organização.

Agendar sua verificação

O Microsoft Purview oferece uma opção de verificação semanal ou mensal em um momento específico que você escolher. As verificações semanais podem ser apropriadas para fontes de dados com estruturas que estão ativamente em desenvolvimento ou com frequência. A verificação mensal é mais apropriada para fontes de dados que mudam com pouca frequência. A melhor prática é trabalhar com o administrador da origem que você deseja examinar para identificar um momento em que as demandas de computação na origem são baixas.

Como as verificações detectam ativos excluídos

Um catálogo do Microsoft Purview só está ciente do estado de um armazenamento de dados quando executa uma verificação. Para que o catálogo saiba se um arquivo, tabela ou contêiner foi excluído, ele compara a última saída de verificação com a saída de verificação atual. Por exemplo, suponha que na última vez que você examinou uma conta Azure Data Lake Storage Gen2, ela incluiu uma pasta chamada folder1. Quando a mesma conta é digitalizada novamente, a pasta1 está ausente. Portanto, o catálogo pressupõe que a pasta tenha sido excluída.

Detectar arquivos excluídos

A lógica para detectar arquivos ausentes funciona para várias verificações pelo mesmo usuário e por usuários diferentes. Por exemplo, suponha que um usuário execute uma verificação única em um Data Lake Storage Gen2 armazenamento de dados nas pastas A, B e C. Posteriormente, um usuário diferente na mesma conta executa uma verificação única diferente nas pastas C, D e E do mesmo armazenamento de dados. Como a pasta C foi digitalizada duas vezes, o catálogo verifica se há possíveis exclusões. As pastas A, B, D e E, no entanto, foram examinadas apenas uma vez e o catálogo não as marcar para ativos excluídos.

Para manter arquivos excluídos fora do catálogo, é importante executar verificações regulares. O intervalo de verificação é importante, pois o catálogo não pode detectar ativos excluídos até que outra verificação seja executada. Portanto, se você executar verificações uma vez por mês em um determinado repositório, o catálogo não poderá detectar nenhum ativo de dados excluído nesse repositório até que você execute a próxima verificação um mês depois.

Quando você enumera grandes armazenamentos de dados como Data Lake Storage Gen2, há várias maneiras (incluindo erros de enumeração e eventos descartados) de perder informações. Uma verificação específica pode perder que um arquivo foi criado ou excluído. Portanto, a menos que o catálogo tenha certeza de que um arquivo foi excluído, ele não o excluirá do catálogo. Essa estratégia significa que pode haver erros quando um arquivo que não existe no armazenamento de dados digitalizado ainda existe no catálogo. Em alguns casos, um armazenamento de dados pode precisar ser verificado duas ou três vezes antes de capturar determinados ativos excluídos.

Observação

  • Os ativos marcados para exclusão são excluídos após uma verificação bem-sucedida. Os ativos excluídos podem continuar visíveis em seu catálogo por algum tempo antes de serem processados e removidos.
  • Atualmente, não há suporte para detecção de exclusão de origem para as seguintes fontes: Azure Databricks, Amazon Redshift, Cassandra, DB2, Erwin, Google BigQuery, Hive Metastore, Looker, MongoDB, MySQL, Oracle, PostgreSQL, Salesforce, SAP BW, SAP ECC, SAP HANA, SAP S/4HANA, Snowflake e Teradata. Quando o objeto é excluído da fonte de dados, a verificação subsequente não removerá automaticamente o ativo correspondente no Microsoft Purview.

Ingestão

A ingestão é o processo responsável por preencher o mapa de dados com metadados coletados por meio de seus vários processos.

Ingestão de exames

Os metadados técnicos ou classificações identificados pelo processo de verificação são então enviados para ingestão. A ingestão analisa a entrada da verificação, aplica padrões de conjunto de recursos, preenche informações de linhagem disponíveis e carrega o mapa de dados automaticamente. Os ativos/esquemas só podem ser descobertos ou curados após a conclusão da ingestão. Portanto, se a verificação for concluída, mas você não tiver visto seus ativos no mapa de dados ou catálogo, precisará aguardar a conclusão do processo de ingestão.

Ingestão de conexões de linhagem

Recursos como Azure Data Factory e Azure Synapse podem ser conectados ao Microsoft Purview para trazer informações de fonte de dados e linhagem para seu Mapa de Dados do Microsoft Purview. Por exemplo, quando um pipeline de cópia é executado em um Azure Data Factory que foi conectado ao Microsoft Purview, metadados sobre as fontes de entrada, a atividade e as fontes de saída são ingeridos no Microsoft Purview e as informações são adicionadas ao mapa de dados.

Se uma fonte de dados já tiver sido adicionada ao mapa de dados por meio de uma verificação, as informações de linhagem sobre a atividade serão adicionadas à origem existente. Se a fonte de dados ainda não tiver sido adicionada ao mapa de dados, o processo de ingestão de linhagem o adicionará à coleção raiz com suas informações de linhagem.

Para obter mais informações sobre as conexões de linhagem disponíveis, consulte o guia do usuário de linhagem.

Próximas etapas

Para obter mais informações ou para obter instruções específicas para as fontes de verificação, siga os links abaixo.