Padrões de metadados
O Gerenciamento de Metadados desempenha um papel crucial na arquitetura de dados. Metadados são dados sobre outros dados. Eles descrevem os dados, fornecendo uma referência que ajuda você a localizar, proteger e controlar os dados. Os metadados também associam dados. Eles podem ser usados para validar a integridade e a qualidade dos dados, rotear ou replicar dados para um novo local, transformar os dados e conhecer os significados dos dados. Os metadados também são essenciais na democratização de dados por meio de portais de autoatendimento.
Há uma tendência cada vez maior no setor de aproximar os insights de dados dos analistas de dados e dos cientistas usando portais que usam mais metadados. Essa tendência é conhecida como observabilidade de dados. A observabilidade de dados usa conceitos como o lake de metadados, grafos de conhecimento ou grafos de metadados para descrever plataformas em que os metadados são centralizados. É uma boa maneira de criar uma visão unificada de como os dados são usados e originados em toda a sua organização ao usar uma malha de dados distribuída.
Uma boa estratégia de gerenciamento de metadados cresce organicamente. Ela começa simples e pequena identificando primeiro as áreas mais importantes. Também há suporte para uma boa estratégia de gerenciamento de metadados com serviços e processos bem definidos. Para começar, é bom estar ciente das diferentes categorias de metadados:
- Os Metadados de negócios descrevem todos os aspectos usados para governança, localização e compreensão dos dados. Alguns exemplos conhecidos incluem termos e definições de negócios e informações sobre propriedade, uso e origem de dados.
- Os metadados técnicos descrevem os aspectos estruturais dos dados em tempo de design. Alguns exemplos conhecidos incluem informações de esquema, informações de formato de dados e protocolo e chaves de criptografia e descriptografia.
- Os metadados operacionais descrevem os aspectos de processamento dos dados em tempo de execução. Alguns exemplos conhecidos incluem informações de processo, tempo de execução, informações de falha de processo e IDs de trabalho.
- Os metadados sociais descrevem a perspectiva do usuário dos dados dos consumidores deles. Alguns exemplos conhecidos incluem informações de uso e acompanhamento do usuário, dados de resultado da pesquisa, filtros e cliques, tempo de exibição, visitas de perfil e comentários.
Na arquitetura de dados descentralizados, o gerenciamento de metadados é um desafio organizacional que exige encontrar um equilíbrio entre os metadados gerenciados centralmente e os metadados gerenciados federados. É importante que você entenda as equipes e as funções para a análise em escala de nuvem no Azure enquanto planeja o gerenciamento de metadados. O uso de uma prática colaborativa de gerenciamento de dados aprimora a comunicação, a integração e a automação de fluxo de dados entre suas equipes. Você pode abordar algumas das complexidades do gerenciamento de metadados atingindo o equilíbrio certo entre a governança central e a propriedade do domínio.
Conforme você decide sobre quais metadados serão gerenciados centralmente ou federados para seus domínios de dados e inicie a implementação, faça estas perguntas:
- Quais metadados de negócios são críticos?
- Quais metadados técnicos são necessários para interoperabilidade?
- Quais processos e fluxos capturam os dados?
- Onde os modelos ou os esquemas são criados e mantidos?
- Quais informações as equipes precisam fornecer centralmente para permitir que o departamento de governança de dados realize o trabalho corretamente?
Usando suas respostas para essas perguntas, mapeie o ciclo de vida do conteúdo para cada um dos fluxos de metadados e determine todas as dependências. Em seguida, você terá um modelo de metadados que pode conectar domínios de negócios, processos, tecnologia e dados.
Depois de saber os metadados de que você precisa, escolha um local para armazená-los e processá-los. Você pode fazer isso usando o Microsoft Purview.
Usar o Microsoft Purview para gerenciar seu patrimônio de dados em geral
O Microsoft Purview é uma solução unificada de governança de dados que ajuda você a gerenciar e controlar seus dados locais, multinuvem e de SaaS (software como serviço). Ele faz o gerenciamento de metadados em escala, porque é um serviço totalmente automatizado que executa de forma inteligente a descoberta de dados, a verificação de dados, a qualidade dos dados e o gerenciamento de acesso. Também fornece um mapa holístico de vários insights sobre a sua arquitetura de malha de dados.
O Microsoft Purview é um conjunto abrangente de soluções que pode ajudar sua organização a governar, proteger e gerenciar dados, onde quer que eles residam. As soluções do Microsoft Purview fornecem cobertura integrada e ajudam a lidar com a fragmentação de dados entre organizações, a falta de visibilidade que dificulta a proteção e a governança de dados e a crescente indefinição das funções tradicionais de gerenciamento de TI.
O Microsoft Purview combina soluções e serviços de governança e conformidade de dados em uma plataforma unificada para ajudar sua organização a:
- Obter visibilidade dos dados em toda a sua organização
- Proteger e gerenciar dados confidenciais em todo o seu ciclo de vida, onde quer que estejam
- Governar os dados de maneiras novas e abrangentes
- Gerenciar riscos críticos de dados e requisitos regulatórios
Ao implementar o Microsoft Purview, não introduza muitas alterações e complexidade rapidamente. Os metadados técnicos são a base do Microsoft Purview. Você precisa reunir e organizar seus metadados para entendê-los.
Quando tiver os metadados, comece com o básico:
- Termos empresariais
- Listas de fontes de dados autoritativas
- Listas de bancos de dados
- Domínios de governança
- Informação do esquema
- Propriedade de dados
- Administração de dados
- Segurança
- Qualidade dos dados
Em seguida, aumente isso lentamente envolvendo mais proprietários de domínio e administradores de dados e adicionando mais classificações e rótulos de confidencialidade. Essas adições aprimoram a experiência de pesquisa e permitem um melhor gerenciamento de acesso aos dados.
O Microsoft Purview oferece um recurso chamado Domínios de governança, que estabelecem limites para governança unificada, propriedade e descoberta de produtos de dados e conceitos de negócios em sua arquitetura orientada a domínio. Para obter mais informações, consulte Domínios de governança no Microsoft Purview.
Usar o Azure Cosmos DB para criar um grafo de conhecimento
Uma solução de insights de dados precisa descrever como os dados são usados e as relações entre as entidades como dados de origem e produtos de dados e entre os produtos de dados de um domínio e os produtos dependentes de outro domínio. Você pode usar um banco de dados de grafo ou uma interface do usuário personalizada para modelar essas relações.
Para criar uma exibição unificada dos dados da sua organização com a experiência personalizada do usuário, analise o Azure Cosmos DB. O Azure Cosmos DB é um serviço de banco de dados multimodelo distribuído globalmente com pontos de extremidade NoSQL. Fornece um serviço de banco de dados de gráficos por meio do Azure Cosmos DB para Apache Gremlin para armazenar gráficos enormes com bilhões de vértices e bordas.
O resultado final da arquitetura do Azure Cosmos DB é um grafo de toda a organização que fornece uma exibição unificada de todos os dados em sua organização usando o contexto de ponta a ponta. O lake de metadados não trata apenas de armazenar informações. Ele também organiza ativamente seus metadados como um grafo conectando-os a outros serviços e ferramentas. Esse grafo organizado permite que você correlacione diversas áreas de assuntos, incluindo:
- Domínios
- Qualidade dos dados
- Uso de dados
- Funcionalidades empresariais
- Funções de aplicativo
- Informação de arquitetura técnica
- Eventos operacionais
- Metadados organizacionais
- Metadados de propriedade do aplicativo
- Informações de Local
- Informação sobre o gerenciamento do ciclo de vida do aplicativo