Visão geral da zona de destino de gerenciamento de dados da análise de escala de nuvem
A zona de destino de gerenciamento de dados é uma função de gerenciamento central para a análise em escala de nuvem. Ela é responsável pela governança de sua plataforma de análise.
A zona de destino de gerenciamento de dados é uma assinatura separada com os serviços padrão de uma zona de destino do Azure. Ela permite a governança dos dados por meio de rastreadores, que se conectam aos data lakes e ao armazenamento poliglota nas zonas de destino de dados. O emparelhamento de rede virtual conecta a zona de destino de gerenciamento de dados às zonas de destino de dados e à assinatura de conectividade.
Use essa arquitetura como um ponto de partida. Baixe o arquivo Visio e modifique-o para ajustá-lo aos seus requisitos técnicos e comerciais específicos ao planejar a implementação da zona de destino de gerenciamento de dados.
Observação
A persistência poliglota é um termo de armazenamento que descreve sua escolha entre diferentes tecnologias de armazenamento de dados/armazenamentos de dados para dar suporte a seus vários tipos de dados e suas necessidades de armazenamento. Essencialmente, a persistência poliglota é o conceito de que um aplicativo pode usar mais de um banco de dados principal ou tecnologia de armazenamento.
Importante
Sua zona de destino de gerenciamento de dados deve ser implantada como uma assinatura separada em um grupo de gerenciamento com a governança apropriada. Assim, é possível controlar a governança em toda a organização. O acelerador de zona de destino do Azure ilustra como abordar essas zonas.
Catálogo de dados
Grupo de recursos: governance-rg
O catálogo de dados registra e mantém as informações dos dados em um local centralizado e as disponibiliza para a organização. Ele garante que as empresas evitem produtos de dados duplicados causados pela ingestão de dados redundantes por diferentes equipes de projeto.
Recomendamos que você crie um serviço de catálogo de dados para definir os metadados dos produtos de dados armazenados nas zonas de destino de dados.
A análise em escala de nuvem depende do Microsoft Purview para registrar fontes de dados corporativas, classificá-las, garantir a qualidade dos dados e oferecer acesso seguro e de autoatendimento.
O Microsoft Purview é um serviço baseado em locatário e pode se comunicar com cada zona de destino de dados criando uma Rede Virtual Gerenciada implantada na região de suas zonas de destino de dados. Você pode implantar o Rede Virtual gerenciada do Microsoft Azure Integration Runtimes (IR) nas Redes Virtuais Gerenciadas do Microsoft Purview em qualquer região disponível do Microsoft Purview. A partir daí, o IR da rede virtual gerenciada pode usar pontos de extremidade privados para se conectar com segurança e verificar as fontes de dados com suporte. Para obter mais informações, consulte Usar a rede virtual gerenciada com sua conta do Microsoft Purview. A criação de uma IR de rede virtual gerenciada na rede virtual gerenciada garante que o processo de integração de dados seja isolado e seguro.
Observação
Embora esta documentação se concentre principalmente no uso do Microsoft Purview para governança, as empresas podem ter investido em outros produtos, como Alation, Okera ou Collibra. Essas soluções são baseadas em assinatura e recomendamos implantá-las na zona de destino de gerenciamento de dados. Esteja ciente de que isso poderá exigir algumas integrações personalizadas.
Para mais informações, consulte Catálogo de Dados e Práticas recomendadas de implantação do Microsoft Purview para análise em escala de nuvem.
Gerenciamento da qualidade dos dados
Grupo de recursos: governance-rg2
Continue com sua solução atual.
Você deve gerenciar a qualidade dos dados o mais próximo possível de sua fonte de dados para evitar a replicação de problemas de qualidade em sua propriedade de análise e IA. Mover a validação e as métricas de qualidade para sua integração de dados alinha o processo de qualidade com as equipes que estão mais próximas deles. Essas equipes têm a melhor compreensão do seu ativo de dados.
A linhagem de dados também garante a confiança na qualidade de dados e deve ser fornecida para todos os produtos e produtos de dados.
Para saber mais sobre o gerenciamento da qualidade de dados, confira Qualidade de dados.
Repositório de modelagem de dados
Grupo de recursos: governance-rg2
Você deve capturar e armazenar modelos de relação de entidade em um local central na zona de destino de gerenciamento de dados. Isso fornece aos consumidores de dados um único local para encontrar diagramas conceituais.
Muitos clientes usam o ER Studio e o iServer para modelar produtos de dados antes da ingestão.
Gerenciamento de dados mestre
Grupo de recursos: governance-rg2
O controle do gerenciamento de dados mestre reside na zona de destino de gerenciamento de dados. Gerenciamento de dados mestre na malha de dados contém considerações específicas sobre a malha de dados.
Muitas soluções de gerenciamento de dados mestres se integram totalmente ao Microsoft Entra ID. A integração permite que você proteja os dados e forneça diferentes exibições para diferentes grupos de usuários.
Para saber mais, confira Sistema de gerenciamento de dados mestre.
Catálogo de API
Grupo de recursos: governance-rg2
Suas equipes de aplicativos de dados provavelmente criarão várias APIs para o aplicativo de dados delas. Pode ser difícil descobrir essas APIs em toda a organização. A colocação de um catálogo de API na zona de destino de gerenciamento de dados pode ajudar a resolver esse problema.
O catálogo de APIs pode ajudar a padronizar a documentação e oferece um local para colaboração interna em relação a APIs. Ele também pode ajudar a aumentar o consumo, a publicação e os controles de governança em toda a organização.
Compartilhamento de dados e contratos
Grupo de recursos: governance-rg2
A análise em escala de nuvem usa o gerenciamento de direitos do Microsoft Entra ou as políticas do Microsoft Purview para controlar o acesso ao compartilhamento de dados. Mesmo assim, você ainda pode precisar de um repositório de compartilhamento e contrato. Esse repositório é uma função organizacional e deve residir na zona de destino de gerenciamento de dados.
Seus contratos devem fornecer informações sobre validação de dados, modelos e políticas de segurança.
Para saber mais, confira Contratos de dados
Registro de Contêiner do Azure
Grupo de recursos: containers-rg
A zona de destino de gerenciamento de dados hospeda um Registro de Contêiner do Azure. Ele permite que suas operações de plataforma de dados implantem contêineres padrão para uso em projetos de ciência de dados consumidos por suas equipes de aplicativos de dados.
Hubs de Link Privado do Azure Synapse
Grupo de recursos: synapse-link-rg
Os hubs de Link Privado do Azure Synapse Analytics são recursos do Azure que atuam como conectores entre sua rede protegida e a experiência da Web do Azure Synapse Studio. A análise em escala de nuvem conecta com segurança sua Rede Virtual do Azure ao Azure Synapse Studio usando links privados desses hubs.
Duas etapas devem ser executadas para se conectar ao Azure Synapse Studio usando links privados.
- Criar um recurso de hub de Link Privado.
- Criar um ponto de extremidade privado da Rede Virtual do Azure para esse hub de Link Privado.
Em seguida, você pode usar os pontos de extremidade privados para se comunicar de forma segura com o Azure Synapse Studio. Integre os pontos de extremidade privados à sua solução de DNS, seja ela local ou o DNS privado do Azure.
Para saber mais, confira Conectar-se ao Azure Synapse Studio usando links privados.
Interfaces de automação (opcional)
Sua organização pode decidir criar muitos serviços de automação para aumentar os recursos de análise em escala de nuvem. Esses serviços de automação geram soluções de conformidade e integração para sua propriedade de análise.
Se você decidir criá-los, precisará de uma IU que atue como um marketplace de dados e como um console de operação. Essa interface deve contar com um armazenamento de metadados subjacente, como discutido anteriormente em Padrões de metadados.
Seu console de operações ou marketplace de dados chama uma camada intermediária de microsserviços para facilitar a integração, o registro de metadados, o provisionamento de segurança, o ciclo de vida dos dados e a observabilidade.
É possível provisionar o grupo de recursos automationdb-rg para hospedar o repositório de metadados.
Importante
Nenhum desses serviços de automação são produtos e eles não ilustram nenhum item de roteiro. Eles estão listados para ajudar você a considerar quais itens podem ser automatizados.
Serviços
Serviço | Escopo do serviço |
---|---|
Provisionamento da zona de destino de dados | Este serviço cria uma zona de destino de dados. É improvável que tenha um alto uso, mas ele está incluído para a integridade da solução de integração de ponta a ponta. Para saber mais, confira Provisionar a análise em escala de nuvem |
Integração de produtos de dados | Este serviço cria e altera grupos de recursos pertencentes a um locatário integrado. Também contém recursos para atualizar e degradar SKUs e ativar e desativar grupos de recursos para qualquer serviço ou locatário integrado. Ele cria uma zona de destino de dados DevOps. Para saber mais, confira Provisionar a análise em escala de nuvem |
Provisionamento de acesso | Esse serviço cria pacotes de acesso, políticas de acesso e processo de aprovação de acesso a ativos (manual ou automático) usando SPN/UPN. Ele também pode expor uma API para fornecer uma lista de solicitações de assinatura (ativos) enviadas pelos usuários nos últimos 90 dias. Para saber mais, consulte Gerenciamento de acesso a dados |
Ingestão independente de dados | Este microsserviço cria fontes de dados para ingestão em suas zonas de destino de dados. Ele faz isso comunicando-se com um metastore do Banco de Dados SQL do Azure Data Factory em cada zona de destino de dados. Para saber mais, confira Como as estruturas de ingestão automatizadas dão suporte à análise em escala de nuvem no Azure |
Metadados | Este serviço expõe e cria metadados para a plataforma. Para saber mais, consulte Padrões de metadados |
Ciclo de vida dos dados | Este serviço é responsável por manter seu ciclo de vida de dados com base em metadados. Essa manutenção pode incluir a movimentação de dados para o armazenamento frio e a exclusão de registros que não precisam mais ser retidos. Para saber mais, confira Gerenciamento do ciclo de vida de dados |
Integração de domínio de dados | APLICÁVEL SOMENTE À MALHA DE DADOS. Este serviço captura metadados relativos a novos domínios e integra esses domínios conforme necessário. Ele também pode criar, atualizar, ativar e desativar qualquer domínio ou linha de serviço que possa ter sido criado em um microsserviço. Para saber mais, confira Provisionar a análise em escala de nuvem |
Padronização de dados
Embora não seja um recurso específico ou produto da zona de destino de gerenciamento de dados, você deve considerar a padronização de dados em todos os serviços. Ela define o formato em que seus dados devem ser salvos e armazenados.
Dica
Use o formato delta-lake sempre que possível como o padrão de fato em todos os serviços e armazenamentos.
Para saber mais, confira Padronização de dados.