Visão geral da zona de aterrissagem do gerenciamento de dados de análise em escala de nuvem
A zona de aterrissagem de gerenciamento de dados é uma função de gerenciamento e é central para a análise em escala de nuvem. É responsável pela governança da sua plataforma de análise.
Sua zona de aterrissagem de gerenciamento de dados é uma assinatura separada que tem os mesmos serviços padrão da zona de aterrissagem do Azure. Ele permite a governança de dados de seus dados por meio de rastreadores, que se conectam aos seus data lakes e armazenamento poliglota em suas zonas de aterrissagem de dados. O emparelhamento de rede virtual conecta sua zona de destino de gerenciamento de dados às suas zonas de aterrissagem de dados e assinatura de conectividade.
Use essa arquitetura como ponto de partida. Baixe o arquivo do Visio e modifique-o para atender aos seus requisitos técnicos e de negócios específicos ao planejar a implementação da zona de aterrissagem de gerenciamento de dados.
Nota
Persistência poliglota é um termo de armazenamento que descreve sua escolha entre diferentes tecnologias de armazenamento/armazenamento de dados para dar suporte aos vários tipos de dados e suas necessidades de armazenamento. Essencialmente, a persistência poliglota é o conceito de que um aplicativo pode usar mais de um banco de dados principal ou tecnologia de armazenamento.
Importante
Sua zona de aterrissagem de gerenciamento de dados deve ser implantada como uma assinatura separada em um grupo de gerenciamento com a governança apropriada. Em seguida, você pode controlar a governança em toda a sua organização. O acelerador de zona de aterrissagem do Azure ilustra como você deve abordar as zonas de aterrissagem do Azure.
Catálogo de dados
Grupo de recursos: governance-rg
O catálogo de dados registra e mantém as informações de dados em um local centralizado e as disponibiliza para a organização. Ele garante que as empresas evitem produtos de dados duplicados causados pela ingestão de dados redundantes por diferentes equipes de projeto.
Recomendamos que você crie um serviço de catálogo de dados para definir os metadados dos produtos de dados armazenados nas zonas de aterrissagem de dados.
A análise em escala de nuvem depende do Microsoft Purview para registrar fontes de dados corporativas, classificá-las, garantir a qualidade dos dados e oferecer acesso seguro e de autoatendimento.
O Microsoft Purview é um serviço baseado em locatário e pode se comunicar com cada zona de aterrissagem de dados criando uma Rede Virtual Gerenciada implantada na região de suas zonas de aterrissagem de dados. Você pode implantar o Azure Managed Virtual Network Integration Runtimes (IR) dentro das Redes Virtuais Gerenciadas do Microsoft Purview em qualquer região disponível do Microsoft Purview. A partir daí, o IR da rede virtual gerenciada pode usar pontos de extremidade privados para se conectar e verificar com segurança as fontes de dados suportadas. Para obter mais informações, consulte Usar rede virtual gerenciada com sua conta do Microsoft Purview. A criação de um RI de rede virtual gerenciado dentro da Rede Virtual Gerenciada garante que o processo de integração de dados seja isolado e seguro.
Nota
Embora esta documentação se concentre principalmente no uso do Microsoft Purview para governança, as empresas podem ter investido em outros produtos, como Alation, Okera ou Collibra. Essas soluções são baseadas em assinatura e recomendamos implantá-las na zona de aterrissagem de gerenciamento de dados. Esteja ciente de que alguma integração personalizada pode ser necessária.
Para obter mais informações, consulte Catálogo de dados e práticas recomendadas de implantação do Microsoft Purview para análises em escala de nuvem.
Gestão da qualidade dos dados
Grupo de recursos: governance-rg2
Continue com a sua solução atual.
Você deve gerenciar a qualidade dos dados o mais próximo possível da sua fonte de dados para evitar problemas de qualidade replicando em seu patrimônio de análise e IA. Mover métricas de qualidade e validação para sua integração de dados alinha o processo de qualidade com as equipes mais próximas de seus dados. Essas equipes têm a compreensão mais profunda do seu ativo de dados.
A linhagem de dados também fornece confiança na qualidade dos dados, e você deve fornecê-la para todos os produtos e produtos de dados.
Para obter mais informações sobre gerenciamento de qualidade de dados, consulte Qualidade de dados.
Repositório de modelagem de dados
Grupo de recursos: governance-rg2
Você deve capturar e armazenar modelos de relacionamento de entidade em um local central dentro de sua zona de aterrissagem de gerenciamento de dados. Isso fornece aos consumidores de dados um único lugar para encontrar diagramas conceituais.
Muitos clientes usam o ER Studio e o iServer para modelar seus produtos de dados antes da ingestão.
Gestão de dados mestres
Grupo de recursos: governance-rg2
O controle de gerenciamento de dados mestre reside na zona de aterrissagem de gerenciamento de dados. O gerenciamento de dados mestre na malha de dados contém considerações específicas que você deve chamar a atenção para malha de dados.
Muitas soluções de gerenciamento de dados mestre se integram totalmente ao Microsoft Entra ID. Essa integração permite que você proteja seus dados e forneça diferentes visualizações para diferentes grupos de usuários.
Para obter mais informações, consulte Sistema de gerenciamento de dados mestre.
Catálogo API
Grupo de recursos: governance-rg2
Suas equipes de aplicativos de dados provavelmente criarão várias APIs para seus aplicativos de dados. Essas APIs podem ser difíceis de descobrir em toda a sua organização. Colocar um catálogo de API na zona de aterrissagem do gerenciamento de dados pode resolver esse problema.
Um catálogo de API pode ajudar a padronizar sua documentação e oferece um local para colaboração interna em APIs. Ele também pode impulsionar o consumo, a publicação e os controles de governança em toda a sua organização.
Partilha de dados e contratos
Grupo de recursos: governance-rg2
A análise em escala de nuvem usa o gerenciamento de direitos do Microsoft Entra ou políticas do Microsoft Purview para controlar o acesso ao compartilhamento de dados. Mesmo assim, você ainda pode precisar de um repositório de compartilhamento e contrato. Este repositório é uma função organizacional e deve residir na sua zona de aterrissagem de gerenciamento de dados.
Seus contratos devem fornecer informações sobre validação de dados, modelos e políticas de segurança.
Para obter mais informações, consulte Contratos de dados
Registo de Contentores do Azure
Grupo de recursos: containers-rg
Sua zona de aterrissagem de gerenciamento de dados hospeda um Registro de Contêiner do Azure. O Registro de Contêiner do Azure permite que suas operações de plataforma de dados implantem contêineres padrão para uso em projetos de ciência de dados que suas equipes de aplicativos de dados consomem.
Hubs de Link Privado do Azure Synapse
Grupo de recursos: synapse-link-rg
Os hubs de Link Privado do Azure Synapse Analytics são recursos do Azure que conectam sua rede segura e a experiência da Web do Azure Synapse Studio. A análise em escala de nuvem conecta com segurança sua Rede Virtual do Azure ao Azure Synapse Studio usando links privados desses hubs.
Há duas etapas para se conectar ao estúdio Synapse do Azure usando links privados.
- Crie um recurso de hub de Link Privado.
- Crie um ponto de extremidade privado da sua Rede Virtual do Azure para esse hub de Link Privado.
Em seguida, você pode usar pontos de extremidade privados para se comunicar com segurança com o estúdio Synapse do Azure. Integre esses pontos de extremidade privados com sua solução DNS, seja com sua solução local ou com o DNS Privado do Azure.
Para obter mais informações, consulte Conectar-se ao estúdio Synapse do Azure usando links privados.
Interfaces de automação (opcional)
Sua organização pode decidir criar muitos serviços de automação para aumentar os recursos de análise em escala de nuvem. Esses serviços de automação impulsionam a conformidade e as soluções de integração para o seu estado de análise.
Se você decidir criar esses serviços de automação, deverá ter uma interface de usuário que atue como um mercado de dados e um console de operação. Essa interface deve contar com um armazenamento de metadados subjacente, como discutimos anteriormente em Padrões de metadados.
Seu mercado de dados ou console de operações chama uma camada intermediária de microsserviços para facilitar a integração, o registro de metadados, o provisionamento de segurança, o ciclo de vida dos dados e a observabilidade.
Você pode provisionar o grupo de recursos automationdb-rg para hospedar seu repositório de metadados.
Importante
Nenhum desses serviços de automação são produtos e não ilustram nenhum item de roteiro. Eles são listados para ajudá-lo a considerar quais itens você pode querer automatizar.
Serviços
Serviço | Âmbito do Serviço |
---|---|
Provisionamento da zona de aterrissagem de dados | Este serviço cria uma nova zona de aterrissagem de dados. É improvável que tenha um uso alto, mas está incluído para a completude da solução de integração de ponta a ponta. Para obter mais informações, consulte Provisionar a análise em escala de nuvem |
Integração de produtos de dados | Esse serviço cria e altera grupos de recursos que pertencem a um locatário integrado. Ele também contém recursos para atualizar e degradar SKUs e para ativar e desativar grupos de recursos para qualquer locatário ou serviço integrado. Ele cria uma nova zona de aterrissagem de dados DevOps. Para obter mais informações, consulte Provisionar a análise em escala de nuvem |
Provisionamento de acesso | Este serviço cria pacotes de acesso, políticas de acesso e processo de aprovação de acesso a ativos (manual ou automático) usando SPN/UPN. Ele também pode expor uma API para fornecer uma lista de solicitações de assinatura (ativos) que os usuários enviaram nos últimos 90 dias. Para obter mais informações, consulte Gerenciamento de acesso a dados |
Ingestão agnóstica de dados | Este microsserviço cria novas fontes de dados para ingestão em suas zonas de aterrissagem de dados. Ele faz isso se comunicando com um metastore do Banco de Dados SQL do Azure Data Factory em cada zona de aterrissagem de dados. Para obter mais informações, consulte Como as estruturas de ingestão automatizadas dão suporte à análise em escala de nuvem no Azure |
Metadados | Este serviço expõe e cria metadados para a plataforma. Para obter mais informações, consulte Padrões de metadados |
Ciclo de vida dos dados | Este serviço é responsável por manter o ciclo de vida dos dados com base em metadados. Essa manutenção pode incluir a movimentação de dados para armazenamento refrigerado e a exclusão de registros que não precisam mais ser retidos. Para obter mais informações, consulte Gerenciamento do ciclo de vida dos dados |
Integração de domínio de dados | APLICÁVEL APENAS À MALHA DE DADOS. Este serviço captura metadados pertencentes a novos domínios e integra os novos domínios conforme necessário. Ele também pode criar, atualizar, ativar e desativar qualquer domínio ou linha de serviço que você possa criar em um microsserviço. Para obter mais informações, consulte Provisionar a análise em escala de nuvem |
Padronização de dados
Embora não seja um recurso ou produto específico da sua zona de destino de gerenciamento de dados, você deve chamar a padronização de dados em todos os serviços. A padronização de dados define o formato no qual seus dados devem pousar e ser armazenados.
Gorjeta
Use o formato delta-lake sempre que possível como o padrão de fato em todos os serviços e armazenamento.
Para obter mais informações, consulte Padronização de dados.