Práticas recomendadas de implantação do Microsoft Purview para análise em escala de nuvem
A zona de aterrissagem de gerenciamento de dados é responsável pela governança da plataforma de análise em escala de nuvem. Ele depende do Microsoft Purview para fornecer a maioria dos recursos de gerenciamento de dados.
Observação
Esta orientação nesta seção explica as configurações específicas da análise em escala de nuvem. É uma coleção de práticas recomendadas do Azure para aprimorar sua governança de dados usando o Microsoft Purview. A orientação complementa a documentação oficial do Microsoft Purview.
Visão geral
O Microsoft Purview é um serviço unificado de governança de dados que ajuda você a gerenciar e controlar seus dados locais, multinuvem e de SaaS (software como serviço). Crie um mapa holístico e atualizado de seu cenário de dados com a descoberta automatizada de dados, a classificação de dados confidenciais e a linhagem de dados de ponta a ponta. Permita que os curadores de dados gerenciem e protejam seu patrimônio de dados. Capacite consumidores de dados a encontrar dados confiáveis e valiosos.
Dica
Recomendamos o uso de ferramentas de terceiros de sua escolha para integrar os recursos restantes da zona de aterrissagem de gerenciamento de dados com o Azure que atualmente não são suportados pelo Microsoft Purview.
Uma conta do Microsoft Purview é implantada dentro da zona de aterrissagem de gerenciamento de dados, que serve como um catálogo de dados centralizado. A partir da zona de aterrissagem de gerenciamento de dados, o Microsoft Purview pode se comunicar com cada zona de aterrissagem de dados por meio de conectividade de rede privada usando emparelhamento de rede virtual em gerenciamento de dados, zonas de aterrissagem de dados e tempos de execução de integração auto-hospedados. A descoberta de produtos de dados em armazenamentos de dados locais e outras nuvens públicas é alcançada por mais implantações de tempos de execução de integração auto-hospedados.
Configuração da conta
A primeira etapa é a implantação de uma conta do Microsoft Purview. Durante a implantação da zona de aterrissagem de gerenciamento de dados, uma única conta do Microsoft Purview é implantada automaticamente dentro da assinatura de gerenciamento de dados. O objetivo é centralizar todo o mapa de dados em uma única conta do Microsoft Purview em todas as zonas de destino de dados. Recomendamos que você considere uma única conta compartilhada do Microsoft Purview dentro da assinatura da zona de destino de gerenciamento de dados por tipo de ambiente.
Além da conta do Microsoft Purview, um grupo de recursos gerenciados também é implantado. Uma conta de armazenamento gerenciada e um namespace Hubs de Eventos gerenciados são implantados dentro desse grupo de recursos e usados para ingerir metadados de ativos de dados por meio de varreduras. Como esses recursos são consumidos pelo catálogo do Microsoft Purview, eles não devem ser removidos. Uma atribuição de negação de RBAC (controle de acesso baseado em função) do Azure é adicionada automaticamente para todas as entidades no nível do grupo de recursos no momento da implantação.
Pré-requisitos
Antes da implantação, revise os seguintes requisitos dentro de sua assinatura da zona de destino de gerenciamento de dados:
- Fazer isenções de política: se você tiver uma atribuição de Política do Azure existente que impeça administradores ou aplicativos de criar contas de Armazenamento do Azure, namespace dos Hubs de Eventos do Azure, contas do Microsoft Purview, zonas DNS Privadas do Azure ou pontos de extremidade privados do Azure, deverá aplicar isenções da Política do Azure. As isenções são necessárias, portanto, os recursos necessários podem ser implantados na zona de aterrissagem de gerenciamento de dados, juntamente com a implantação do Microsoft Purview.
- Registrar provedores de recursos: certifique-se de registrar os seguintes provedores de recursos do Azure na assinatura da zona de aterrissagem de gerenciamento de dados:
Microsoft.EventHub
Microsoft.Purview
Microsoft.Storage
Importante
Para implantar com êxito a zona de aterrissagem de gerenciamento de dados com o Microsoft Purview, os pré-requisitos devem ser atendidos. Para saber mais sobre como registrar provedores de recursos, consulte Provedores de recursos para serviços do Azure.
Resolução de nome e rede
A análise em escala de nuvem usa um ponto de extremidade privado do Azure para habilitar o acesso seguro ao catálogo, com tecnologia do Azure Private Link. O ponto de extremidade privado usa endereços IP do espaço de endereço VNet para sua conta do Microsoft Purview. O tráfego de rede entre os clientes na rede virtual e a conta do Microsoft Purview atravessa a rede virtual e um link privado na rede de backbone da Microsoft. A VNet e o Link Privado eliminam a exposição da Internet pública. Para habilitar o isolamento de rede para cenários de verificação de ponta a ponta, mais pontos de extremidade privados são implantados. Os pontos de extremidade privados permitem que fontes de dados no Azure e fontes locais sejam conectadas por meio de Link Privado do Azure.
Implantação de ponto de extremidade privado do Azure
A conta do Microsoft Purview é implantada dentro da rede virtual do Azure (VNet) dentro da zona de aterrissagem de gerenciamento de dados com vários pontos de extremidade privados:
Conta: um ponto de extremidade privado é usado para permitir apenas chamadas de cliente para o Microsoft Purview originadas na rede privada. Ele é necessário como um pré-requisito para um ponto de extremidade privado do portal.
Portal: um ponto de extremidade privado destina-se a fornecer conectividade privada ao portal de governança do Microsoft Purview. O portal de governança do Microsoft Purview é a interface do usuário de gerenciamento que permite acessar e gerenciar o Microsoft Purview a partir de um navegador da Web.
Ingestãode pontos de extremidade privados para verificar as fontes de dados de IaaS e PaaS do Azure dentro das Rede Virtual do Microsoft Azure e as fontes de dados locais por meio de uma conexão privada. Esse método garante o isolamento da rede para os metadados que fluem das fontes de dados para o Mapa de Dados do Microsoft Purview.
Importante
Para verificar com êxito as fontes de dados no Microsoft Purview, um tempo de execução de integração auto-hospedado deve ser implantado dentro da mesma rede virtual onde os pontos de extremidade privados de ingestão do Microsoft Purview são implantados, que pode estar dentro da zona de aterrissagem de gerenciamento de dados ou de qualquer zona de aterrissagem de dados.
Para obter mais informações sobre a rede de zona de aterrissagem de gerenciamento de dados, consulte Rede analítica em escala de nuvem.
Para obter mais informações sobre pontos de extremidade privados do Microsoft Purview, consulte Usar pontos de extremidade privados para sua conta do Microsoft Purview.
Ponto de extremidade privado para a conta e o portal
Para gerenciar o estado de dados usando o Microsoft Purview e conectar-se ao portal de governança do Microsoft Purview, você deve usar conectividade privada. O acesso público é restrito à conta do Microsoft Purview implantada dentro da zona de destino de gerenciamento de dados para adicionar mais segurança. Os pontos de extremidade privados da conta e do portal são implantados para fornecer conectividade privada à sua conta do Microsoft Purview e acesso ao portal de governança do Microsoft Purview.
Acesso ao portal de governança do Microsoft Purview
Para manter o uso do portal Microsoft Purview por meio de conectividade privada, recomendamos negar o acesso à rede pública nas configurações do Microsoft Purview. Para se conectar ao portal de governança do Microsoft Purview, é necessário uma máquina de salto ou caixa de salto implantada dentro da rede. É possível usar um computador da rede híbrida ou como uma máquina virtual dentro da zona de destino de gerenciamento de dados. Uma máquina de salto é um servidor de acesso remoto forte, que normalmente usa o software de Serviços de Área de Trabalho Remota ou SSH (Secure Shell) da Microsoft. As máquinas de salto atuam como um ponto de passagem para administradores que acessam sistemas críticos com todas as ações administrativas feitas no host dedicado.
Use qualquer uma destas opções para gerenciar seus dados usando o Microsoft Purview por meio do portal de governança do Microsoft Purview:
Opção 1: use um computador de salto que esteja conectado à rede corporativa. Para usar esse modelo de conectividade, você deve ter conectividade entre a rede virtual onde o ponto de extremidade privado do portal Microsoft Purview é criado e sua rede corporativa.
Consulte a rede do Cloud Adoption Framework para obter mais informações , topologia de rede e visão geral da conectividade.
Opção 2: se a conectividade híbrida não estiver disponível em sua organização, implante uma máquina virtual dentro da zona de destino de gerenciamento de dados. Implante o Bastião do Azure para se conectar ao Microsoft Purview usando uma conexão segura.
Pontos de extremidade privados para ingestão
O Microsoft Purview pode verificar fontes de dados no Azure ou em ambientes locais usando pontos de extremidade privados ou públicos. A rede de uma zona de destino de dados é emparelhada automaticamente com a VNet da zona de destino de gerenciamento de dados e a VNet da assinatura de conectividade. Portanto, as fontes de dados dentro das zonas de destino de dados podem ser verificadas usando a conectividade privada.
É recomendável habilitar pontos de extremidade privados para outras fontes de dados dentro de suas zonas de destino e verificar as fontes de dados usando a conectividade privada.
Resolução de nomes
A resolução de DNS para pontos de extremidade privados deve ser tratada por meio zonas centrais de DNS Privado do Azure. As seguintes zonas DNS privadas são implantadas automaticamente na implantação do Microsoft Purview na zona de aterrissagem de gerenciamento de dados:
privatelink.purview.azure.com
privatelink.purviewstudio.azure.com
privatelink.blob.core.windows.net
privatelink.queue.core.windows.net
privatelink.servicebus.windows.net
Se você tiver uma nuvem híbrida e a resolução de nomes entre locais for necessária, é importante configurar corretamente os servidores DNS locais para encaminhar as solicitações apropriadas para o servidor DNS personalizado no Azure.
Se você já tiver um DNS personalizado no Azure, precisará configurar encaminhadores condicionais no seu servidor DNS local apontando para ele.
Se você não tiver uma VM DNS personalizada no Azure, poderá implantar o conjunto de dimensionamento de máquinas virtuais do Azure que inclui NGINX já configurado para encaminhar solicitações DNS para o IP
168.63.129.16
DNS fornecido pelo Azure. Para obter mais informações, consulte Implantar o conjunto de dimensionamento de máquinas virtuais de um proxy DNS Nginx em uma rede virtual existente.
Dica
Para permitir a resolução de nomes entre a zona de destino de gerenciamento de dados e as zonas de destino de dados, use as mesmas zonas DNS privadas localizadas dentro {prefix}-global-dns
do grupo de recursos dentro da zona de destino de gerenciamento de dados.
Para obter mais informações relacionadas à rede de análise em escala de nuvem e à resolução de nomes, consulte Rede analítica em escala de nuvem
Gerenciar autenticação para fontes de dados no Microsoft Purview
O Microsoft Purview requer acesso ao plano de controle e ao plano de dados para registrar e verificar fontes de dados.
Registrar fontes de dados
Quando você implanta a conta do Microsoft Purview, uma identidade gerenciada atribuída pelo sistema é criada automaticamente. Ele é criado no locatário do Microsoft Entra e atribuído a esse recurso. Para ler e listar recursos do Azure em uma assinatura ou grupo de recursos ao registrar fontes de dados no Microsoft Purview, a identidade gerenciada do Microsoft Purview requer a função Leitor RBAC do Azure no escopo.
Considere atribuir a função Leitor à identidade gerenciada do Microsoft Purview em cada assinatura de zona de destino de dados antes de registrar qualquer uma dessas fontes de dados no Microsoft Purview:
- Armazenamento de Blobs do Azure
- Azure Data Lake Storage Gen1
- Azure Data Lake Storage Gen2
- Banco de Dados SQL do Azure
- Instância Gerenciada do Azure SQL
- Azure Synapse Analytics
Verificar fontes de dados
Antes de executar qualquer verificação nova, verifique se você concluiu os seguintes requisitos:
Implante e registre o runtime de integração auto-hospedada
Implante e registre VMs de IR (runtime de integração auto-hospedada) de hospedagem interna para cada zona de destino de dados. O IRs auto-hospedado é necessário para verificar fontes de dados, como Banco de Dados SQL do Azure ou quaisquer fontes de dados baseadas em VM. Essas fontes de dados podem ser locais ou em cada uma das zonas de destino de dados. O IR auto-hospedado pode executar atividades de cópia entre um armazenamento de dados de nuvem e um armazenamento de dados em uma rede privada. Ele também pode distribuir atividades de transformação em relação aos recursos de computação em uma rede local ou em uma rede virtual do Azure. A instalação de um IR auto-hospedado precisa de um computador local ou uma máquina virtual em uma rede privada.
Dica
Recomenda-se usar um computador dedicado para hospedar o IR. O computador deve ser separado do servidor que hospeda o armazenamento de dados. Além disso, é altamente recomendável planejar pelo menos duas VMs de IR hospedado internamente em cada zona de destino de dados ou em um ambiente local.
Para verificar fontes de dados locais, as IRs auto-hospedadas podem ser implantadas dentro de sua rede local, no entanto, para verificar fontes de dados localizadas no Azure, as IRs auto-hospedadas devem ser implantadas na mesma VNet que os pontos de extremidade privados de ingestão do Microsoft Purview. É recomendável implantar novos pontos de extremidade privados de ingestão e novo IRs auto-hospedado por região em que as fontes de dados estão localizadas.
Talvez você queira hospedar uma carga de trabalho simultânea cada vez maior. Ou talvez você queira obter um desempenho maior em seu nível de carga de trabalho atual. Você pode aprimorar a escala de processamento usando uma destas abordagens:
- Escalar verticalmente quando o processador e a memória do nó estiverem em uso
- Escalar horizontalmente o IR auto-hospedado adicionando mais nós ou conjuntos de dimensionamento de máquinas virtuais
Atribuir acesso ao plano de dados para verificar fontes de dados
Para fornecer acesso ao Microsoft Purview no plano de dados e às fontes de dados, há várias opções para configurar a autenticação:
- Opção 1: identidade gerenciada
- Opção 2: chave de conta ou senhas armazenadas em Azure Key Vault como um segredo
- Opção 3: entidade de serviço armazenada em Azure Key Vault como um segredo
Importante
Para verificar fontes de dados por meio do Link Privado do Azure no Microsoft Purview, você deve implantar um tempo de execução de integração autohospedado e usar a Chave de conta/Autenticação SQL ou a entidade de serviço das opções de autenticação para fontes de dados.
Dica
Quando uma fonte de dados não pode usar o Link Privado do Azure, recomendamos usar a identidade gerenciada do Microsoft Purview para verificar fontes de dados. Nesse caso, você precisa permitir o acesso público nas configurações de firewall da sua conta do Microsoft Purview.
Armazenar segredos dentro do Azure Key Vault
Vários recursos Azure Key Vault são implantados dentro da zona de destino de gerenciamento de dados e das assinaturas da zona de destino de dados. Os recursos de Azure Key Vault armazenam segredos relacionados a fontes de dados de metadados na zona de destino de gerenciamento de dados e fontes de dados. Um exemplo de uma fonte de dados é Banco de Dados SQL do Azure consumido por Azure Data Factory. Ou o Banco de Dados do Azure para MySQL usado por workspace do Databricks na zona de destino de dados.
Conectar zonas de aterrissagem de dados Cofres de chaves do Azure à sua conta do Microsoft Purview
O Microsoft Purview pode usar os segredos e credenciais armazenados nos cofres de chaves do Azure. Eles só poderão ser usados se você criar a conexão do Cofre de Chaves do Azure dentro da conta do Microsoft Purview e o segredo estiver registrado. Depois de adicionar uma nova zona de aterrissagem de dados, você deve criar uma nova conexão do Cofre de Chaves do Azure dentro da conta do Microsoft Purview. A conexão é uma associação um-para-um do recurso Cofre de Chaves do Azure com a conta do Microsoft Purview. Ele permitirá a criação de credenciais dentro da conta do Microsoft Purview com base nos segredos armazenados no Cofre de Chaves do Azure.
Para obter mais informações, consulte Criar conexões do Cofre de Chaves do Azure em sua conta do Microsoft Purview.
Dica
Remova os cofres de chaves do Azure não utilizados para minimizar as conexões do Key Vault.
Criar credenciais dentro do Microsoft Purview
Talvez seja necessário configurar uma Credencial usando um Segredo do Key Vault para cenários específicos:
- Para verificar quaisquer fontes de dados em que a identidade gerenciada do Microsoft Purview não pode ser usada como método de autenticação.
- Para verificar as fontes de dados usando um tempo de execução de integração auto-hospedado, os tipos de autenticação com suporte, como chaves de conta, SQL autenticação (senha) ou entidade de serviço, devem ser armazenados em uma credencial.
- Para verificar fontes de dados usando um ponto de extremidade privado para ingestão de dados.
- Para verificar as fontes de dados que estão dentro de uma máquina virtual ou dentro de um ambiente local.
Antes de criar quaisquer credenciais no Microsoft Purview, sua conta do Microsoft Purview deve ter acesso aos segredos do Cofre de Chaves do Azure. Use a política de acesso do Cofre de Chaves do Azure ou o RBAC (controle de acesso baseado em função) para conceder à identidade de serviço gerenciado (MSI) do Microsoft Purview o acesso necessário. Para obter mais informações sobre como conceder acesso MSI do Microsoft Purview ao Cofre de Chaves do Azure e criar credenciais dentro do Microsoft Purview, consulte Credenciais para autenticação de origem no Microsoft Purview.
Funções e controle de acesso do Microsoft Purview
O Microsoft Purview tem várias funções internas, como leitor de dados, curador de dados, administrador de coleção, administrador de fonte de dados e autor de política para gerenciar o plano de dados, que podem ser combinados para fornecer mais privilégios. Por exemplo, a função Leitor de dados é direcionada para funções como diretores de dados, administradores de dados e diretores de segurança que exigem acesso somente leitura ao estado de dados. O estado de dados pode incluir classificações, linhagem por meio de opções de pesquisa e relatórios disponíveis no Microsoft Purview.
Quando a implantação da zona de aterrissagem do gerenciamento de dados estiver concluída, use o modelo de privilégios mínimos para fornecer acesso para exibir ou gerenciar metadados no Microsoft Purview.
Importante
As funções do plano de dados do Microsoft Purview devem ser gerenciadas dentro do portal de governança do Microsoft Purview ou usando a API diretamente.
Para obter mais informações sobre funções do Microsoft Purview, consulte Controle de acesso no plano de dados do Microsoft Purview
Funções recomendadas do Microsoft Purview
Analise a lista a seguir de personas envolvidas em uma implantação de análise em escala de nuvem. Atribua-lhes as funções relevantes do Microsoft Purview para que possam contribuir para o sucesso da implantação:
Persona | Função | Função recomendada do Microsoft Purview |
---|---|---|
Proprietários de produto | Os proprietários de produtos usam o Azure para transformar suas soluções, trazer agilidade para os negócios e otimizar os processos de negócios. | Leitor de dados |
Arquitetos de solução | Defina soluções para atravessar os limites da rede empresarial. Saiba como lidar com diagnóstico, análise, design, implantação e integração dos serviços do Azure. | |
Engenheiros de DevOps e Desenvolvedor | Projetar, compilar, implantar, testar e manter a integração contínua e o processo de entrega com o Azure DevOps ou GitHub. | Não aplicável |
Engenheiros de segurança | Permitir que suas equipes projete e implementem uma infraestrutura segura no Azure usando as práticas recomendadas. | |
Gerentes técnicos e de negócios | Compile uma reconhecimento geral dos serviços do Azure. Controle os custos de nuvem e otimize suas operações e a agilidade da sua equipe. | Não aplicável |
Tomadores de decisão e usuários de negócios | Use o Azure para acessar insights a ação, esperando que ele seja entregue na forma mais relevante. Use a IA inserida em soluções existentes para otimizar os processos de negócios. | Leitor de dados |
Gerenciadores de dados | Responsável por provisionar e gerenciar o acesso a ativos de dados. | Leitor de dados ou Compiladores de dados |
Analistas de dados e analistas de desempenho | Use o Azure para descobrir e compartilhar novas informações de ativos de dados existentes ou dados ad hoc. Crie transformações de IA com um clique, consuma modelos pré-construídos e gere facilmente modelos de machine learning. | |
Engenheiros de dados | Use o Azure para criar, integrar e gerenciar dados e produtos de análise. Crie aplicativos e soluções habilitados para IA quando aplicável. | |
Cientistas de dados cidadãos | Criar modelos de machine learning por meio de ferramentas visuais poderosas, de arrastar e soltar, sem código, em que nenhuma codificação é necessária | |
Cientistas de Dados | Use suas ferramentas preferenciais e estruturas de aprendizado de máquina para compilar soluções escalonáveis de ciência de dados. Acelere o ciclo de vida de aprendizado de máquina de ponta a ponta. | |
Engenheiros de aprendizado de máquina | Habilita os processos corretos e a infraestrutura para facilitar a implantação do modelo e o gerenciamento de modelos. |
Para obter mais informações sobre funções de dados, consulte Funções e equipes.
Próximas etapas
Azure Machine Learning como produto de dados para análise em escala de nuvem