Azure Synapse Analytics para zonas de aterrissagem

Azure Synapse Analytics
Azure Private Link
Azure Data Lake Storage
Azure Key Vault

Este artigo fornece uma abordagem arquitetônica para preparar assinaturas de zona de aterrissagem do Azure para uma implantação escalável e de segurança aprimorada do Azure Synapse Analytics. O Azure Synapse, um serviço de análise empresarial, combina armazenamento de dados, processamento de big data, integração de dados e gestão.

O artigo pressupõe que você já implementou a base da plataforma necessária para construir e operacionalizar efetivamente uma zona de pouso.

Apache®, Spark e o logotipo flame são marcas registradas ou marcas comerciais da Apache Software Foundation nos Estados Unidos e/ou em outros países. Nenhum endosso da Apache Software Foundation está implícito no uso dessas marcas.

Arquitetura

Diagrama que mostra uma arquitetura de referência do Azure Synapse Analytics.

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de dados

  • O componente principal dessa arquitetura é o Azure Synapse, um serviço unificado que fornece uma variedade de funções, desde ingestão e processamento de dados até serviço e análise. O Azure Synapse em uma Rede Virtual Gerenciada fornece isolamento de rede para o espaço de trabalho. Ao habilitar a proteção contra exfiltração de dados, você pode limitar a conectividade de saída apenas a destinos aprovados.
  • Os recursos do Azure Synapse, o tempo de execução de integração do Azure e os pools do Spark localizados na Rede Virtual Gerenciada podem se conectar ao Armazenamento do Azure Data Lake, ao Cofre da Chave do Azure e a outros armazenamentos de dados do Azure com segurança aprimorada usando pontos de extremidade privados gerenciados. Os pools SQL do Azure Synapse hospedados fora da Rede Virtual Gerenciada podem se conectar aos serviços do Azure por meio de ponto de extremidade privado na rede virtual corporativa.
  • Os administradores podem impor conectividade privada ao espaço de trabalho do Azure Synapse, ao Armazenamento Data Lake, ao Cofre da Chave, ao Log Analytics e a outros armazenamentos de dados por meio de políticas do Azure aplicadas em zonas de aterrissagem de dados no nível do grupo de gerenciamento. Eles também podem habilitar a proteção contra exfiltração de dados para fornecer segurança aprimorada para o tráfego de saída.
  • Os usuários acessam o Synapse Studio usando um navegador da Web de uma rede local restrita por meio dos Hubs de Link Privado do Azure Synapse. Private Link Hubs são usados para carregar o Synapse Studio em links privados com segurança aprimorada. Um único recurso do Azure Synapse Private Link Hubs é implantado em uma assinatura de Conectividade com um ponto de extremidade privado na rede virtual do hub. A rede virtual do hub está conectada à rede local por meio da Rota Expressa do Azure. O recurso Private Link Hubs pode ser usado para se conectar de forma privada a todos os espaços de trabalho do Azure Synapse por meio do Synapse Studio.
  • Os engenheiros de dados usam a atividade de cópia de pipelines do Azure Synapse, executada em um tempo de execução de integração auto-hospedado, para ingerir dados entre um armazenamento de dados hospedado em um ambiente local e armazenamentos de dados em nuvem, como armazenamento Data Lake e pools SQL. O ambiente local é conectado via ExpressRoute à rede virtual do hub no Azure.
  • Os engenheiros de dados usam a atividade do Fluxo de Dados do Azure Synapse e os pools do Spark para transformar dados hospedados em armazenamentos de dados na nuvem conectados à Rede Virtual Gerenciada do Azure Synapse por meio de pontos de extremidade privados gerenciados. Para dados localizados no ambiente local, a transformação com pools do Spark requer conectividade por meio do serviço Private Link personalizado. O serviço de Link Privado personalizado usa VMs NAT (Network Address Translation) para se conectar ao armazenamento de dados local. Para obter informações sobre como configurar o serviço de Link Privado para acessar armazenamentos de dados locais a partir de uma Rede Virtual Gerenciada, consulte Como acessar o SQL Server local a partir da VNet Gerenciada do Data Factory usando o Ponto de Extremidade Privado.
  • Se a proteção contra exfiltração de dados estiver habilitada no Azure Synapse, o log do aplicativo Spark no espaço de trabalho do Log Analytics será roteado por meio de um recurso do Escopo de Link Privado do Azure Monitor conectado à Rede Virtual Gerenciada do Azure Synapse por meio do ponto de extremidade privado gerenciado. Conforme mostrado no diagrama, um único recurso de Escopo de Link Privado do Azure Monitor é hospedado em uma assinatura de Conectividade com ponto de extremidade privado na rede virtual do hub. Todos os espaços de trabalho do Log Analytics e recursos do Application Insights podem ser acessados de forma privada por meio do Escopo de Link Privado do Azure Monitor.

Componentes

  • O Azure Synapse Analytics é um serviço de análise empresarial que acelera o tempo de obtenção de informações em armazéns de dados e sistemas de big data.
  • A Rede Virtual Gerenciada do Azure Synapse fornece isolamento de rede para espaços de trabalho do Azure Synapse de outros espaços de trabalho.
  • Os pontos de extremidade privados gerenciados do Azure Synapse são pontos de extremidade privados criados em uma Rede Virtual Gerenciada associada a um espaço de trabalho do Azure Synapse. Os pontos de extremidade privados gerenciados estabelecem conectividade de link privado com recursos do Azure fora da Rede Virtual Gerenciada.
  • O espaço de trabalho do Azure Synapse com proteção contra exfiltração de dados impede a exfiltração de dados confidenciais para locais que estão fora do escopo de uma organização.
  • Os Hubs de Link Privado do Azure são recursos do Azure que atuam como conectores entre sua rede segura e a experiência da Web do Synapse Studio.
  • O tempo de execução de integração é a infraestrutura de computação que os pipelines do Azure Synapse usam para fornecer recursos de integração de dados em diferentes ambientes de rede. Execute a atividade de Fluxo de Dados no tempo de execução de integração de computação gerenciado do Azure ou a atividade de Cópia entre redes usando um tempo de execução de integração de computação auto-hospedado.
  • O Azure Private Link fornece acesso privado a serviços hospedados no Azure. O serviço Azure Private Link é a referência ao seu próprio serviço alimentado pelo Private Link. Você pode habilitar seu serviço que está sendo executado atrás do balanceador de carga padrão do Azure para acesso ao Link Privado. Em seguida, você pode estender o serviço de Link Privado para a Rede Virtual Gerenciada Sinapse do Azure por meio do ponto de extremidade privado gerenciado.
  • O Apache Spark no Azure Synapse é uma das várias implementações da Microsoft do Apache Spark na nuvem. O Azure Synapse facilita a criação e configuração de recursos do Spark no Azure.
  • O Armazenamento Data Lake usa o Armazenamento do Azure como base para criar data lakes corporativos no Azure.
  • O Cofre de Chaves permite armazenar segredos, chaves e certificados com segurança aprimorada.
  • As zonas de aterrissagem do Azure são as saídas de um ambiente do Azure com várias assinaturas que levam em conta escala, governança de segurança, rede e identidade. Uma zona de aterrissagem permite migração, modernização e inovação em escala empresarial no Azure.

Detalhes do cenário

Este artigo fornece uma abordagem para preparar assinaturas de zona de aterrissagem do Azure para uma implantação de segurança escalável e aprimorada do Azure Synapse. A solução adere às práticas recomendadas do Cloud Adoption Framework para Azure e se concentra nas diretrizes de design para zonas de aterrissagem em escala empresarial.

Muitas grandes organizações com unidades de negócios descentralizadas e autônomas querem adotar soluções de análise e ciência de dados em escala. É fundamental que construam a base certa. O Azure Synapse e o Data Lake Storage são os componentes centrais para implementar análises em escala de nuvem e uma arquitetura de malha de dados.

Este artigo fornece recomendações para implantar o Azure Synapse em grupos de gerenciamento, topologia de assinatura, rede, identidade e segurança.

Ao usar esta solução, você pode alcançar:

  • Uma plataforma de análise de segurança bem governada e aprimorada que pode ser dimensionada de acordo com suas necessidades em várias zonas de aterrissagem de dados.
  • Redução da sobrecarga operacional para as equipes de aplicativos de dados. Eles podem se concentrar em engenharia e análise de dados e deixar o gerenciamento da plataforma Azure Synapse para a equipe de operações da zona de aterrissagem de dados.
  • Aplicação centralizada da conformidade organizacional em zonas de aterrissagem de dados.

Potenciais casos de utilização

Essa arquitetura é útil para organizações que exigem:

  • Um plano de dados e controle totalmente integrado e operacional para cargas de trabalho do Azure Synapse, desde o início.
  • Uma implementação de segurança aprimorada do Azure Synapse, com foco na segurança e privacidade de dados.

Essa arquitetura pode servir como um ponto de partida para implantações em grande escala de cargas de trabalho do Azure Synapse em assinaturas de zona de aterrissagem de dados.

Topologia de subscrição

As organizações que criam plataformas de dados e análises em grande escala procuram maneiras de escalar seus esforços de forma consistente e eficiente ao longo do tempo.

  • Ao usar assinaturas como uma unidade de escala para zonas de aterrissagem de dados, as organizações podem superar as limitações de nível de assinatura, garantir isolamento adequado e gerenciamento de acesso e obter crescimento futuro flexível para a pegada da plataforma de dados. Dentro de uma zona de aterrissagem de dados, você pode agrupar o Azure Synapse e outros ativos de dados para casos de uso de análise específicos dentro de um grupo de recursos.
  • O grupo de gerenciamento e a configuração da assinatura são de responsabilidade do proprietário da plataforma da zona de aterrissagem, que fornece o acesso necessário aos administradores da plataforma de dados para provisionar o Azure Synapse e outros serviços.
  • Todas as políticas de conformidade de dados em toda a organização são aplicadas no nível do grupo de gerenciamento para impor a conformidade nas zonas de aterrissagem de dados.

Topologia de redes

Para obter recomendações para zonas de aterrissagem que usam topologia de rede WAN virtual (hub e spoke), consulte Topologia de rede WAN virtual. Essas recomendações estão alinhadas com as práticas recomendadas do Cloud Adoption Framework .

A seguir estão algumas recomendações para a topologia de rede do Azure Synapse:

  • Implemente o isolamento de rede para recursos do Azure Synapse por meio da Rede Virtual Gerenciada. Implemente a proteção contra exfiltração de dados restringindo o acesso de saída apenas a alvos aprovados.

  • Configure a conectividade privada para:

    • Serviços do Azure, como Armazenamento Data Lake, Cofre de Chaves e Azure SQL, por meio de pontos de extremidade privados gerenciados.
    • Armazenamentos de dados e aplicativos locais pela Rota Expressa, por meio de um tempo de execução de integração auto-hospedado. Use o serviço Private Link personalizado para conectar recursos do Spark a armazenamentos de dados locais se não puder usar um tempo de execução de integração auto-hospedado.
    • Synapse Studio, através de hubs de link privado que são implantados em uma assinatura de conectividade.
    • O espaço de trabalho do Log Analytics, por meio do Escopo de Link Privado do Azure Monitor, implantado em uma assinatura de Conectividade.

Gestão de identidades e acessos

Normalmente, as empresas utilizam uma abordagem menos privilegiada para o acesso operacional. Eles usam o Microsoft Entra ID, o RBAC (controle de acesso baseado em função) do Azure e definições de função personalizadas para gerenciamento de acesso.

  • Implemente controles de acesso refinados no Azure Synapse usando funções do Azure, funções do Azure Synapse, funções SQL e permissões do Git. Para obter mais informações sobre o controle de acesso ao espaço de trabalho Sinapse do Azure, consulte esta visão geral.
  • As funções do Azure Synapse fornecem conjuntos de permissões que você pode aplicar em escopos diferentes. Esta granularidade facilita a concessão de acesso adequado a administradores, programadores, pessoal de segurança e operadores para calcular recursos e dados.
  • Você pode simplificar o controle de acesso usando grupos de segurança alinhados com funções de trabalho. Para gerenciar o acesso, você só precisa adicionar e remover usuários dos grupos de segurança apropriados.
  • Você pode fornecer segurança para a comunicação entre o Azure Synapse e outros serviços do Azure, como o Data Lake Storage e o Key Vault, usando identidades gerenciadas atribuídas pelo usuário. Isso elimina a necessidade de gerenciar credenciais. As identidades gerenciadas fornecem uma identidade que os aplicativos podem usar quando se conectam a recursos que oferecem suporte à autenticação do Microsoft Entra.

Automação de aplicativos e DevOps

  • A integração e entrega contínuas para um espaço de trabalho do Azure Synapse são alcançadas por meio da integração do Git e da promoção de todas as entidades de um ambiente (desenvolvimento, teste, produção) para outro.
  • Implemente a automação com modelos Bicep / Azure Resource Manager para criar ou atualizar recursos de espaço de trabalho (pools e espaço de trabalho). Migre artefatos como scripts e blocos de anotações SQL, definições de trabalho do Spark, pipelines, conjuntos de dados e outros artefatos usando as ferramentas de Implantação do Espaço de Trabalho Synapse no Azure DevOps ou no GitHub, conforme descrito em Integração e entrega contínuas para um espaço de trabalho do Azure Synapse Analytics.

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework, um conjunto de princípios orientadores que você pode usar para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Microsoft Azure Well-Architected Framework.

Fiabilidade

A confiabilidade garante que seu aplicativo possa atender aos compromissos que você assume com seus clientes. Para obter mais informações, consulte Visão geral do pilar de confiabilidade.

  • O Azure Synapse, o Data Lake Storage e o Key Vault são serviços de plataforma gerenciada como serviço (PaaS) que têm alta disponibilidade e resiliência integradas. Você pode usar nós redundantes para tornar o tempo de execução de integração auto-hospedado e as VMs NAT na arquitetura altamente disponíveis.
  • Para obter informações sobre o contrato de nível de serviço (SLA), consulte SLA para Azure Synapse Analytics.
  • Para obter recomendações de continuidade de negócios e recuperação de desastres para o Azure Synapse, consulte Pontos de restauração de banco de dados para o Azure Synapse Analytics.

Segurança

A segurança oferece garantias contra ataques deliberados e o abuso de seus valiosos dados e sistemas. Para obter mais informações, consulte Visão geral do pilar de segurança.

Otimização de custos

A otimização de custos consiste em reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Visão geral do pilar de otimização de custos.

  • Os recursos de análise são medidos em unidades de armazém de dados (DWUs), que rastreiam CPU, memória e E/S. Recomendamos que você comece com DWUs pequenas e meça o desempenho para operações que consomem muitos recursos, como carregamento pesado de dados ou transformação. Isso pode ajudá-lo a determinar quantas unidades você precisa para otimizar sua carga de trabalho.
  • Economize dinheiro com preços pré-pagos usando SCUs (Unidades de Confirmação do Azure Synapse) pré-compradas.
  • Para explorar as opções de preços e estimar o custo de implementação do Azure Synapse, consulte Preços do Azure Synapse Analytics.
  • Esta estimativa de preço contém os custos de implantação de serviços usando as etapas de automação descritas na próxima seção.

Implementar este cenário

Pré-requisitos: Você deve ter uma conta do Azure. Se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.

Todo o código para este cenário está disponível no repositório Synapse Enterprise Codebase no GitHub.

A implantação automatizada usa modelos Bicep para implantar os seguintes componentes:

  • Um grupo de recursos
  • Uma rede virtual e sub-redes
  • Níveis de armazenamento (Bronze, Prata e Ouro) com terminais privados
  • Um espaço de trabalho do Azure Synapse com uma Rede Virtual Gerenciada
  • Serviço de Link Privado e pontos finais
  • Balanceador de carga e VMs NAT
  • Um recurso de tempo de execução de integração auto-hospedado

Um script do PowerShell para orquestrar a implantação está disponível no repositório. Você pode executar o script do PowerShell ou usar o arquivo pipeline.yml para implantá-lo como um pipeline no Azure DevOps.

Para obter mais informações sobre os modelos Bicep, etapas de implantação e suposições, consulte o arquivo readme .

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Principais autores:

Outros contribuidores:

Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.

Próximos passos

  • Para obter informações sobre como criar uma plataforma completa de dados e análises, consulte Diretrizes de análise em escala de nuvem.
  • Explore a malha de dados como um padrão arquitetônico para implementar plataformas de dados corporativos em organizações grandes e complexas.
  • Consulte o white paper de segurança do Azure Synapse.

Para obter mais informações sobre os serviços descritos neste artigo, consulte estes recursos: