Ligar a área de trabalho do Azure Databricks à rede no local

Este artigo mostra como estabelecer conectividade do seu espaço de trabalho do Azure Databricks com a sua rede local. O tráfego é roteado através de uma rede virtual de trânsito (VNet) para a rede local, usando a topologia hub-and-spoke a seguir.

Implantação de rede virtual

Se precisar de ajuda seguindo este guia, entre em contato com suas equipes de conta Microsoft e Databricks.

Requisitos

Seu espaço de trabalho do Azure Databricks deve ser implantado em sua própria rede virtual, também conhecida como injeção de VNet.

Etapa 1: Configurar uma rede virtual de trânsito com o Gateway de Rede Virtual do Azure

Você precisa de um Gateway de Rede Virtual do Azure (Rota Expressa ou VPN) em uma VNet de trânsito, configurada usando um desses métodos. Se você já tiver um gateway apropriado, pule para Emparelhar a rede virtual do Azure Databricks com a rede virtual de trânsito.

Se você já tiver a Rota Expressa configurada entre sua rede local e o Azure, siga o procedimento em Configurar um gateway de rede virtual para a Rota Expressa usando o portal do Azure.

Caso contrário, siga as etapas 1 a 5 em Configurar uma conexão de gateway VPN VNet-to-VNet usando o portal do Azure.

Se precisar de assistência, contacte a equipa da sua conta Microsoft.

Etapa 2: Emparelhar a rede virtual do Azure Databricks com a rede virtual de trânsito

Se o seu espaço de trabalho do Azure Databricks estiver na mesma VNet que o Gateway de Rede Virtual, pule para Criar rotas definidas pelo usuário e associe-as às suas sub-redes de rede virtual do Azure Databricks.

Caso contrário, siga as instruções em Redes virtuais de mesmo nível para emparelhar a VNet do Azure Databricks à VNet de trânsito, selecionando as seguintes opções:

  • Use Gateways Remotos no lado da VNet do Azure Databricks.
  • Permitir Trânsito de Gateway no lado da VNet de Trânsito.

Para obter detalhes, consulte Criar um emparelhamento.

Nota

Se sua conexão de rede local com o Azure Databricks não funcionar com as configurações acima, você também poderá selecionar a opção Permitir tráfego encaminhado em ambos os lados do emparelhamento para resolver o problema.

Para obter informações sobre como configurar o trânsito do gateway VPN para emparelhamento de rede virtual, consulte Configurar o trânsito do gateway VPN para emparelhamento de rede virtual.

Etapa 3: Criar rotas definidas pelo usuário e associá-las às suas sub-redes de rede virtual do Azure Databricks

Depois de emparelhar a VNet do Azure Databricks com a VNet de trânsito, o Azure configura automaticamente todas as rotas usando a VNet de trânsito. A configuração automática não inclui a rota de retorno dos nós do cluster para o plano de controle do Azure Databricks. Você deve criar essas rotas personalizadas manualmente, usando rotas definidas pelo usuário.

  1. Crie uma tabela de rotas, habilitando a propagação de rotas BGP.

    Nota

    Em alguns casos, a propagação da rota BGP causa falhas ao validar a configuração da conexão de rede local. Como último recurso, você pode desativar a propagação de rota BGP.

  2. Adicione rotas definidas pelo usuário para os seguintes serviços, usando as instruções em Rotas personalizadas.

    Se a conectividade de cluster seguro (SCC) estiver habilitada para o espaço de trabalho, use o IP de retransmissão SCC em vez do IP NAT do plano de controle.

    Origem Prefixo de endereço Tipo de salto seguinte
    Predefinido Plano de controlo NAT IP
    (Apenas se o SCC estiver desativado)
    Internet
    Predefinido Relé SCC IP
    (Somente se o SCC estiver habilitado)
    Internet
    Predefinido Webapp IP Internet
    Predefinido Metastore IP Internet
    Predefinido IP de armazenamento de Blob de artefato Internet
    Predefinido IP de armazenamento de Blob de log Internet
    Predefinido IP de armazenamento do espaço de trabalho (ADLS) Internet
    Predefinido IP de armazenamento de espaço de trabalho (Blob) para espaços de trabalho criados antes de 6 de março de 2023. Internet
    Predefinido IP dos Hubs de Eventos Internet

    Para obter os endereços IP de cada um desses serviços, siga as instruções em Configurações de rota definidas pelo usuário para o Azure Databricks.

    Se a rota baseada em IP falhar ao validar a instalação, você poderá criar um ponto de extremidade de serviço para Microsoft.Storage rotear todo o tráfego de armazenamento do espaço de trabalho por meio do backbone do Azure. Se você usar essa abordagem, não precisará criar rotas definidas pelo usuário para o armazenamento do espaço de trabalho.

    Nota

    Para acessar outros serviços de dados do Azure PaaS, como o Cosmos DB ou o Azure Synapse Analytics, a partir do Azure Databricks, você deve adicionar rotas definidas pelo usuário para esses serviços à tabela de rotas. Resolva cada ponto de extremidade para seu endereço IP usando nslookup ou um comando equivalente.

  3. Associe a tabela de rotas às suas sub-redes públicas e privadas da VNet do Azure Databricks, usando as instruções em Associar uma tabela de rotas a uma sub-rede.

    Depois que a tabela de rotas personalizada for associada às suas sub-redes VNet do Azure Databricks, você não precisará editar as regras de segurança de saída no grupo de segurança de rede. Por exemplo, você não precisa tornar a regra de saída mais específica, porque as rotas controlarão a saída real.

Etapa 4: Validar a configuração

Para validar a configuração:

  1. Crie um cluster no seu espaço de trabalho do Azure Databricks.

    Se a criação de um cluster falhar, siga as instruções de configuração, tentando as opções de configuração alternativas, uma a uma.

    Se ainda não for possível criar um cluster, verifique se a tabela de rotas inclui todas as rotas necessárias definidas pelo usuário. Se você usou pontos de extremidade de serviço em vez de rotas definidas pelo usuário para ADLS gen2 (para espaços de trabalho criados antes de 6 de março de 2023, Armazenamento de Blobs do Azure), verifique esses pontos de extremidade também.

    Se ainda não conseguir criar um cluster, contacte as equipas de contas da Microsoft e do Databricks para obter assistência.

  2. Execute ping em um IP local a partir de um bloco de anotações usando o seguinte comando:

    %sh
    ping <IP>
    

Para obter mais orientações sobre a solução de problemas, consulte estes recursos:

Etapas de configuração opcionais

Opção: rotear o tráfego do Azure Databricks usando um dispositivo virtual ou firewall

Você pode filtrar todo o tráfego de saída dos nós de cluster do Azure Databricks usando um firewall ou dispositivo DLP, como o Firewall do Azure, Palo Alto ou Barracuda. Isso permite que você inspecione o tráfego de saída para satisfazer as políticas de segurança e adicione um único IP público semelhante a NAT ou CIDR para todos os clusters a uma lista de permissões.

Ajuste estas etapas conforme necessário para seu firewall ou dispositivo DLP:

  1. Configure um dispositivo virtual ou firewall dentro da VNet de trânsito, usando as instruções em Criar um NVA.

    Se precisar de uma única configuração de firewall para vários espaços de trabalho, você poderá criar o firewall em uma sub-rede segura ou DMZ dentro da VNet do Azure Databricks, que é separada das sub-redes públicas e privadas existentes.

  2. Crie uma rota adicional na tabela de rotas personalizada para 0.0.0.0/0.

  3. Se você usar a abordagem de sub-rede segura ou DMZ, poderá criar uma tabela de rotas adicional associada exclusivamente à sub-rede DMZ. Nessa tabela de rotas, crie uma rota para 0.0.0.0.

    Defina o tipo Próximo salto dessa rota como Internet, se o tráfego for destinado a uma rede pública, ou como Gateway de Rede Virtual, se o tráfego for destinado a uma rede local.

  4. Configure regras de permissão e negação no dispositivo de firewall.

    Se você removeu as rotas para armazenamento de Blob, adicione essas rotas à lista de permissões no firewall.

    Se seus clusters dependerem de repositórios públicos, como repositórios do sistema operacional ou registros de contêiner, adicione-os à lista de permissões.

    Para obter informações sobre listas de permissões, consulte Configurações de rota definidas pelo usuário para o Azure Databricks.

Opção: Configurar DNS personalizado

Você pode usar DNS personalizado com espaços de trabalho do Azure Databricks implantados em sua própria rede virtual. Consulte os seguintes artigos da Microsoft para obter mais informações sobre como configurar o DNS personalizado para uma rede virtual do Azure:

.. importante: para resolver os endereços IP dos artefatos do Azure, você deve configurar seu DNS personalizado para encaminhar essas solicitações para o resolvedor recursivo do Azure.