Habilite o suporte de firewall para sua conta de armazenamento do workspace

Cada espaço de trabalho do Azure Databricks tem uma conta de armazenamento do Azure associada em um grupo de recursos gerenciado, conhecida como conta de armazenamento do espaço de trabalho. A conta de armazenamento do espaço de trabalho inclui dados do sistema de espaço de trabalho (saída de trabalho, configurações do sistema e logs), raiz DBFS e, em alguns casos, um catálogo de espaço de trabalho do Unity Catalog. Esse artigo descreve como limitar o acesso à conta de armazenamento do espaço de trabalho somente aos recursos e redes autorizadas que usarem um modelo do ARM (Azure Resource Manager).

Qual é o suporte de firewall para sua conta de armazenamento do workspace?

Por padrão, a conta de armazenamento do Azure para sua conta de armazenamento do workspace aceita conexões autenticadas de todas as redes. Você pode limitar esse acesso habilitando o suporte de firewall para sua conta de armazenamento do workspace. Isso garante que o acesso à rede pública não seja permitido e que a conta de armazenamento do espaço de trabalho não seja acessível a partir de redes não autorizadas. Talvez você queira configurar isso se sua organização tiver políticas do Azure que garantam que as contas de armazenamento sejam privadas.

Quando o suporte de firewall para a sua conta de armazenamento do espaço de trabalho está habilitado, todo o acesso de serviços fora do Azure Databricks deve utilizar pontos de extremidades privados aprovados com Private Link. O Azure Databricks cria um conector de acesso para se conectar ao armazenamento usando uma identidade gerenciada pelo Azure. O acesso da computação sem servidor do Azure Databricks deve usar pontos de extremidade de serviço ou privados.

Requisitos

  • O espaço de trabalho deverá permitir a injeção de VNet nas conexões do plano de computação clássico.

  • Seu espaço de trabalho deve habilitar conectividade segura de cluster (sem IP público/NPIP) para conexões do plano de computação clássico.

  • Seu workspace deve estar no plano Premium.

  • Você deve ter uma sub-rede separada para os pontos de extremidades privados da conta de armazenamento. Isso é um acréscimo às duas sub-redes principais para a funcionalidade básica do Azure Databricks.

    A sub-rede deve estar na mesma VNet que o espaço de trabalho ou numa VNet separada que o espaço de trabalho possa aceder. Use o tamanho mínimo /28 na notação CIDR.

  • Se você estiver usando o Cloud Fetch com o serviço Microsoft Fabric Power BI, deverá sempre usar um gateway para acesso privado à conta de armazenamento do workspace ou desabilitar o Cloud Fetch. Veja Etapa 2 (recomendado): configurar pontos de extremidades privados para VNets do cliente Cloud Fetch.

Você também pode usar o modelo do ARM na Etapa 5: Implantar o modelo do ARM necessário para criar um novo workspace. Nesse caso, desligue toda a computação no workspace antes de seguir as etapas 1 a 4.

Etapa 1: Criar pontos de extremidades privados para a conta de armazenamento

Crie dois pontos de extremidades privados para a sua conta de armazenamento do espaço de trabalho a partir da sua VNet que utilizou para injeção de VNet para os valores Sub-recurso de destino: dfs e blob.

  1. No portal do Azure, navegue até seu workspace.

  2. Em Essentials, clique no nome do Grupo de Recursos Gerenciados.

  3. Em Recursos, clique no recurso do tipo Conta de armazenamento que tem um nome que começa com dbstorage.

  4. Na barra lateral, clique em Rede.

  5. Clique em conexões de ponto de extremidade privado.

  6. Clique em + Ponto de extremidade privado.

  7. No campo Grupo de recursos nome, defina seu grupo de recursos.

    Importante

    Esse grupo de recursos não deverá ser o mesmo grupo de recursos gerenciado no qual a conta de armazenamento do espaço de trabalho estiver localizada.

  8. No campo Nome, digite um nome exclusivo para esse ponto de extremidade privado:

    • Para o primeiro ponto de extremidade privado criado para cada rede de origem, crie um ponto extremidade DFS. Databricks recomenda que você adicione o sufixo -dfs-pe
    • Para o segundo ponto de extremidade privado que cria para cada rede de origem, crie um ponto de extremidade Blob. Databricks recomenda que você adicione o sufixo -blob-pe

    O campo Nome da interface de rede é preenchido automaticamente.

  9. Defina o campo Região para a região do seu espaço de trabalho.

  10. Clique em Avançar.

  11. Em Target sub-resource, clique no tipo de recurso de destino.

    • Para o primeiro ponto de extremidade privado criado para cada rede de origem, defina-o como dfs.
    • Para o segundo ponto de extremidade privado que você cria para cada rede de origem, defina como blob.
  12. No campo Rede virtual, selecione uma VNet.

  13. No campo sub-rede, defina a sub-rede como a sub-rede separada que você tem para os pontos de extremidades privados da conta de armazenamento.

    Esse campo pode ser preenchido automaticamente com a sub-rede dos seus pontos de extremidades privados, mas poderá ter de o definir explicitamente. Você não pode usar uma das duas sub-redes do espaço de trabalho usadas para a funcionalidade básica do espaço de trabalho do Azure Databricks, que normalmente são chamadas private-subnet e public-subnet.

  14. Clique em Avançar. A guia DNS é preenchida automaticamente para a assinatura correta e o grupo de recursos que você selecionou anteriormente. Altere-os se necessário.

  15. Clique em Avançar e adicione tags, se desejar.

  16. Clique em Avançar e revise os campos.

  17. Clique em Criar.

Para desabilitar o suporte de firewall para sua conta de armazenamento de espaço de trabalho, use o mesmo processo acima, mas defina o parâmetro Firewall da conta de armazenamento (storageAccountFirewall no modelo) como Disabled e defina o campo Workspace Catalog Enabled como true ou false com base se seu espaço de trabalho usa um espaço de trabalho do Unity Catalog Catálogo. Confira O que são os catálogos do Azure Databricks?.

Etapa 2 (recomendado): configurar pontos de extremidades privados para VNets do cliente Cloud Fetch

Cloud Fetch é um mecanismo em ODBC e JDBC para buscar dados em paralelo por meio de armazenamento em nuvem para levar os dados mais rapidamente para ferramentas de BI. Se você estiver buscando resultados de consulta maiores que 1 MB de ferramentas de BI, provavelmente está usando o Cloud Fetch.

Observação

Se você estiver usando o serviço Microsoft Fabric Power BI com Azure Databricks, deverá desabilitar o Cloud Fetch, pois esse recurso bloqueia o acesso direto à conta de armazenamento do workspace do Fabric Power BI. Como alternativa, você pode configurar um gateway de dados de rede virtual ou um gateway de dados local para permitir acesso privado à conta de armazenamento do workspace. Isso não se aplica ao Power BI desktop. Para desabilitar o Cloud Fetch, use a configuração EnableQueryResultDownload=0.

Se utilizar o Cloud Fetch, crie pontos de extremidades privados para a conta de armazenamento do espaço de trabalho a partir de quaisquer VNets dos seus clientes Cloud Fetch.

Para cada rede de origem para clientes do Cloud Fetch, crie dois pontos de extremidades privados que usam dois valores diferentes de Sub-recurso de destino: dfs e blob. Consulte Etapa 1: criar pontos de extremidades privados para a conta de armazenamento para obter etapas detalhadas. Nessas etapas, para o campo Rede virtual ao criar o ponto de extremidade privado, certifique-se de especificar sua VNet de origem para cada cliente do Cloud Fetch.

Etapa 3: confirmar as aprovações do Ponto de extremidade

Depois de criar todos os seus pontos de extremidades privados para a conta de armazenamento, verifique se foram aprovados. Eles podem ser aprovados automaticamente ou talvez você precise aprová-los na conta de armazenamento.

  1. Navegue até o workspace no portal do Azure.
  2. Em Essentials, clique no nome do Grupo de Recursos Gerenciados.
  3. Em Recursos, clique no recurso do tipo Conta de armazenamento que tem um nome que começa com dbstorage.
  4. Na barra lateral, clique em Rede.
  5. Clique em conexões de ponto de extremidade privado.
  6. Verifique o Estado da conexão para confirmar se eles dizem Aprovado ou selecione-os e clique em Aprovar.

Etapa 4: autorizar conexões de computação sem servidor

Autorize a computação sem servidor a se conectar à conta de armazenamento do workspace anexando uma NCC (configuração de conectividade de rede) ao workspace. Quando um NCC é anexado a um espaço de trabalho, as regras de rede são automaticamente adicionadas à conta de armazenamento do Azure para a conta de armazenamento do espaço de trabalho. Para obter instruções, confira Configurar um firewall para acesso à computação sem servidor.

Para habilitar o acesso da computação sem servidor do Azure Databricks usando pontos de extremidade privados, entre em contato com sua equipe de contas do Azure Databricks.

Etapa 5: implantar o modelo ARM necessário

Esta etapa usa um modelo do ARM para gerenciar o workspace do Azure Databricks. Também é possível atualizar ou criar um workspace usando o Terraform. Consulte o provedor Terraform azurerm_databricks_workspace.

  1. No portal do Azure, pesquise e selecione Deploy a custom template.

  2. Clique em Criar seu próprio modelo no editor.

  3. Copie o modelo ARM de Modelo ARM para suporte de firewall para sua conta de armazenamento de espaço de trabalho e cole-o no editor.

  4. Clique em Save (Salvar).

  5. Revise e edite campos. Use os mesmos parâmetros usados para criar o espaço de trabalho, como assinatura, região, nome do espaço de trabalho, nomes da sub-rede ou ID do recurso da VNet existente.

    Para obter uma descrição dos campos, veja Campos do modelo ARM.

  6. Clique em Revisar e Criar e depois em Criar.

Observação

O acesso à rede pública na conta de armazenamento do workspace é definido como Habilitado em redes virtuais e endereços IP selecionados e não como Desabilitado para dar suporte a recursos de computação sem servidor sem a necessidade de pontos de extremidade privados. A conta de armazenamento do workspace está em um grupo de recursos gerenciados e o firewall de armazenamento só pode ser atualizado ao adicionar uma NCC (configuração de conectividade de rede) para conexões sem servidor com o workspace. Para habilitar o acesso da computação sem servidor do Azure Databricks usando pontos de extremidade privados, entre em contato com sua equipe de contas do Azure Databricks.