Visão geral da arquitetura do Azure Databricks
Este artigo fornece uma visão geral de alto nível da arquitetura do Azure Databricks, incluindo sua arquitetura corporativa em combinação com o Azure.
Arquitetura de alto nível
O Azure Databricks funciona em um plano de controle e em um plano de computação.
O plano de controle inclui os serviços de back-end gerenciados pelo Azure Databricks na sua conta do Azure Databricks. O aplicativo Web está no plano de controle.
O plano de computação é onde os dados são processados. Há dois tipos de planos de computação dependendo da computação que você está usando.
- Para computação sem servidor, os recursos de computação sem servidor são executados em um plano de computação sem servidor em sua conta do Azure Databricks.
- Para computação clássica do Azure Databricks, os recursos de computação estão em sua assinatura do Azure no que é chamado de plano de computação clássico. Isso se refere à rede na sua assinatura do Azure e seus recursos.
Para saber mais sobre computação clássica e computação sem servidor, confira Tipos de computação.
Cada workspace do Azure Databricks tem uma conta de armazenamento associada conhecida como conta de armazenamento do workspace. A conta de armazenamento do workspace está em sua assinatura do Azure.
O diagrama a seguir descreve a arquitetura geral do Azure Databricks.
Plano de computação sem servidor
No plano de computação sem servidor, os recursos de computação do Azure Databricks são executados em uma camada de computação em sua conta do Azure Databricks. O Azure Databricks cria um plano de computação sem servidor na mesma região do Azure que o plano de computação clássico do seu workspace. Você seleciona essa região ao criar um espaço de trabalho.
Para proteger os dados do cliente dentro do plano de computação sem servidor, a computação sem servidor é executada dentro de um limite de rede do workspace, com várias camadas de segurança para isolar diferentes workspaces de cliente do Azure Databricks e controles de rede adicionais entre clusters do mesmo cliente.
Para saber mais sobre a rede no plano de computação sem servidor, consulte Rede do plano de computação sem servidor.
Plano de computação clássico
No plano de computação clássico, os recursos de computação do Azure Databricks são executados em sua assinatura do Azure. Novos recursos de computação são criados na rede virtual de cada workspace na assinatura do Azure do cliente.
Um plano de computação clássico tem isolamento natural porque é executado na própria assinatura do Azure de cada cliente. Para saber mais sobre a rede no plano de computação clássico, consulte Rede do plano de computação clássico.
Para obter suporte regional, confira Regiões do Azure Databricks.
Conta de armazenamento do Workspace
Quando você cria um workspace, o Azure Databricks cria uma conta em sua assinatura do Azure para usar como a conta de armazenamento do workspace.
A conta de armazenamento do workspace contém:
- dados do sistema de workspace: dados do sistema de workspace é gerado à medida que você usa vários recursos do Azure Databricks, como a criação de notebooks. Esse bucket inclui revisões de notebook, detalhes da execução do trabalho, resultados de comando e logs do Spark
- DBFS: DBFS (Sistema de Arquivos do Databricks) é um sistema de arquivos distribuído em ambientes do Azure Databricks acessíveis no namespace
dbfs:/
. As montagens DBFS raiz e DBFS estão no namespacedbfs:/
. O armazenamento e acesso de dados usando montagens DBFS raiz ou DBFS é um padrão preterido e não recomendado pelo Databricks. Para obter mais informações, consulte O que é DBFS?. - catálogo de workspaces do Catálogo do Unity: Se o workspace tiver sido habilitado automaticamente para o Catálogo do Unity, a conta de armazenamento do workspace conterá o catálogo de workspaces padrão. Todos os usuários em seu workspace podem criar ativos no esquema padrão neste catálogo. Consulte Configurar e gerenciar o Catálogo do Unity.
Para limitar o acesso à sua conta de armazenamento do workspace somente de recursos e redes autorizados, consulte Habilitar o suporte de firewall para sua conta de armazenamento do workspace.