Configuração de cluster para Databricks Connect

Nota

Este artigo aborda o Databricks Connect for Databricks Runtime 13.3 LTS e superior.

Este artigo lista as definições de configuração para a computação do Azure Databricks necessária para que o Databricks Connect se conecte a eles. Essas informações se aplicam à versão Python e Scala do Databricks Connect, salvo indicação em contrário.

O Databricks Connect permite conectar IDEs populares, como Visual Studio Code, PyCharm, RStudio Desktop, IntelliJ IDEA, servidores de notebook e outros aplicativos personalizados a clusters do Azure Databricks. Consulte O que é Databricks Connect?.

Requisitos

  • Uma conta e um espaço de trabalho do Azure Databricks com o Unity Catalog habilitado. Consulte Configurar e gerenciar o Catálogo Unity e Habilitar um espaço de trabalho para o Catálogo Unity.
  • Um cluster do Azure Databricks com o Databricks Runtime 13.3 LTS ou superior instalado.
  • A versão do Databricks Runtime do cluster deve ser igual ou superior à versão do pacote Databricks Connect. O Databricks recomenda que você use o pacote mais recente do Databricks Connect que corresponda à versão do Databricks Runtime. Se você quiser usar recursos que estão disponíveis em versões posteriores do Databricks Runtime, você deve atualizar o pacote Databricks Connect. Consulte as notas de versão do Databricks Connect para obter uma lista das versões disponíveis do Databricks Connect. Para obter as notas de versão da versão do Databricks Runtime, consulte Versões e compatibilidade das notas de versão do Databricks Runtime.
  • O cluster deve usar um modo de acesso ao cluster de Atribuído ou Compartilhado. Consulte Modos de acesso.

Validação programática

No Databricks Connect 14.3 e superior, DatabricksSession.builder apresenta validateSessiono , que executa uma série de validações para garantir que os requisitos anteriores sejam atendidos.

No Databricks Connect for Python, o databricks-connect binário tem um test subcomando que executa o mesmo conjunto de validações.

Este comando deve ser executado no terminal com um ambiente Python ativo que inclua o Databricks Connect e com o conjunto de credenciais padrão configurado. Para configurar essas credenciais, consulte Configurar propriedades de conexão.

databricks-connect test

O comando falhará com um código de saída diferente de zero e uma mensagem apropriada quando qualquer um dos requisitos não for atendido.

Desativando o Databricks Connect

Os serviços Databricks Connect (e o Spark Connect subjacente) podem ser desativados em qualquer cluster.

Para desativar o serviço Databricks Connect, defina a seguinte configuração do Spark no cluster.

spark.databricks.service.server.enabled false

Próximos passos