Use o JupyterLab com o Databricks Connect para Python

Nota

Este artigo aborda o Databricks Connect for Databricks Runtime 13.3 LTS e superior.

Este artigo aborda como usar o Databricks Connect para Python com o JupyterLab. O Databricks Connect permite conectar servidores de notebook populares, IDEs e outros aplicativos personalizados a clusters do Azure Databricks. Consulte O que é Databricks Connect?.

Nota

Antes de começar a usar o Databricks Connect, você deve configurar o cliente Databricks Connect.

Para usar o Databricks Connect com JupyterLab e Python, siga estas instruções.

  1. Para instalar o JupyterLab, com seu ambiente virtual Python ativado, execute o seguinte comando no seu terminal ou prompt de comando:

    pip3 install jupyterlab
    
  2. Para iniciar o JupyterLab no seu navegador da web, execute o seguinte comando a partir do seu ambiente virtual Python ativado:

    jupyter lab
    

    Se o JupyterLab não aparecer no seu navegador da Web, copie o URL que começa com localhost ou 127.0.0.1 do seu ambiente virtual e insira-o na barra de endereço do seu navegador da Web.

  3. Crie um novo bloco de anotações: no JupyterLab, clique em Arquivo > Novo > Notebook no menu principal, selecione Python 3 (ipykernel) e clique em Selecionar.

  4. Na primeira célula do bloco de notas, introduza o código de exemplo ou o seu próprio código. Se você usar seu próprio código, no mínimo você deve inicializar DatabricksSession como mostrado no código de exemplo.

  5. Para executar o bloco de anotações, clique em Executar > Executar Todas as Células. Todo o código é executado localmente, enquanto todo o código que envolve operações DataFrame é executado no cluster no espaço de trabalho remoto do Azure Databricks e as respostas de execução são enviadas de volta ao chamador local.

  6. Para depurar o bloco de anotações, clique no ícone de bug (Ativar Depurador) ao lado de Python 3 (ipykernel) na barra de ferramentas do bloco de anotações. Defina um ou mais pontos de interrupção e clique em Executar > Executar Todas as Células. Todo o código é depurado localmente, enquanto todo o código do Spark continua a ser executado no cluster no espaço de trabalho remoto do Azure Databricks. O código principal do mecanismo Spark não pode ser depurado diretamente do cliente.

  7. Para encerrar o JupyterLab, clique em Encerrar Ficheiros>. Se o processo JupyterLab ainda estiver em execução no seu terminal ou prompt de comando, pare esse processo pressionando Ctrl + c e entrando y para confirmar.

Para obter instruções de depuração mais específicas, consulte Depurador.