Reiniciar o processo do Python no Azure Databricks
Você pode reiniciar programaticamente o processo do Python no Azure Databricks para garantir que as bibliotecas instaladas ou atualizadas localmente funcionem corretamente no kernel do Python para o SparkSession atual.
Ao reiniciar o processo do Python, você perde as informações de estado do Python. O Databricks recomenda instalar todas as bibliotecas no escopo da sessão no início de um notebook e executar dbutils.library.restartPython()
para limpar o processo do Python antes de continuar.
Você pode usar esse processo em notebooks interativos ou em tarefas do Python agendadas com trabalhos.
O que é dbutils.library.restartPython
?
A função auxiliar dbutils.library.restartPython()
é a maneira recomendada de reiniciar o processo do Python em um notebook do Databricks.
Observação
A maioria das funções no submódulo dbutils.library
foi preterida. O Databricks recomenda fortemente usar %pip
para gerenciar todas as instalações de biblioteca no escopo do notebook. Confira as bibliotecas Python no escopo do notebook.
Quando você deve reiniciar o processo do Python?
É uma boa ideia reiniciar o processo do Python sempre que você executar uma instalação local que inclua qualquer uma das seguintes opções:
- Especificação de uma versão de um pacote incluído no Databricks Runtime.
- Instalação de uma versão personalizada de um pacote incluído no Databricks Runtime.
- Atualização explícita de uma biblioteca para a versão mais recente usando
%pip install <library-name> --upgrade
. - Configuração de um ambiente personalizado de um arquivo
requirements.txt
local. - Instalação de uma biblioteca que requeira a alteração das versões de bibliotecas dependentes incluídas no Databricks Runtime.