Reiniciar o processo do Python no Azure Databricks

Você pode reiniciar programaticamente o processo do Python no Azure Databricks para garantir que as bibliotecas instaladas ou atualizadas localmente funcionem corretamente no kernel do Python para o SparkSession atual.

Ao reiniciar o processo do Python, você perde as informações de estado do Python. O Databricks recomenda instalar todas as bibliotecas no escopo da sessão no início de um notebook e executar dbutils.library.restartPython() para limpar o processo do Python antes de continuar.

Você pode usar esse processo em notebooks interativos ou em tarefas do Python agendadas com trabalhos.

O que é dbutils.library.restartPython?

A função auxiliar dbutils.library.restartPython() é a maneira recomendada de reiniciar o processo do Python em um notebook do Databricks.

Observação

A maioria das funções no submódulo dbutils.library foi preterida. O Databricks recomenda fortemente usar %pip para gerenciar todas as instalações de biblioteca no escopo do notebook. Confira as bibliotecas Python no escopo do notebook.

Quando você deve reiniciar o processo do Python?

É uma boa ideia reiniciar o processo do Python sempre que você executar uma instalação local que inclua qualquer uma das seguintes opções:

  • Especificação de uma versão de um pacote incluído no Databricks Runtime.
  • Instalação de uma versão personalizada de um pacote incluído no Databricks Runtime.
  • Atualização explícita de uma biblioteca para a versão mais recente usando %pip install <library-name> --upgrade.
  • Configuração de um ambiente personalizado de um arquivo requirements.txt local.
  • Instalação de uma biblioteca que requeira a alteração das versões de bibliotecas dependentes incluídas no Databricks Runtime.