Reinicie o processo Python no Azure Databricks
Você pode reiniciar programaticamente o processo Python no Azure Databricks para garantir que as bibliotecas instaladas ou atualizadas localmente funcionem corretamente no kernel Python para sua SparkSession atual.
Quando você reinicia o processo Python, você perde informações de estado do Python. O Databricks recomenda instalar todas as bibliotecas de escopo de sessão no início de um notebook e executar dbutils.library.restartPython()
para limpar o processo Python antes de prosseguir.
Você pode usar esse processo em blocos de anotações interativos ou para tarefas Python agendadas com trabalhos.
O que é o dbutils.library.restartPython
?
A função dbutils.library.restartPython()
auxiliar é a maneira recomendada de reiniciar o processo Python em um bloco de anotações Databricks.
Nota
A maioria das funções no dbutils.library
submódulo foram preteridas. O Databricks recomenda o uso %pip
para gerenciar todas as instalações de bibliotecas com escopo de notebook. Veja Bibliotecas em Python com âmbito de bloco de notas.
Quando você deve reiniciar seu processo Python?
É uma boa idéia reiniciar seu processo Python sempre que você executar uma instalação local que inclua qualquer um dos seguintes:
- Especificando uma versão de um pacote incluído no Databricks Runtime.
- Instalação de uma versão personalizada de um pacote incluído no Databricks Runtime.
- Atualizar explicitamente uma biblioteca para a versão mais recente usando
%pip install <library-name> --upgrade
o . - Configurando um ambiente personalizado a partir de um arquivo local
requirements.txt
. - Instalação de uma biblioteca que requer a alteração das versões de bibliotecas dependentes incluídas no Databricks Runtime.