Reinicie o processo Python no Azure Databricks

Você pode reiniciar programaticamente o processo Python no Azure Databricks para garantir que as bibliotecas instaladas ou atualizadas localmente funcionem corretamente no kernel Python para sua SparkSession atual.

Quando você reinicia o processo Python, você perde informações de estado do Python. O Databricks recomenda instalar todas as bibliotecas de escopo de sessão no início de um notebook e executar dbutils.library.restartPython() para limpar o processo Python antes de prosseguir.

Você pode usar esse processo em blocos de anotações interativos ou para tarefas Python agendadas com trabalhos.

O que é o dbutils.library.restartPython?

A função dbutils.library.restartPython() auxiliar é a maneira recomendada de reiniciar o processo Python em um bloco de anotações Databricks.

Nota

A maioria das funções no dbutils.library submódulo foram preteridas. O Databricks recomenda o uso %pip para gerenciar todas as instalações de bibliotecas com escopo de notebook. Veja Bibliotecas em Python com âmbito de bloco de notas.

Quando você deve reiniciar seu processo Python?

É uma boa idéia reiniciar seu processo Python sempre que você executar uma instalação local que inclua qualquer um dos seguintes:

  • Especificando uma versão de um pacote incluído no Databricks Runtime.
  • Instalação de uma versão personalizada de um pacote incluído no Databricks Runtime.
  • Atualizar explicitamente uma biblioteca para a versão mais recente usando %pip install <library-name> --upgradeo .
  • Configurando um ambiente personalizado a partir de um arquivo local requirements.txt .
  • Instalação de uma biblioteca que requer a alteração das versões de bibliotecas dependentes incluídas no Databricks Runtime.