Instalar dependências do bloco de notas

Você pode instalar dependências Python para notebooks sem servidor usando o painel lateral Ambiente. Este painel fornece um único local para editar, visualizar e exportar os requisitos da biblioteca de um bloco de anotações. Essas dependências podem ser adicionadas usando um ambiente base ou individualmente.

Painel de ambiente sem servidor

Para tarefas que não sejam do bloco de anotações, consulte Configurar ambientes e dependências para tarefas que não sejam do bloco de anotações.

Importante

Não instale o PySpark ou qualquer biblioteca que instale o PySpark como uma dependência em seus notebooks sem servidor. Isso interromperá sua sessão e resultará em um erro. Se isso ocorrer, redefina seu ambiente.

Configurar um ambiente base

Um ambiente base é um arquivo YAML armazenado como um arquivo de espaço de trabalho ou em um volume do Catálogo Unity que especifica dependências de ambiente adicionais. Os ambientes básicos podem ser compartilhados entre notebooks. Para configurar um ambiente base:

  1. Crie um arquivo YAML que define configurações para um ambiente virtual Python. O exemplo a seguir YAML, que é baseado na especificação de ambiente de projetos MLflow, define um ambiente base com algumas dependências de biblioteca:

    client: "1"
    dependencies:
      - --index-url https://pypi.org/simple
      - -r "/Workspace/Shared/requirements.txt"
      - cowsay==6.1
    
  2. Carregue o arquivo YAML como um arquivo de espaço de trabalho ou para um volume do Catálogo Unity. Consulte Importar um arquivo ou Carregar arquivos para um volume do Catálogo Unity.

  3. À direita do bloco de anotações, clique no ambiente botão para expandir o painel Ambiente . Esse botão só aparece quando um bloco de anotações está conectado à computação sem servidor.

  4. No campo Ambiente Base, insira o caminho do arquivo YAML carregado ou navegue até ele e selecione-o.

  5. Clique em Aplicar. Isso instala as dependências no ambiente virtual do notebook e reinicia o processo do Python.

Os usuários podem substituir as dependências especificadas no ambiente base instalando dependências individualmente.

Adicionar dependências individualmente

Você também pode instalar dependências em um bloco de anotações conectado à computação sem servidor usando a guia Dependências do painel Ambiente :

  1. À direita do bloco de anotações, clique no ambiente botão para expandir o painel Ambiente . Esse botão só aparece quando um bloco de anotações está conectado à computação sem servidor.
  2. Na seção Dependências, clique em Adicionar Dependência e insira o caminho da dependência da biblioteca no campo. Você pode especificar uma dependência em qualquer formato que seja válido em um arquivo requirements.txt .
  3. Clique em Aplicar. Isso instala as dependências no ambiente virtual do notebook e reinicia o processo do Python.

Nota

Um trabalho usando computação sem servidor instalará a especificação de ambiente do bloco de anotações antes de executar o código do bloco de anotações. Isso significa que não há necessidade de adicionar dependências ao agendar blocos de anotações como trabalhos. Consulte Configurar ambientes e dependências.

Exibir dependências instaladas e logs pip

Para visualizar as dependências instaladas, clique em Instalado no painel lateral Ambientes de um bloco de anotações. Os logs de instalação de pip para o ambiente de notebook também estão disponíveis clicando em logs de pip na parte inferior do painel.

Redefinir o ambiente

Se o seu bloco de notas estiver ligado a computação sem servidor, o Databricks armazenará automaticamente em cache o conteúdo do ambiente virtual do bloco de notas. Isso significa que você geralmente não precisa reinstalar as dependências Python especificadas no painel Ambiente quando abre um bloco de anotações existente, mesmo que ele tenha sido desconectado devido à inatividade.

O cache do ambiente virtual Python também se aplica a trabalhos. Isso significa que as execuções subsequentes de trabalhos são mais rápidas, pois as dependências necessárias já estão disponíveis.

Nota

Se você alterar a implementação de um pacote Python personalizado que é usado em um trabalho sem servidor, você também deve atualizar seu número de versão para trabalhos para pegar a implementação mais recente.

Para limpar o cache do ambiente e executar uma nova instalação das dependências especificadas no painel Ambiente de um bloco de anotações conectado à computação sem servidor, clique na seta ao lado de Aplicar e, em seguida, clique em Redefinir ambiente.

Nota

Redefina o ambiente virtual se você instalar pacotes que quebram ou alteram o bloco de anotações principal ou o ambiente Apache Spark. Desanexar o notebook da computação sem servidor e reanexá-lo não necessariamente limpa todo o cache do ambiente.

Configurar ambientes e dependências para tarefas que não sejam do bloco de anotações

Para outros tipos de tarefas suportados, como script Python, roda Python ou tarefas dbt, um ambiente padrão inclui bibliotecas Python instaladas. Para ver a lista de bibliotecas instaladas, consulte a seção Bibliotecas Python instaladas nas notas de versão da versão do Databricks Runtime na qual a computação sem servidor para implantação de fluxos de trabalho é baseada. Para ver a versão atual do Databricks Runtime usada pela computação sem servidor para fluxos de trabalho, consulte Notas de versão de computação sem servidor. Se uma tarefa exigir uma biblioteca Python que não esteja instalada, você poderá instalá-la a partir de arquivos de espaço de trabalho, volumes do Catálogo Unity ou repositórios de pacotes públicos. Para adicionar uma biblioteca ao criar ou editar uma tarefa:

  1. No menu suspenso Ambiente e Bibliotecas, clique aoÍcone Editar lado do Ambiente padrão ou clique em + Adicionar novo ambiente.

    Editar ambiente padrão

  2. Na caixa de diálogo Configurar ambiente, clique em + Adicionar biblioteca.

  3. Selecione o tipo de dependência no menu suspenso em Bibliotecas.

  4. Na caixa de texto Caminho do Arquivo , insira o caminho para a biblioteca.

  • Para uma roda Python em um arquivo de espaço de trabalho, o caminho deve ser absoluto e começar com /Workspace/.

  • Para uma roda Python em um volume do catálogo Unity, o caminho deve ser /Volumes/<catalog>/<schema>/<volume>/<path>.whl.

  • Para um requirements.txt arquivo, selecione PyPi e digite -r /path/to/requirements.txt.

    Adicionar bibliotecas de tarefas

  1. Clique em Confirmar ou + Adicionar biblioteca para adicionar outra biblioteca.
  2. Se estiver a adicionar uma tarefa, clique em Criar tarefa. Se estiver editando uma tarefa, clique em Salvar tarefa.