O que são os arquivos do espaço de trabalho?

Um arquivo de espaço de trabalho é um arquivo na árvore de arquivos do workspace do Azure Databricks que não é um dos seguintes tipos listados:

  • Notebooks
  • Consultas
  • Dashboards
  • Espaços de gênio
  • Experimentos

Além desses tipos excluídos, os arquivos de espaço de trabalho podem ser qualquer tipo de arquivo. Exemplos comuns incluem:

  • Arquivos .py usados em módulos personalizados.
  • Arquivos .md, como README.md.
  • .csv ou outros arquivos de dados pequenos.
  • .txt arquivos.
  • .whl bibliotecas.
  • Arquivos de log.

Para obter recomendações sobre como trabalhar com arquivos, consulte Recomendações para arquivos em volumes e arquivos de workspace.

Sua árvore de arquivos do workspace do Azure Databricks pode conter pastas anexadas a um repositório Git chamado “Pastas Git do Databricks”. Há limitações adicionais em relação ao suporte de tipo de arquivo. Para obter uma lista dos tipos de arquivo compatíveis com pastas Git (anteriormente "Repos"), consulte Tipos de ativos compatíveis com pastas Git.

Importante

Os arquivos de espaço de trabalho estão habilitados em todos os lugares por padrão no Databricks Runtime 11.2. Nas cargas de trabalho de produção, use o Databricks Runtime 11.3 LTS ou superior. Entre em contato com o administrador do workspace se você não puder acessar essa funcionalidade.

O que você pode fazer com os arquivos do workspace

O Azure Databricks fornece funcionalidade semelhante ao desenvolvimento local para muitos tipos de arquivos de espaço de trabalho, incluindo um editor de arquivos interno. Nem todos os casos de uso para todos os tipos de arquivo são suportados.

Você pode criar, editar e gerenciar o acesso aos arquivos do espaço de trabalho usando padrões familiares das interações do notebook. É possível usar caminhos relativos para importações de bibliotecas de arquivos do espaço de trabalho, semelhante ao desenvolvimento local. Para obter mais informações, consulte:

Os scripts de inicialização armazenados em arquivos do espaço de trabalho têm um comportamento especial. É possível usar arquivos do espaço de trabalho para armazenar e referenciar scripts de inicialização em qualquer versão do Databricks Runtime. Consulte Armazenar scripts de inicialização em arquivos do espaço de trabalho.

Observação

No Databricks Runtime 14.0 e superior, o CWD (diretório de trabalho atual) padrão para o código executado localmente é o diretório que contém o notebook ou o script que está sendo executado. Essa é uma alteração no comportamento do Databricks Runtime 13.3 LTS e inferior. Consulte Qual é o diretório de trabalho padrão atual?.

Limitações

  • Se o fluxo de trabalho usar o código-fonte localizado em um repositório remoto do Git, você não poderá gravar no diretório atual ou gravar usando um caminho relativo. Grave dados em outras opções de localização.
  • Você não pode usar git comandos ao salvar em arquivos de workspace. A criação de diretórios de .git não é permitida em arquivos de workspace.
  • Não há suporte para a leitura de arquivos de espaço de trabalho usando executores do Spark (como spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")) com computação sem servidor.
  • Os executores não podem gravar em arquivos de workspace.
  • Os links simbólicos são suportados para diretórios de destino na /Workspace pasta raiz.
  • Os arquivos de workspace não podem ser acessados das UDFs (funções definidas pelo usuário) em clusters com modo de acesso compartilhado no Databricks Runtime 14.2 e abaixo.

Limite de tamanho de arquivo

  • O tamanho do arquivo do workspace é limitado a 500 MB da interface do usuário. O tamanho máximo de arquivo permitido ao gravar em um cluster é de 256 MB.

Limite de permissão de acesso a arquivos

A permissão para acessar arquivos em pastas expira /Workspace após 36 horas para computação interativa e após 30 dias para trabalhos. O Databricks recomenda a execução de execuções longas como trabalhos se eles precisarem de acesso ao arquivo /Workspace.

Habilitar arquivos de workspace

Para habilitar o suporte para arquivos que não são notebooks no workspace do Databricks, chame a API REST /api/2.0/workspace-conf de um notebook ou outro ambiente com acesso ao workspace do Databricks. Os arquivos de workspace são habilitados por padrão.

Para habilitar ou reabilitar o suporte para arquivos que não são notebooks no workspace do Databricks, chame a /api/2.0/workspace-conf e obtenha o valor da chave enableWorkspaceFileSystem. Se ele estiver definido como true, arquivos que não são notebooks já estão habilitados para seu workspace.

O exemplo a seguir demonstra como você pode chamar essa API de um notebook para verificar se os arquivos de workspace estão desabilitados e, em caso afirmativo, habilitá-los novamente.

Exemplo: notebook para habilitar novamente o suporte ao arquivo de workspace do Databricks

Obter notebook