O que são os arquivos do espaço de trabalho?
Um arquivo de espaço de trabalho é um arquivo na árvore de arquivos do workspace do Azure Databricks que não é um dos seguintes tipos listados:
- Notebooks
- Consultas
- Dashboards
- Espaços de gênio
- Experimentos
Além desses tipos excluídos, os arquivos de espaço de trabalho podem ser qualquer tipo de arquivo. Exemplos comuns incluem:
- Arquivos
.py
usados em módulos personalizados. - Arquivos
.md
, comoREADME.md
. .csv
ou outros arquivos de dados pequenos..txt
arquivos..whl
bibliotecas.- Arquivos de log.
Para obter recomendações sobre como trabalhar com arquivos, consulte Recomendações para arquivos em volumes e arquivos de workspace.
Sua árvore de arquivos do workspace do Azure Databricks pode conter pastas anexadas a um repositório Git chamado “Pastas Git do Databricks”. Há limitações adicionais em relação ao suporte de tipo de arquivo. Para obter uma lista dos tipos de arquivo compatíveis com pastas Git (anteriormente "Repos"), consulte Tipos de ativos compatíveis com pastas Git.
Importante
Os arquivos de espaço de trabalho estão habilitados em todos os lugares por padrão no Databricks Runtime 11.2. Nas cargas de trabalho de produção, use o Databricks Runtime 11.3 LTS ou superior. Entre em contato com o administrador do workspace se você não puder acessar essa funcionalidade.
O que você pode fazer com os arquivos do workspace
O Azure Databricks fornece funcionalidade semelhante ao desenvolvimento local para muitos tipos de arquivos de espaço de trabalho, incluindo um editor de arquivos interno. Nem todos os casos de uso para todos os tipos de arquivo são suportados.
Você pode criar, editar e gerenciar o acesso aos arquivos do espaço de trabalho usando padrões familiares das interações do notebook. É possível usar caminhos relativos para importações de bibliotecas de arquivos do espaço de trabalho, semelhante ao desenvolvimento local. Para obter mais informações, consulte:
- Uso básico de arquivos do espaço de trabalho
- Interaja programaticamente com os arquivos do espaço de trabalho
- Trabalhar com módulos do Python e R
- Exibir imagens
- Gerenciar notebooks
- ACLs de arquivo
Os scripts de inicialização armazenados em arquivos do espaço de trabalho têm um comportamento especial. É possível usar arquivos do espaço de trabalho para armazenar e referenciar scripts de inicialização em qualquer versão do Databricks Runtime. Consulte Armazenar scripts de inicialização em arquivos do espaço de trabalho.
Observação
No Databricks Runtime 14.0 e superior, o CWD (diretório de trabalho atual) padrão para o código executado localmente é o diretório que contém o notebook ou o script que está sendo executado. Essa é uma alteração no comportamento do Databricks Runtime 13.3 LTS e inferior. Consulte Qual é o diretório de trabalho padrão atual?.
Limitações
- Se o fluxo de trabalho usar o código-fonte localizado em um repositório remoto do Git, você não poderá gravar no diretório atual ou gravar usando um caminho relativo. Grave dados em outras opções de localização.
- Você não pode usar
git
comandos ao salvar em arquivos de workspace. A criação de diretórios de.git
não é permitida em arquivos de workspace. - Não há suporte para a leitura de arquivos de espaço de trabalho usando executores do Spark (como
spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")
) com computação sem servidor. - Os executores não podem gravar em arquivos de workspace.
- Os links simbólicos são suportados para diretórios de destino na
/Workspace
pasta raiz. - Os arquivos de workspace não podem ser acessados das UDFs (funções definidas pelo usuário) em clusters com modo de acesso compartilhado no Databricks Runtime 14.2 e abaixo.
Limite de tamanho de arquivo
- O tamanho do arquivo do workspace é limitado a 500 MB da interface do usuário. O tamanho máximo de arquivo permitido ao gravar em um cluster é de 256 MB.
Limite de permissão de acesso a arquivos
A permissão para acessar arquivos em pastas expira /Workspace
após 36 horas para computação interativa e após 30 dias para trabalhos. O Databricks recomenda a execução de execuções longas como trabalhos se eles precisarem de acesso ao arquivo /Workspace.
Habilitar arquivos de workspace
Para habilitar o suporte para arquivos que não são notebooks no workspace do Databricks, chame a API REST /api/2.0/workspace-conf de um notebook ou outro ambiente com acesso ao workspace do Databricks. Os arquivos de workspace são habilitados por padrão.
Para habilitar ou reabilitar o suporte para arquivos que não são notebooks no workspace do Databricks, chame a /api/2.0/workspace-conf
e obtenha o valor da chave enableWorkspaceFileSystem
. Se ele estiver definido como true
, arquivos que não são notebooks já estão habilitados para seu workspace.
O exemplo a seguir demonstra como você pode chamar essa API de um notebook para verificar se os arquivos de workspace estão desabilitados e, em caso afirmativo, habilitá-los novamente.