Che cosa sono i file di area di lavoro?

Un file di area di lavoro è un file nell'albero dei file dell'area di lavoro di Azure Databricks che non è uno dei tipi elencati di seguito:

  • Notebook
  • Query
  • Dashboard
  • Spazi genie
  • Sperimentazioni

Oltre a questi tipi esclusi, i file dell'area di lavoro possono essere di qualsiasi tipo di file. Esempi comuni prevedono:

  • File .py usati nei moduli personalizzati.
  • File .md , ad esempio README.md.
  • .csv o altri file di dati di piccole dimensioni.
  • File .txt.
  • Librerie .whl.
  • File di log.

Per consigli sull'uso dei file, vedere Raccomandazioni per i file nei volumi e nei file di area di lavoro.

L'albero dei file di area di lavoro di Azure Databricks può contenere cartelle collegate a un repository Git denominato "Cartelle Git di Databricks". Hanno alcune limitazioni aggiuntive nel supporto del tipo di file. Per un elenco dei tipi di file supportati nelle cartelle Git (in precedenza "Repos"), vedere Tipi di asset supportati nelle cartelle Git.

Importante

I file di area di lavoro sono abilitati ovunque per impostazione predefinita in Databricks Runtime versione 11.2. Per i carichi di lavoro di produzione, usare Databricks Runtime 11.3 LTS o versione successiva. Se non è possibile accedere a questa funzionalità, contattare l'amministratore dell'area di lavoro.

Operazioni che è possibile eseguire con i file di area di lavoro

Azure Databricks offre funzionalità simili allo sviluppo locale per molti tipi di file di area di lavoro, incluso un editor di file predefinito. Non tutti i casi d'uso per tutti i tipi di file sono supportati.

È possibile creare, modificare e gestire l'accesso ai file di area di lavoro usando modelli familiari dalle interazioni con Notebook. È possibile usare percorsi relativi per le importazioni di librerie dai file di area di lavoro, in modo analogo allo sviluppo locale. Per informazioni dettagliate, vedere:

Gli script Init archiviati nei file di area di lavoro hanno un comportamento speciale. È possibile usare i file di area di lavoro per archiviare e fare riferimento agli script init in qualsiasi versione di Databricks Runtime. Vedere archiviare gli script init nei file di lavoro.

Nota

In Databricks Runtime 14.0 e versioni successive, la directory di lavoro corrente predefinita (CWD) per il codice eseguito in locale è la directory contenente il Notebook o lo script in esecuzione. Si tratta di una modifica del comportamento da Databricks Runtime 13.3 LTS e versioni successive. Vedere Informazioni sul valore predefinito: directory di lavoro corrente del progetto.

Limitazioni

  • Se il flusso di lavoro usa il codice sorgente che si trova in un repository Git remoto, non è possibile scrivere nella directory corrente o scrivere usando un percorso relativo. Scrivere dati in altre opzioni di posizione.
  • Non è possibile usare i comandi git quando si effettua il salvataggio nei file dell'area di lavoro. La creazione di directory .git non è consentita nei file dell'area di lavoro.
  • La lettura da file dell'area di lavoro tramite executor Spark (ad esempio spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")) non è supportata con il calcolo serverless.
  • Gli executor non possono scrivere nei file dell'area di lavoro.
  • I collegamenti simbolici sono supportati per le directory di destinazione nella /Workspace cartella radice.
  • Non è possibile accedere ai file dell'area di lavoro dalle funzioni definite dall'utente (UDF) nei cluster con modalità di accesso condiviso in Databricks Runtime 14.2 e versioni successive.

Limiti delle dimensioni dei file

  • Le dimensioni del file dell'area di lavoro sono limitate a 500 MB dall'interfaccia utente. Le dimensioni massime consentite per la scrittura da un cluster sono pari a 256 MB.

Limite di autorizzazioni di accesso ai file

L'autorizzazione per accedere ai file nelle cartelle /Workspace scade dopo 36 ore per il calcolo interattivo e dopo 30 giorni per i processi. Databricks consiglia l'esecuzione di esecuzioni lunghe come processi se sono necessari /Workspace per l'accesso ai file.

Abilitare i file di area di lavoro

Per abilitare il supporto per i file non Notebook nell'area di lavoro di Databricks, richiamare l'API REST /api/2.0/workspace-conf da un Notebook o un altro ambiente con accesso all'area di lavoro di Databricks. I file di area di lavoro sono abilitati per impostazione predefinita.

Per abilitare o riabilitare il supporto per i file non Notebook nell'area di lavoro di Databricks, richiamare /api/2.0/workspace-conf e ottenere il valore della chiave enableWorkspaceFileSystem. Se è impostato su true, i file non Notebook sono già abilitati per l'area di lavoro.

L'esempio seguente illustra come chiamare questa API da un Notebook per verificare se i file di area di lavoro siano disabilitati e, in tal caso, riabilitarli.

Esempio: Notebook per riabilitare il supporto dei file di area di lavoro di Databricks

Ottenere il notebook