Co jsou soubory pracovního prostoru?

Soubor pracovního prostoru je soubor ve stromu souborů pracovního prostoru Azure Databricks, který není jedním z typů uvedených takto:

  • Poznámkové bloky
  • Dotazy
  • Řídicí panely
  • Genie spaces
  • Experimenty

Kromě těchto vyloučených typů mohou být soubory pracovního prostoru libovolným typem souboru. K běžným příkladům patří:

  • .py soubory používané ve vlastních modulech.
  • .md soubory, například README.md.
  • .csv nebo jiné malé datové soubory.
  • .txt soubory.
  • .whl knihovny.
  • Soubory protokolu

Doporučení pro práci se soubory najdete v tématu Doporučení pro soubory ve svazcích a souborech pracovních prostorů.

Váš souborový strom pracovního prostoru Azure Databricks může obsahovat složky připojené k úložišti Git s názvem "Složky Git Databricks". Podpora typů souborů má určitá další omezení. Seznam typů souborů podporovaných ve složkách Gitu (dříve Repos) najdete v tématu Typy prostředků podporované ve složkách Gitu.

Důležité

Soubory pracovního prostoru jsou ve výchozím nastavení povolené všude v Databricks Runtime verze 11.2. Pro produkční úlohy použijte Databricks Runtime 11.3 LTS nebo vyšší. Pokud k této funkci nemáte přístup, obraťte se na správce pracovního prostoru.

Co můžete dělat se soubory pracovního prostoru

Azure Databricks poskytuje funkce podobné místnímu vývoji pro mnoho typů souborů pracovního prostoru, včetně integrovaného editoru souborů. Nepodporují se všechny případy použití pro všechny typy souborů.

Můžete vytvářet, upravovat a spravovat přístup k souborům pracovního prostoru pomocí známých vzorů z interakcí poznámkových bloků. Relativní cesty můžete použít pro importy knihoven ze souborů pracovního prostoru, podobně jako místní vývoj. Další podrobnosti najdete v tématu:

Inicializační skripty uložené v souborech pracovního prostoru mají zvláštní chování. Soubory pracovního prostoru můžete použít k ukládání a odkazování na inicializační skripty v libovolné verzi Databricks Runtime. Viz Ukládání inicializačních skriptů v souborech pracovního prostoru.

Poznámka:

Ve službě Databricks Runtime 14.0 a vyšší je výchozí aktuální pracovní adresář (CWD) pro kód spuštěný místně, je adresář obsahující spuštěný poznámkový blok nebo skript. Jedná se o změnu chování z Databricks Runtime 13.3 LTS a níže. Podívejte se, co je výchozí aktuální pracovní adresář?

Omezení

  • Pokud váš pracovní postup používá zdrojový kód umístěný ve vzdáleném úložišti Git, nemůžete zapisovat do aktuálního adresáře nebo zapisovat pomocí relativní cesty. Zapisujte data do jiných možností umístění.
  • Příkazy nelze použít git při ukládání do souborů pracovního prostoru. Vytváření adresářů .git není v souborech pracovního prostoru povolené.
  • Čtení ze souborů pracovního prostoru pomocí exekutorů Sparku (například spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")) se nepodporuje s bezserverovými výpočetními prostředky.
  • Exekutory nemohou zapisovat do souborů pracovního prostoru.
  • Symlinky jsou podporovány pro cílové adresáře v /Workspace kořenové složce.
  • Soubory pracovního prostoru nelze získat přístup z uživatelem definovaných funkcí (UDF) v clusterech s režimem sdíleného přístupu v Databricks Runtime 14.2 a níže.

Omezení velikosti souboru

  • Velikost souboru pracovního prostoru je omezená na 500 MB z uživatelského rozhraní. Maximální povolená velikost souboru při zápisu z clusteru je 256 MB.

Omezení oprávnění přístupu k souborům

Oprávnění pro přístup k souborům ve složkách, jejichž /Workspace platnost vyprší po 36 hodinách pro interaktivní výpočetní prostředky a po 30 dnech pro úlohy. Databricks doporučuje spouštět dlouhé spouštění jako úlohy, pokud potřebují přístup k souborům /Workspace.

Povolení souborů pracovního prostoru

Pokud chcete povolit podporu souborů jiných než poznámkových bloků v pracovním prostoru Databricks, volejte rozhraní REST API /api/2.0/workspace-conf z poznámkového bloku nebo jiného prostředí s přístupem k pracovnímu prostoru Databricks. Soubory pracovního prostoru jsou ve výchozím nastavení povolené .

Pokud chcete povolit nebo znovu povolit podporu souborů jiných než poznámkových bloků v pracovním prostoru Databricks, zavolejte /api/2.0/workspace-conf a získejte hodnotu enableWorkspaceFileSystem klíče. Pokud je nastavená na truehodnotu , soubory, které nejsou poznámkovými bloky, už jsou pro váš pracovní prostor povolené.

Následující příklad ukazuje, jak můžete volat toto rozhraní API z poznámkového bloku, abyste zkontrolovali, jestli jsou soubory pracovního prostoru zakázané, a pokud ano, znovu je povolte.

Příklad: Poznámkový blok pro opětovné povolení podpory souborů pracovního prostoru Databricks

Získat poznámkový blok