Interfaccia della riga di comando di DBFS (legacy)

Importante

Questa documentazione è stata ritirata e potrebbe non essere aggiornata.

Queste informazioni si applicano alle versioni legacy dell'interfaccia della riga di comando di Databricks 0.18 e successive. Databricks consiglia di usare invece la versione 0.205 o successiva dell'interfaccia della riga di comando di Databricks più recente. Vedere Che cos'è l'interfaccia della riga di comando di Databricks?. Per trovare la versione dell'interfaccia della riga di comando di Databricks, eseguire databricks -v.

Per eseguire la migrazione dall'interfaccia della riga di comando di Databricks versione 0.18 o successiva all'interfaccia della riga di comando di Databricks versione 0.205 o successiva, vedere Migrazione dell'interfaccia della riga di comando di Databricks.

È possibile eseguire sottocomandi dell'interfaccia della riga di comando dbfs di Databricks a (o l'alias ), anteponendo databricks fs tutti i percorsi DBFS con dbfs:/.dbfs Questi sottocomandi chiamano l'API DBFS.

databricks fs -h
Usage: databricks fs [OPTIONS] COMMAND [ARGS]...

  Utility to interact with DBFS. DBFS paths are all prefixed
  with dbfs:/. Local paths can be absolute or local.

Options:
  -v, --version
  -h, --help     Show this message and exit.

Commands:
  cat        Shows the contents of a file. Does not work for directories.
  configure
  cp         Copies files to and from DBFS.
    Options:
      -r, --recursive
      --overwrite     Overwrites files that exist already.
  ls         Lists files in DBFS.
    Options:
      --absolute      Displays absolute paths.
      -l              Displays full information including size and file type.
  mkdirs     Makes directories in DBFS.
  mv         Moves a file between two DBFS paths.
  rm         Removes files from DBFS.
    Options:
      -r, --recursive

Per le operazioni che elencano, spostano o eliminano più di 10.000 file, è consigliabile usare l'interfaccia della riga di comando di DBFS.

  • L'operazione list (databricks fs ls) si verifica dopo circa 60 anni.
  • L'operazione move (databricks fs mv) si verifica dopo circa 60 anni, causando potenzialmente dati parzialmente spostati.
  • L'operazione delete (databricks fs rm) eliminerà in modo incrementale i batch di file.

È consigliabile eseguire tali operazioni nel contesto di un cluster usando l'utilità file system (dbutils.fs). dbutils.fs copre l'ambito funzionale dell'API REST DBFS, ma dai notebook. L'esecuzione di tali operazioni tramite notebook offre un controllo migliore, ad esempio eliminazioni selettive, gestibilità e possibilità di automatizzare processi periodici.

Limiti

L'uso dell'interfaccia della riga di comando di Databricks DBFS con i contenitori di archiviazione abilitati per il firewall non è supportato. In Databricks è consigliabile usare Databricks Connect o az storage.

Elencare il contenuto di un file

Per visualizzare la documentazione sull'utilizzo, eseguire databricks fs cat --help.

databricks fs cat dbfs:/tmp/my-file.txt
Apache Spark is awesome!

Copiare un file

Per visualizzare la documentazione sull'utilizzo, eseguire databricks fs cp --help.

databricks fs cp dbfs:/tmp/your_file.txt dbfs:/parent/child/grandchild/my_file.txt --overwrite

In caso di esito positivo, questo comando non visualizza nulla.

Elencare le informazioni su file e directory

Per visualizzare la documentazione sull'utilizzo, eseguire databricks fs ls --help.

databricks fs ls dbfs:/tmp --absolute -l
file  42408084  dbfs:/tmp/LoanStats.csv    1590005159000
file        40  dbfs:/tmp/file_b.txt       1603991038000
dir          0  dbfs:/tmp/hive                         0
dir          0  dbfs:/tmp/mlflow                       0
file       385  dbfs:/tmp/multi-line.json  1597770632000
dir          0  dbfs:/tmp/new                          0
dir          0  dbfs:/tmp/parent                       0
file       243  dbfs:/tmp/test.json        1597770628000
file        40  dbfs:/tmp/test_dbfs.txt    1603989162000

Creare una directory

Per visualizzare la documentazione sull'utilizzo, eseguire databricks fs mkdirs --help.

databricks fs mkdirs dbfs:/tmp/new-dir

In caso di esito positivo, questo comando non visualizza nulla.

Spostare un file

Per visualizzare la documentazione sull'utilizzo, eseguire databricks fs mv --help.

databricks fs mv dbfs:/tmp/my-file.txt dbfs:/parent/child/grandchild/my-file.txt

In caso di esito positivo, questo comando non visualizza nulla.

Eliminare un file

Per visualizzare la documentazione sull'utilizzo, eseguire databricks fs rm --help.

databricks fs rm dbfs:/tmp/parent/child/grandchild/my-file.txt
Delete finished successfully.