Introduzione agli oggetti dell'area di lavoro

Questo articolo offre un'introduzione generale agli oggetti dell'area di lavoro di Azure Databricks. È possibile creare, visualizzare e organizzare gli oggetti dell'area di lavoro nel browser dell'area di lavoro tra utenti singoli.

Nota sugli asset dell'area di lavoro di namimg

Il nome completo di un asset dell'area di lavoro è costituito dal nome di base e dalla relativa estensione di file. Ad esempio, l'estensione di file di un notebook può essere .py, , .sql.scala, .re .ipynb a seconda della lingua e del formato del notebook.

Quando si crea un asset del notebook, il nome di base e il nome completo (il nome di base concatenato con l'estensione di file) deve essere univoco all'interno di qualsiasi cartella dell'area di lavoro. Quando si assegna un nome a un asset, Databricks verifica se soddisfa questi criteri aggiungendo l'estensione del file e se il nome completo corrisponde a un file esistente nella cartella, il nome non è consentito ed è necessario scegliere un nuovo nome per il notebook. Ad esempio, se si tenta di creare un notebook Python (in formato di origine Python) denominato test nella stessa cartella di un file Python denominato test.py, non sarà consentito.

Ammassi

I cluster di Azure Databricks Data Science & Engineering e Databricks Machine Learning offrono una piattaforma unificata per vari casi d'uso, ad esempio l'esecuzione di pipeline ETL di produzione, analitica di streaming, analitica ad hoc e Machine Learning. Un cluster è un tipo di risorsa di calcolo di Azure Databricks. Altri tipi di risorse di calcolo includono Azure Databricks SQL Warehouse.

Per informazioni dettagliate sulla gestione e l'uso dei cluster, vedere Calcolo.

Notebook

Un notebook è un'interfaccia basata sul Web per i documenti contenenti una serie di celle eseguibili (comandi) che operano su file e tabelle, visualizzazioni e testo narrativo. I comandi possono essere eseguiti in sequenza, facendo riferimento all'output di uno o più comandi eseguiti in precedenza.

I notebook sono un meccanismo per l'esecuzione del codice in Azure Databricks. L'altro meccanismo è costituito dai processi.

Per informazioni dettagliate sulla gestione e l'uso dei notebook, vedere Introduzione ai notebook di Databricks.

Lavori

I processi sono un meccanismo per l'esecuzione del codice in Azure Databricks. L'altro meccanismo è notebook.

Per informazioni dettagliate sulla gestione e l'uso dei processi, vedere Creare ed eseguire processi di Azure Databricks.

Biblioteche

Una libreria rende disponibile codice di terze parti o predefinito in locale per notebook e processi in esecuzione nei cluster.

Per informazioni dettagliate sulla gestione e l'uso delle librerie, vedere Librerie.

Dati

È possibile importare dati in un file system distribuito montato in un'area di lavoro di Azure Databricks e usarli in notebook e cluster di Azure Databricks. È anche possibile usare un'ampia gamma di origini dati Apache Spark per accedere ai dati.

Per informazioni dettagliate sul caricamento dei dati, vedere Inserire dati in un lakehouse di Databricks.

file

Importante

Questa funzionalità è disponibile in anteprima pubblica.

In Databricks Runtime 11.3 LTS e versioni successive è possibile creare e usare file arbitrari nell'area di lavoro Databricks. I file possono essere di qualsiasi tipo di file. Esempi comuni prevedono:

  • .py file usati nei moduli personalizzati.
  • .md file, ad esempio README.md.
  • .csv o altri file di dati di piccole dimensioni.
  • File .txt.
  • File di log.

Per informazioni dettagliate sull'uso dei file, vedere Usare i file in Azure Databricks. Per informazioni su come usare i file per modularizzare il codice durante lo sviluppo con i notebook di Databricks, vedere Condividere il codice tra notebook di Databricks

Cartelle Git

Le cartelle Git sono cartelle di Azure Databricks il cui contenuto viene co-versionato insieme sincronizzandoli con un repository Git remoto. Usando le cartelle Git di Databricks, è possibile sviluppare notebook in Azure Databricks e usare un repository Git remoto per la collaborazione e il controllo della versione.

Per informazioni dettagliate sull'uso dei repository, vedere Integrazione git con le cartelle Git di Databricks.

Modelli

Il modello fa riferimento a un modello registrato nel Registro modelli MLflow. Il Registro modelli è un archivio modelli centralizzato che consente di gestire il ciclo di vita completo dei modelli MLflow. Fornisce una derivazione cronologica del modello, il controllo delle versioni dei modelli, le transizioni di fase e le annotazioni e le descrizioni delle versioni del modello e del modello.

Per informazioni dettagliate sulla gestione e l'uso dei modelli, vedere Gestire il ciclo di vita del modello nel catalogo unity.

Esperimenti

Un esperimento MLflow è l'unità principale dell'organizzazione e il controllo di accesso per le esecuzioni di training del modello di Machine Learning MLflow; tutte le esecuzioni MLflow appartengono a un esperimento. Ogni esperimento consente di visualizzare, cercare e confrontare le esecuzioni, nonché di scaricare gli artefatti o i metadati di esecuzione per l'analisi in altri strumenti.

Per informazioni dettagliate sulla gestione e l'uso di esperimenti, vedere Organizzare le esecuzioni di training con esperimenti MLflow.

Query

Le query sono istruzioni SQL che consentono di interagire con i dati. Per altre informazioni, vedere Accedere e gestire le query salvate.

Dashboard

I dashboard sono presentazioni di visualizzazioni di query e commenti. Vedere Dashboard o dashboard legacy.

Avvisi

Gli avvisi sono notifiche che un campo restituito da una query ha raggiunto una soglia. Per altre informazioni, vedere Che cosa sono gli avvisi SQL di Databricks?.

Riferimenti agli oggetti dell'area di lavoro

In passato, gli utenti erano tenuti a includere il prefisso del /Workspace percorso per alcune API di Databricks (%sh), ma non per altre (%run, input dell'API REST).

Gli utenti possono usare i percorsi dell'area di lavoro con il /Workspace prefisso ovunque. I riferimenti precedenti ai percorsi senza il /Workspace prefisso vengono reindirizzati e continuano a funzionare. È consigliabile che tutti i percorsi dell'area di lavoro siano preceduti dal /Workspace prefisso per distinguerli dai percorsi Volume e DBFS.

Il prerequisito per il comportamento del prefisso del percorso coerente /Workspace è il seguente: non è possibile creare una /Workspace cartella a livello radice dell'area di lavoro. Se si dispone di una /Workspace cartella a livello radice e si vuole abilitare questo miglioramento dell'esperienza utente, eliminare o rinominare la cartella creata e contattare il /Workspace team dell'account Azure Databricks.

Condividere un file, una cartella o un URL del notebook

Nell'area di lavoro di Azure Databricks gli URL ai file, ai notebook e alle cartelle dell'area di lavoro sono nei formati seguenti:

URL dei file dell'area di lavoro

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>

URL dei notebook

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>

URL di cartelle (area di lavoro e Git)

  https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>

Questi collegamenti possono interrompersi se qualsiasi cartella, file o notebook nel percorso corrente viene aggiornato con un comando git pull oppure viene eliminato e ricreato con lo stesso nome. È tuttavia possibile creare un collegamento basato sul percorso dell'area di lavoro da condividere con altri utenti di Databricks con livelli di accesso appropriati modificandolo in un collegamento in questo formato:

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>

I collegamenti a cartelle, notebook e file possono essere condivisi sostituendo tutti gli elementi nell'URL dopo ?o=<16-digit-workspace-ID> con il percorso del file, della cartella o del notebook dalla radice dell'area di lavoro. Se si condivide un URL in una cartella, rimuovere /browse/folders/<16-digit-ID> anche dall'URL originale.

Per ottenere il percorso del file, aprire il menu di scelta rapida facendo clic con il pulsante destro del mouse sulla cartella, sul notebook o sul file nell'area di lavoro che si vuole condividere e scegliere Copia URL/percorso> completo. Anteporre #workspace al percorso del file appena copiato e aggiungere la stringa risultante dopo in ?o=<16-digit-workspace-ID> modo che corrisponda al formato URL precedente.

Selezionando il percorso copia URL seguito da Percorso completo dal menu di scelta rapida di una cartella dell'area di lavoro.

Esempio di formulazione url n. 1: URL cartella

Per condividere l'URL https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222della cartella dell'area di lavoro, rimuovere la browse/folders/1111111111111111 sottostringa dall'URL. Aggiungere #workspace seguito dal percorso della cartella o dell'oggetto dell'area di lavoro da condividere.

In questo caso, il percorso dell'area di lavoro si trova in una cartella, /Workspace/Users/user@example.com/team-git/notebooks. Dopo aver copiato il percorso completo dall'area di lavoro, è ora possibile costruire il collegamento condivisibile:

  https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks

Esempio di formulazione url 2: URL notebook

Per condividere l'URL https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333del notebook, rimuovere #notebook/2222222222222222/command/3333333333333333. Aggiungere #workspace seguito dal percorso della cartella o dell'oggetto area di lavoro.

In questo caso, il percorso dell'area di lavoro punta a un notebook, /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook. Dopo aver copiato il percorso completo dall'area di lavoro, è ora possibile costruire il collegamento condivisibile:

  https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook

Ora è disponibile un URL stabile per un file, una cartella o un percorso del notebook da condividere. Per altre informazioni sugli URL e sugli identificatori, vedere Ottenere gli identificatori per gli oggetti dell'area di lavoro.