Configurare il percorso di archiviazione dei risultati del notebook

I requisiti di privacy dell'organizzazione potrebbero richiedere l’archiviazione di tutti i risultati interattivi del notebook nell'account di archiviazione dell’area di lavoro dell'account cloud, anziché archiviarli nel percorso predefinito del piano di controllo gestito da Databricks in cui vengono archiviati alcuni risultati dei comandi notebook.

L'output dei comandi del notebook viene archiviato in modo diverso a seconda della modalità di esecuzione del notebook.

Per impostazione predefinita, quando si esegue un notebook in modo interattivo facendo clic su Esegui nel notebook:

  • Se i risultati sono di piccole dimensioni, vengono archiviati nel piano di controllo di Azure Databricks, insieme al contenuto e ai metadati del comando del notebook.
  • I risultati più grandi vengono archiviati nell'account di archiviazione dell'area di lavoro nella sottoscrizione di Azure. Azure Databricks crea automaticamente l'account di archiviazione dell'area di lavoro. Azure Databricks usa questa area di archiviazione per i dati di sistema dell'area di lavoro e la radice DBFS dell'area di lavoro. I risultati dei notebook vengono archiviati in un archivio dati del sistema dell'area di lavoro, che non è accessibile agli utenti. Vedere Account di archiviazione dell'area di lavoro.

Quando si esegue un notebook come processo, pianificandolo o facendo clic su Esegui ora nella pagina Processi, tutti i risultati vengono archiviati nell'account di archiviazione dell'area di lavoro nell'account.

È possibile configurare l'area di lavoro per archiviare tutti i risultati interattivi del notebook nell'account cloud, indipendentemente dalle dimensioni dei risultati.

Configurare il percorso di archiviazione per i risultati interattivi del notebook

È possibile configurare l'area di lavoro per archiviare tutti i risultati interattivi dei notebook nella sottoscrizione di Azure, anziché nel piano di controllo. È possibile abilitare questa funzionalità usando la pagina delle impostazioni di amministrazione o l'API REST. Questa configurazione non ha alcun effetto sui notebook eseguiti come processi, i cui risultati sono già archiviati nella sottoscrizione di Azure per impostazione predefinita.

Tieni presente i seguenti punti:

  • Le modifiche apportate a questa configurazione sono valide solo per i nuovi risultati. I risultati del notebook esistenti non vengono spostati.
  • Alcuni metadati relativi ai risultati, come i nomi delle colonne del grafico, continuano a essere archiviati nel piano di controllo.
  • Potrebbe esserci un aumento dei costi di archiviazione nel provider di servizi cloud.
  • Durante la lettura e la scrittura dei risultati, potrebbe verificarsi una maggiore latenza di rete e I/O.

Archiviare tutti i risultati del notebook nell'account usando la pagina delle impostazioni di amministrazione

Per l’amministratore dell'area di lavoro:

  1. Andare alla pagina Impostazioni.
  2. Fare clic sulla scheda Sicurezza.
  3. Fare clic sull’alternanza archiviare i risultati del notebook interattivo nell’account cliente.

Archiviare tutti i risultati del notebook nell'account usando l'API REST

Per configurare l'area di lavoro per archiviare tutti i risultati del notebook nella sottoscrizione di Azure usando l'API REST:

  • È necessario essere un amministratore di un'area di lavoro.
  • È necessario avere un token di accesso personale. Le istruzioni che seguono presuppongono che sia stato configurato un .netrc file con il token di accesso personale in modo da poter usare l'opzione -n nei comandi curl. Per altri dettagli, vedere l'articolo a cui si fa riferimento.

Per ottenere l'impostazione corrente, chiamare l'endpoint GET /workspace-conf e impostare keys su storeInteractiveNotebookResultsInCustomerAccount:

curl -n --request GET \
  'https://<databricks-instance>/api/2.0/workspace-conf?keys=storeInteractiveNotebookResultsInCustomerAccount'

Per abilitare l'area di lavoro per archiviare i risultati interattivi del notebook nella sottoscrizione di Azure, chiamare l'endpoint PATCH /workspace-conf e impostare storeInteractiveNotebookResultsInCustomerAccount su true nel corpo della richiesta:

curl -n --request PATCH \
 'https://<databricks-instance>/api/2.0/workspace-conf' \
 --header 'Content-Type: text/plain' \
 --data-raw '{
    "storeInteractiveNotebookResultsInCustomerAccount": "true"
}'

Per disabilitare la funzionalità, impostare lo stesso flag su false:

curl -n --request PATCH \
  'https://<databricks-instance>/api/2.0/workspace-conf' \
 --header 'Content-Type: text/plain' \
 --data-raw '{
    "storeInteractiveNotebookResultsInCustomerAccount": "false"
}'