Eseguire un notebook di Databricks con l'attività dei notebook di Databricks in Azure Data Factory

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!

In questa esercitazione si usa il portale di Azure per creare una pipeline di Azure Data Factory che eseguirà un notebook di Databricks nel cluster dei processi Databricks e passerà i parametri di Azure Data Factory al notebook di Databricks durante l'esecuzione.

In questa esercitazione vengono completati i passaggi seguenti:

  • Creare una data factory.

  • Creare una pipeline che usa l'attività dei notebook di Databricks.

  • Attivare un'esecuzione della pipeline.

  • Monitorare l'esecuzione della pipeline.

Se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.

Per un'introduzione di undici minuti e una dimostrazione di questa funzionalità, guardare il video seguente:

Prerequisiti

  • Area di lavoro di Azure Databricks. Creare un'area di lavoro di Databricks o usarne una esistente. Creare un notebook Python nell'area di lavoro di Azure Databricks. Eseguire quindi il notebook e passare i parametri al notebook stesso usando Azure Data Factory.

Creare una data factory

  1. Avviare il Web browser Microsoft Edge o Google Chrome. L'interfaccia utente di Data Factory è attualmente supportata solo nei Web browser Microsoft Edge e Google Chrome.

  2. Selezionare Crea una risorsa nel menu portale di Azure, selezionare Integrazione e quindi Selezionare Data Factory.

    Screenshot che mostra la selezione di Data Factory nel riquadro Nuovo.

  3. Nella scheda Informazioni di base della pagina Crea data factory selezionare la sottoscrizione di Azure in cui si vuole creare la data factory.

  4. In Gruppo di risorse eseguire una di queste operazioni:

    1. Selezionare un gruppo di risorse esistente dall'elenco a discesa.

    2. Selezionare Crea nuovo e immettere il nome di un nuovo gruppo di risorse.

    Per informazioni sui gruppi di risorse, vedere l'articolo relativo all'uso di gruppi di risorse per la gestione delle risorse di Azure.

  5. In Area selezionare la località per la data factory.

    L'elenco mostra solo le località supportate da Data Factory e in cui verranno archiviati i metadati di Azure Data Factory. Gli archivi dati associati (come Archiviazione di Azure e il database SQL di Azure) e le risorse di calcolo (come Azure HDInsight) usati da Data Factory possono essere eseguiti in altre aree.

  6. In Nome immettere ADFTutorialDataFactory.

    Il nome della data factory di Azure deve essere univoco a livello globale. Se viene visualizzato l'errore seguente, modificare il nome della data factory, ad esempio usare <il nome>ADFTutorialDataFactory. Per le regole di denominazione per gli elementi di Data Factory, vedere l'articolo Data Factory - Regole di denominazione.

    Screenshot che mostra l'errore quando un nome non è disponibile.

  7. Per Versione selezionare V2.

  8. Selezionare Avanti: Configurazione Git e quindi selezionare Configura Git in un secondo momento .

  9. Selezionare Rivedi e crea e quindi, una volta superata la convalida, selezionare Crea.

  10. Al termine della creazione, selezionare Vai alla risorsa per passare alla pagina Data Factory. Selezionare il riquadro Apri Azure Data Factory Studio per avviare l'applicazione interfaccia utente di Azure Data Factory in una scheda separata del browser.

    Screenshot che mostra la home page di Azure Data Factory con il riquadro Apri Azure Data Factory Studio.

Creare servizi collegati

In questa sezione viene creato un servizio collegato Databricks. Questo servizio collegato contiene le informazioni di connessione al cluster Databricks:

Creare un servizio collegato Azure Databricks

  1. Nella home page passare alla scheda Gestisci nel pannello sinistro.

    Screenshot che mostra la scheda Gestisci.

  2. Selezionare Servizi collegati in Connessioni e quindi + Nuovo.

    Screenshot che mostra come creare una nuova connessione.

  3. Nella finestra Nuovo servizio collegato selezionare Calcolo di Azure Databricks e quindi selezionare >Continua.

    Screenshot che mostra come specificare un servizio collegato Databricks.

  4. Nella finestra Nuovo servizio collegato completare la procedura seguente:

    1. In Nome immettere AzureDatabricks_LinkedService.

    2. Selezionare l'area di lavoro di Databricks appropriata in cui verrà eseguito il notebook.

    3. Per Seleziona cluster selezionare Nuovo cluster di processo.

    4. Per l'URL dell'area di lavoro di Databrick, le informazioni devono essere popolate automaticamente.

    5. Per Tipo di autenticazione, se si seleziona Token di accesso, generarlo dall'area di lavoro di Azure Databricks. La procedura è disponibile qui. Per l'identità del servizio gestita e l'identità gestita assegnata dall'utente, concedere il ruolo Collaboratore a entrambe le identità nel menu di controllo di accesso della risorsa di Azure Databricks.

    6. Per Versione cluster selezionare la versione da usare.

    7. Per Tipo di nodo cluster selezionare Standard_D3_v2 nella categoria Utilizzo generico (HDD) per questa esercitazione.

    8. In Workers (Ruoli di lavoro) immettere 2.

    9. Seleziona Crea.

      Screenshot che mostra la configurazione del nuovo servizio collegato Azure Databricks.

Creare una pipeline

  1. Selezionare il pulsante + (segno più) e quindi selezionare Pipeline dal menu.

    Screenshot che mostra i pulsanti per la creazione di una nuova pipeline.

  2. Creare un parametro da usare nella pipeline. Questo parametro verrà successivamente passato all'attività dei notebook di Databricks. Nella pipeline vuota selezionare la scheda Parametri, quindi selezionare + Nuovo e denominarla come 'name'.

    Screenshot che mostra come creare un nuovo parametro.

    Screenshot che mostra come creare il parametro name.

  3. Nella casella degli strumenti Attività espandere Databricks. Trascinare l'attività Notebook dalla casella degli strumenti Attività nell'area di progettazione della pipeline.

    Screenshot che mostra come trascinare il notebook nell'area di progettazione.

  4. Nelle proprietà della finestra dell'attività DatabricksNotebook in basso completare questa procedura:

    1. Passare alla scheda Azure Databricks.

    2. Selezionare AzureDatabricks_LinkedService (creato nella procedura precedente).

    3. Passare alla scheda Impostazioni .

    4. Sfogliare per selezionare un percorso del notebook di Databricks. Creare un notebook e specificare il percorso qui. Ottenere il percorso del notebook seguendo questi passaggi.

      1. Avviare l'area di lavoro di Azure Databricks.

      2. Creare una nuova cartella nell'area di lavoro e chiamarla adftutorial.

        Screenshot che mostra come creare una nuova cartella.

      3. Screenshot che mostra come creare un nuovo notebook. (Python), chiamiamolo mynotebook nella cartella adftutorial , fai clic su Crea.

        Screenshot che mostra come creare un nuovo notebook.

        Screenshot che mostra come impostare le proprietà del nuovo notebook.

      4. Aggiungere il codice seguente nel notebook "mynotebook" appena creato:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        

        Screenshot che mostra come creare widget per i parametri.

      5. Il percorso del blocco appunti in questo caso è /adftutorial/mynotebook.

  5. Tornare allo strumento di creazione dell'interfaccia utente di Data Factory. Passare alla scheda Impostazioni nell'attività Notebook1 .

    a. Aggiungere un parametro all'attività Notebook. Usare lo stesso parametro aggiunto in precedenza alla pipeline.

    Screenshot che mostra come aggiungere un parametro.

    b. Assegnare al parametro il nome input e specificare il valore come espressione @pipeline().parameters.name.

  6. Per convalidare la pipeline, selezionare il pulsante Convalida sulla barra degli strumenti. Per chiudere la finestra di convalida, selezionare il pulsante Chiudi .

    Screenshot che mostra come convalidare la pipeline.

  7. Selezionare Pubblica tutto. L'interfaccia utente di Data Factory pubblicherà le entità (servizi collegati e pipeline) nel servizio Azure Data Factory.

    Screenshot che mostra come pubblicare le nuove entità di data factory.

Attivare un'esecuzione della pipeline

Selezionare Aggiungi trigger sulla barra degli strumenti e quindi selezionare Attiva adesso.

Screenshot che mostra come selezionare il comando

La finestra di dialogo Esecuzione pipeline richiede il parametro name . Usare /path/filename come parametro qui. Seleziona OK.

Screenshot che mostra come specificare un valore per i parametri name.

Monitorare l'esecuzione della pipeline

  1. Passare alla scheda Monitoraggio . Verificare che venga visualizzata un'esecuzione della pipeline. Sono necessari all'incirca 5-8 minuti per creare un cluster dei processi Databricks in cui viene eseguito il notebook.

    Screenshot che mostra come monitorare la pipeline.

  2. Selezionare periodicamente Aggiorna per controllare lo stato dell'esecuzione della pipeline.

  3. Per visualizzare le esecuzioni di attività associate all'esecuzione della pipeline, selezionare il collegamento pipeline1 nella colonna Nome pipeline.

  4. Nella pagina Esecuzioni attività selezionare Output nella colonna Nome attività per visualizzare l'output di ogni attività ed è possibile trovare il collegamento ai log di Databricks nel riquadro Output per i log Spark più dettagliati.

  5. È possibile tornare alla visualizzazione esecuzioni della pipeline selezionando il collegamento Tutte le esecuzioni della pipeline nel menu di navigazione nella parte superiore.

Verificare l'output

È possibile accedere all'area di lavoro di Azure Databricks, passare ai cluster e visualizzare lo stato del processo (esecuzione in sospeso, in esecuzione o terminato).

Screenshot che mostra come visualizzare il cluster di processi e il processo.

È possibile fare clic sul nome del processo ed esaminare altri dettagli. Se l'esecuzione ha esito positivo, è possibile convalidare i parametri passati e l'output del notebook Python.

Screenshot che mostra come visualizzare i dettagli e l'output dell'esecuzione.

La pipeline in questo esempio avvia un'attività dei notebook di Databricks e le passa un parametro. Contenuto del modulo:

  • Creare una data factory.

  • Creare una pipeline che usa un'attività dei notebook di Databricks.

  • Attivare un'esecuzione della pipeline.

  • Monitorare l'esecuzione della pipeline.