Integrare OneLake con Azure HDInsight

Azure HDInsight è un servizio gestito basato sul cloud per l'analisi di Big Data che consente alle organizzazioni di elaborare grandi quantità di dati. Questa esercitazione illustra come connettersi a OneLake con un notebook Jupyter da un cluster Azure HDInsight.

Uso di Azure HDInsight

Connettersi a OneLake con Jupyter Notebook da un cluster HDInsight:

  1. Creare un cluster Apache Spark in HDInsight (HDI). Seguire queste istruzioni: impostare i cluster in HDInsight.

    1. Quando si forniscono informazioni sul cluster, tenere presente il nome utente e la password di accesso del cluster, perché saranno necessari in un secondo momento per accedere al cluster.

    2. Creare un’identità gestita assegnata dall'utente (UAMI): Creare per Azure HDInsight - UAMI e sceglierla come l’identità nella schermata Archiviazione.

      Screenshot che mostra dove immettere l'identità gestita assegnata dall'utente nella schermata Archiviazione.

  2. Concedere a questa UAMI l'accesso all'area di lavoro Infrastruttura che contiene gli elementi. Per informazioni sulla scelta del ruolo migliore, vedere Ruoli dell'area di lavoro.

    Screenshot che mostra dove selezionare un elemento nel pannello Gestisci accesso.

  3. Passare a Lakehouse e trovare il nome per l'area di lavoro e Lakehouse. È possibile trovarli nell'URL di Lakehouse o nel riquadro Proprietà per un file.

  4. Nel portale di Azure cercare il cluster e selezionare il notebook.

    Screenshot che mostra dove trovare il cluster e il notebook nel portale di Azure.

  5. Immettere le informazioni sulle credenziali specificate durante la creazione del cluster.

    Screenshot che mostra dove immettere le informazioni sulle credenziali.

  6. Creare un nuovo notebook Apache Spark.

  7. Copiare i nomi dell'area di lavoro e del lakehouse nel notebook e compilare l'URL di OneLake per il lakehouse. È ora possibile leggere qualsiasi file da questo percorso di file.

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. Provare a scrivere alcuni dati nel lakehouse.

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. Verificare che i dati siano stati scritti correttamente controllando il lakehouse o leggendo il file appena caricato.

È ora possibile leggere e scrivere dati in OneLake usando il Jupyter Notebook in un cluster HDI Spark.