Integrera OneLake med Azure HDInsight

Azure HDInsight är en hanterad molnbaserad tjänst för stordataanalys som hjälper organisationer att bearbeta stora mängder data. Den här självstudien visar hur du ansluter till OneLake med en Jupyter-anteckningsbok från ett Azure HDInsight-kluster.

Använda Azure HDInsight

Så här ansluter du till OneLake med en Jupyter Notebook från ett HDInsight-kluster:

  1. Skapa ett HDInsight-kluster (HDI) Apache Spark. Följ dessa instruktioner: Konfigurera kluster i HDInsight.

    1. När du tillhandahåller klusterinformation bör du komma ihåg användarnamnet och lösenordet för klusterinloggningen, eftersom du behöver dem för att komma åt klustret senare.

    2. Skapa en användartilldelad hanterad identitet (UAMI): Skapa för Azure HDInsight – UAMI och välj den som identitet på lagringsskärmen .

      Skärmbild som visar var du anger den användartilldelade hanterade identiteten på lagringsskärmen.

  2. Ge UAMI åtkomst till arbetsytan Infrastruktur som innehåller dina objekt. Hjälp med att bestämma vilken roll som är bäst finns i Arbetsyteroller.

    Skärmbild som visar var du väljer ett objekt i panelen Hantera åtkomst.

  3. Gå till ditt sjöhus och leta reda på namnet på din arbetsyta och lakehouse. Du hittar dem i URL:en för ditt lakehouse eller fönstret Egenskaper för en fil.

  4. Leta efter klustret i Azure-portalen och välj anteckningsboken.

    Skärmbild som visar var du hittar klustret och anteckningsboken i Azure-portalen.

  5. Ange den information om autentiseringsuppgifter som du angav när du skapade klustret.

    Skärmbild som visar var du anger din information om autentiseringsuppgifter.

  6. Skapa en ny Apache Spark-notebook-fil.

  7. Kopiera arbetsytan och lakehouse-namnen till anteckningsboken och skapa OneLake-URL:en för ditt lakehouse. Nu kan du läsa valfri fil från den här filsökvägen.

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. Prova att skriva lite data till lakehouse.

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. Testa att dina data har skrivits genom att kontrollera lakehouse eller genom att läsa den nyligen inlästa filen.

Nu kan du läsa och skriva data i OneLake med hjälp av din Jupyter Notebook i ett HDI Spark-kluster.