Integrar o OneLake ao Azure HDInsight

O Azure HDInsight é um serviço gerenciado baseado em nuvem para análise de Big Data que ajuda as organizações a processar dados de grandes quantidades. Este tutorial mostra como se conectar ao OneLake com um notebook do Jupyter de um cluster do Azure HDInsight.

Usando o Azure HDInsight

Para se conectar ao OneLake com um notebook do Jupyter de um cluster HDInsight:

  1. Criar um cluster do Apache Spark no HDInsight (HDI). Siga estas instruções: Configurar clusters no HDInsight.

    1. Ao fornecer informações do cluster, lembre-se de seu nome de usuário e senha de logon do cluster, pois você precisa deles para acessar o cluster mais tarde.

    2. Criar uma UAMI (identidade gerenciada atribuída pelo usuário): Crie para o Azure HDInsight – UAMI e escolha-a como a identidade na tela Armazenamento.

      Captura de tela mostrando onde inserir a identidade gerenciada atribuída ao usuário na tela Armazenamento.

  2. Dê a essa interface do usuário acesso ao workspace do Fabric que contém seus itens. Para obter ajuda para decidir qual função é melhor, confira as funções do Workspace.

    Captura de tela mostrando onde selecionar um item no painel Gerenciar acesso.

  3. Navegue até o lakehouse e localize o nome do seu workspace e lakehouse. Você pode encontrá-los na URL do seu lakehouse ou no painel Propriedades de um arquivo.

  4. No portal do Azure, procure o cluster e selecione o notebook.

    Captura de tela mostrando onde encontrar seu cluster e notebook no portal do Azure.

  5. Insira as informações de credencial fornecidas durante a criação do cluster.

    Captura de tela mostrando onde inserir suas informações de credencial.

  6. Crie um novo notebook do Apache Spark.

  7. Copie os nomes de workspace e lakehouse em seu notebook e crie a URL do OneLake para o seu lakehouse. Agora você pode ler qualquer arquivo desse caminho de arquivo.

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. Tente escrever alguns dados no lakehouse.

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. Teste se seus dados foram gravados com êxito verificando seu lakehouse ou lendo seu arquivo recém-carregado.

Agora você pode ler e gravar dados no OneLake usando seu notebook do Jupyter em um cluster HDI Spark.