Integrar o OneLake com o Azure HDInsight

O Azure HDInsight é um serviço gerenciado baseado em nuvem para análise de big data que ajuda as organizações a processar grandes quantidades de dados. Este tutorial mostra como se conectar ao OneLake com um bloco de anotações Jupyter de um cluster do Azure HDInsight.

Usando o Azure HDInsight

Para conectar-se ao OneLake com um bloco de anotações Jupyter a partir de um cluster HDInsight:

  1. Crie um cluster do HDInsight (HDI) Apache Spark. Siga estas instruções: Configurar clusters no HDInsight.

    1. Ao fornecer informações sobre o cluster, lembre-se do seu nome de usuário e senha de login do cluster, pois você precisa deles para acessar o cluster mais tarde.

    2. Criar uma identidade gerenciada atribuída ao usuário (UAMI): crie para o Azure HDInsight - UAMI e escolha-a como a identidade na tela Armazenamento .

      Captura de tela mostrando onde inserir a identidade gerenciada atribuída ao usuário na tela Armazenamento.

  2. Dê a esse UAMI acesso ao espaço de trabalho Malha que contém seus itens. Para obter ajuda para decidir qual é a melhor função, consulte Funções do espaço de trabalho.

    Captura de ecrã a mostrar onde selecionar um item no painel Gerir acesso.

  3. Navegue até a sua casa do lago e encontre o nome do seu espaço de trabalho e da casa do lago. Você pode encontrá-los no URL da sua casa do lago ou no painel Propriedades de um arquivo.

  4. No portal do Azure, procure seu cluster e selecione o bloco de anotações.

    Captura de ecrã a mostrar onde encontrar o cluster e o bloco de notas no portal do Azure.

  5. Insira as informações de credenciais fornecidas durante a criação do cluster.

    Captura de ecrã a mostrar onde introduzir as informações da sua credencial.

  6. Crie um novo bloco de anotações Apache Spark.

  7. Copie os nomes do espaço de trabalho e da casa do lago para o seu bloco de anotações e crie a URL do OneLake para a sua casa do lago. Agora você pode ler qualquer arquivo a partir deste caminho de arquivo.

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. Tente escrever alguns dados na casa do lago.

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. Teste se seus dados foram gravados com sucesso verificando sua casa do lago ou lendo seu arquivo recém-carregado.

Agora você pode ler e gravar dados no OneLake usando seu notebook Jupyter em um cluster HDI Spark.