Criar clusters do HDInsight com o Gen1 do Azure Data Lake Storage usando o portal do Azure

Aprenda a usar o portal do Azure para criar um cluster do HDInsight com o Azure Data Lake Storage Gen1 como o armazenamento padrão ou um armazenamento adicional. Embora armazenamento adicional seja opcional para um cluster HDInsight, é recomendável armazenar seus dados comerciais em contas de armazenamento adicionais.

Pré-requisitos

Antes de começar, verifique se você atendeu aos seguintes requisitos:

  • Uma assinatura do Azure. Acesse Obter uma avaliação gratuita do Azure.
  • Uma conta do Azure Data Lake Storage Gen1. Siga as instruções do Introdução ao Azure Data Lake armazenamento Gen1, usando o portal do Azure. Você também deve criar uma pasta raiz na conta. Neste artigo, uma pasta raiz chamada /clusters é usada.
  • uma entidade de serviço Microsoft Entra. Este guia de instruções fornece instruções sobre como criar uma entidade de serviço no Microsoft Entra ID. No entanto, para criar uma entidade de serviço, você deve ser um administrador Microsoft Entra. Se você for um administrador, ignore esse pré-requisito e continue.

Observação

Você só poderá criar uma entidade de serviço se for um administrador Microsoft Entra. O administrador do Microsoft Entra deve criar uma entidade de serviço antes de criar um cluster HDInsight com Data Lake Storage Gen1. Além disso, a entidade de serviço deve ser criada com um certificado, conforme descrito em Criar uma entidade de serviço com certificado.

Crie um cluster HDInsight

Nesta seção, você cria um cluster do HDInsight com Data Lake Storage Gen1 como o padrão ou o armazenamento adicional. Este artigo se concentra somente na configuração do Data Lake Storage Gen1. Para obter informações gerais sobre a criação do cluster, consulte Criar clusters do Hadoop no HDInsight.

Criar um cluster com o Data Lake Storage Gen1 como armazenamento padrão

Para criar um cluster do HDInsight com um Data Lake Storage Gen1 como a conta de armazenamento padrão:

  1. Entre no portal do Azure.

  2. Siga Criar clusters para obter as informações gerais sobre a criação de clusters do HDInsight.

  3. Na folha Armazenamento, em Tipo de armazenamento principal, selecione Armazenamento do Data Lake do Azure Gen1 e insira as seguintes informações:

    Configurações da conta de armazenamento do HDInsight

    • Selecione a conta do Data Lake Store: Selecione uma conta existente do Data Lake Storage Gen1. Uma conta existente do Data Lake armazenamento Gen1 é necessária. Consulte Pré-requisitos.
    • Caminho raiz: insira um caminho em que os arquivos específicos de cluster deverão ser armazenados. Na captura de tela, é /clusters/myhdiadlcluster/, em que a pasta /clusters deve existir e o Portal cria a pasta myhdicluster. O myhdicluster é o nome do cluster.
    • Acesso ao Data Lake Store: Configure o acesso entre a conta do Data Lake Storage Gen1 e o cluster do HDInsight. Para obter instruções, consulte Configurar o acesso do Data Lake Storage Gen1.
    • Contas de armazenamento adicionais: contas de armazenamento do Azure adicionar como contas de armazenamento adicionais para o cluster. Para adicionar outras contas do Data Lake Storage Gen1 é feito dando as permissões do cluster em dados em mais contas do Data Lake Storage Gen1 enquanto configura uma conta do Data Lake Storage Gen1 como o tipo de armazenamento primário. Ver acesso de configurar o Data Lake armazenamento Gen1.
  4. Em Acesso ao Data Lake Store, clique em Selecionar e continue com a criação do cluster, conforme descrito em Criar clusters Hadoop no HDInsight.

Criar um cluster com o Data Lake Storage Gen1 como armazenamento adicional

As instruções a seguir criam um cluster do HDInsight com uma conta de Armazenamento de Blobs do Azure como armazenamento padrão e uma conta de armazenamento com Data Lake Storage Gen1 como um armazenamento adicional.

Para criar um cluster do HDInsight com o Data Lake Storage Gen1 como uma conta de armazenamento adicional:

  1. Entre no portal do Azure.

  2. Siga Criar clusters para obter as informações gerais sobre a criação de clusters do HDInsight.

  3. Na folha Armazenamento, em Tipo de armazenamento primário, selecione Armazenamento do Azure e, em seguida, insira as seguintes informações:

    Armazenamento adicional das configurações da conta de armazenamento do HDInsight

    • Método de seleção ꟷ para especificar uma conta de armazenamento que faz parte de sua assinatura do Azure, selecione Minhas assinaturas e a conta de armazenamento. Para especificar uma conta de armazenamento que está fora de sua assinatura do Azure, selecione Chave de acesso e, em seguida, forneça as informações da conta de armazenamento externa.

    • Contêiner padrão ꟷ use o valor padrão ou especifique seu próprio nome.

    • Contas de armazenamento adicionais ꟷ adicione mais contas de armazenamento do Azure como armazenamento adicional.

    • Acesso ao Data Lake Store ꟷ configure o acesso entre a conta do Data Lake Storage Gen1 e o cluster do HDInsight. Para obter instruções, consulte Configurar o acesso do Data Lake Storage Gen1.

Configurar o acesso ao Data Lake armazenamento Gen1

Nesta seção, você configurará Data Lake Storage Gen1 acesso de clusters HDInsight usando uma entidade de serviço Microsoft Entra.

Especificar uma entidade de serviço

No portal do Azure, você pode usar uma entidade de serviço existente ou criar uma nova.

Para criar uma entidade de serviço do portal do Azure:

  1. Consulte Criar Entidade de Serviço e Certificados usando Microsoft Entra ID.

Para usar uma entidade de serviço existente do portal do Azure:

  1. A entidade de serviço deve ter permissões de proprietário na conta de armazenamento. Confira Configurar permissões para a entidade de serviço ser proprietária na conta de armazenamento.

  2. Selecione Acesso ao Data Lake Store.

  3. Na folha Acesso ao Data Lake Storage Gen1, selecione Usar existente.

  4. Selecione Entidade de serviço e, em seguida, selecione uma entidade de serviço.

  5. Carregue o certificado (arquivo .pfx) associado à entidade de serviço selecionada e insira a senha do certificado.

    Adicionar entidade de serviço no cluster HDInsight

  6. Selecione Acessar para configurar o acesso à pasta. Consulte Configurar permissões de arquivo.

Configurar permissões para a entidade de serviço ser proprietária na conta de armazenamento

  1. Na folha Controle de acesso (IAM) na conta de armazenamento, clique em Adicionar uma atribuição de função.
  2. Na folha Adicionar uma atribuição de função, selecione Função como 'proprietário' e selecione o SPN e clique em Salvar.

Configurar permissões de arquivo

Aa configuração é diferente dependendo de se a conta é usada como o armazenamento padrão ou uma conta de armazenamento adicional:

  • Usado como o armazenamento padrão

    • permissão no nível raiz da conta do Data Lake armazenamento Gen1
    • permissão no nível raiz do armazenamento de cluster HDInsight. Por exemplo, a pasta /clusters usada anteriormente no tutorial.
  • Usar como um armazenamento adicional

    • Permissões nas pastas em que você precisa de acesso ao arquivo.

Para atribuir permissão na conta de armazenamento com o Data Lake Storage Gen1 no nível de raiz:

  1. Na folha Acesso ao Data Lake Storage Gen1, selecione Acesso. A folha Selecionar permissões de arquivo é aberta. Ela lista todas as contas de armazenamento em sua assinatura.

  2. Passe o mouse (não clique) sobre o nome da conta com Data Lake Storage Gen1 para tornar a caixa de seleção visível e marque a caixa de seleção.

    Selecionar permissões de arquivo

    Por padrão, as opções LER, GRAVAR E EXECUTAR estão selecionadas.

  3. Clique em Selecionar na parte inferior da página.

  4. Selecione Executar para atribuir permissão.

  5. Selecione Concluído.

Para atribuir a permissão no nível de raiz do cluster HDInsight:

  1. Na folha Acesso ao Data Lake Storage Gen1, selecione Acesso. A folha Selecionar permissões de arquivo é aberta. Ela lista todas as contas de armazenamento com Data Lake Storage Gen1 em sua assinatura.
  2. Na folha Selecionar permissões de arquivo, selecione a conta de armazenamento com o nome Data Lake Storage Gen1 para mostrar seu conteúdo.
  3. Selecione a raiz de armazenamento de cluster HDInsight marcando a caixa de seleção à esquerda da pasta. De acordo com a captura de tela anterior, a raiz de armazenamento do cluster é a pasta / clusters que você especificou ao selecionar o Data Lake Storage Gen1 como armazenamento padrão.
  4. Defina as permissões na pasta. Por padrão, as opções ler, gravar e executar estão selecionadas.
  5. Clique em Selecionar na parte inferior da página.
  6. Selecione Executar.
  7. Selecione Concluído.

Se você estiver usando o Data Lake Storage Gen1 como armazenamento adicional, atribua permissão somente para as pastas que deseja acessar no cluster do HDInsight. Por exemplo, na captura de tela abaixo, você fornece acesso apenas à pasta mynewfolder em uma conta de armazenamento com Data Lake Storage Gen1.

Atribuir permissões de entidade de serviço ao cluster do HDInsight

Verificar a configuração do cluster

Após a conclusão da configuração do cluster, na folha do cluster, verifique os resultados executando uma ou ambas as etapas a seguir:

  • Para verificar se o armazenamento associado ao cluster é a conta com Data Lake Storage Gen1 que você especificou, selecione Contas de armazenamento no painel esquerdo.

    Verificar armazenamento associado

  • Para verificar se a entidade de serviço está corretamente associada ao cluster do HDInsight, selecione Acesso ao Data Lake Storage Gen1 no painel esquerdo.

    Verificar entidade de serviço

Exemplos

Depois de configurar o cluster com o Data Lake Storage Gen1 como seu armazenamento, confira estes exemplos de como usar o cluster do HDInsight para analisar os dados armazenados no Data Lake Storage Gen1.

Executar uma consulta do Hive em relação a dados em um Data Lake Storage Gen1 (como armazenamento primário)

Para executar uma consulta do Hive, use a interface de exibições do Hive no portal do Ambari. Para obter instruções sobre como usar as exibições do Hive no Ambari, consulte Usar a exibição do Hive com o Hadoop no HDInsight.

Quando você trabalha com dados em um Data Lake Storage Gen1, há algumas cadeias de caracteres a serem alteradas.

Se você usa, por exemplo, o cluster criado com o Data Lake Storage Gen1 como armazenamento primário, o caminho para os dados é: adl://<data_lake_storage_gen1_account_name>/azuredatalakestore.net/path/to/file. Uma consulta do Hive para criar uma tabela a partir de dados de amostra armazenados no Data Lake Storage Gen1 se parece com a seguinte instrução:

CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'

Descrições:

  • adl://hdiadlsg1storage.azuredatalakestore.net/ é a raiz da conta com Data Lake Storage Gen1.
  • /clusters/myhdiadlcluster é a raiz dos dados do cluster especificada durante a criação do cluster.
  • /HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/ é a localização do arquivo de exemplo usado na consulta.

Executar uma consulta do Hive em relação a dados em um Data Lake Storage Gen1 (como armazenamento adicional)

Se o cluster que você criou usar o armazenamento de blobs como armazenamento padrão, os dados de amostra não estarão contidos na conta de armazenamento com Data Lake Storage Gen1 usada como armazenamento adicional. Nesse caso, primeiro transfira os dados do armazenamento de blobs para a conta de armazenamento com Data Lake Storage Gen1 e execute as consultas conforme mostrado no exemplo anterior.

Para obter informações sobre como copiar dados do armazenamento de blobs para uma conta de armazenamento com Data Lake Storage Gen1, confira os seguintes artigos:

Usar o Data Lake armazenamento Gen1 com um cluster Spark

Você pode usar um cluster do Spark para executar trabalhos do Spark em dados armazenados em um Data Lake Storage Gen1. Para obter mais informações, consulte Use o cluster do HDInsight Spark para analisar dados no Data Lake Storage Gen1.

Use o Data Lake Storage Gen1 em uma topologia do Storm

Confira também