Criar clusters do HDInsight com o Azure Data Lake Storage Gen1 com o portal do Azure
Saiba como utilizar o portal do Azure para criar um cluster do HDInsight com o Azure Data Lake Storage Gen1 como armazenamento predefinido ou um armazenamento adicional. Apesar de o armazenamento adicional ser opcional para um cluster do HDInsight, recomenda-se que armazene os seus dados empresariais nas contas de armazenamento adicionais.
Pré-requisitos
Antes de começar, certifique-se de que cumpriu os seguintes requisitos:
- Uma subscrição do Azure. Aceda a Obter avaliação gratuita do Azure.
- Uma conta Azure Data Lake Storage Gen1. Siga as instruções de Introdução ao Azure Data Lake Storage Gen1 com a portal do Azure. Também tem de criar uma pasta raiz na conta. Neste artigo, é utilizada uma pasta raiz denominada /clusters .
- um principal de serviço Microsoft Entra. Este guia de procedimentos fornece instruções sobre como criar um principal de serviço no Microsoft Entra ID. No entanto, para criar um principal de serviço, tem de ser um administrador Microsoft Entra. Se for administrador, pode ignorar este pré-requisito e continuar.
Nota
Só pode criar um principal de serviço se for um administrador Microsoft Entra. O administrador de Microsoft Entra tem de criar um principal de serviço antes de poder criar um cluster do HDInsight com Data Lake Storage Gen1. Além disso, o principal de serviço tem de ser criado com um certificado, conforme descrito em Criar um principal de serviço com certificado.
Criar um cluster do HDInsight
Nesta secção, vai criar um cluster do HDInsight com Data Lake Storage Gen1 como o armazenamento predefinido ou adicional. Este artigo centra-se apenas na parte de configurar Data Lake Storage Gen1. Para obter as informações e procedimentos gerais de criação de clusters, veja Create Hadoop clusters in HDInsight (Criar clusters do Hadoop no HDInsight).
Criar um cluster com Data Lake Storage Gen1 como armazenamento predefinido
Para criar um cluster do HDInsight com um Data Lake Storage Gen1 como a conta de armazenamento predefinida:
Inicie sessão no portal do Azure.
Siga Criar clusters para obter as informações gerais sobre a criação de clusters do HDInsight.
No painel Armazenamento, em Tipo de armazenamento primário, selecione Azure Data Lake Storage Gen1 e, em seguida, introduza as seguintes informações:
- Selecione Conta do Data Lake Store: selecione uma conta de Data Lake Storage Gen1 existente. É necessária uma conta de Data Lake Storage Gen1 existente. Veja Pré-requisitos.
- Caminho de raiz: introduza um caminho onde os ficheiros específicos do cluster devem ser armazenados. Na captura de ecrã, é /clusters/myhdiadlcluster/, na qual a pasta /clusters tem de existir e o Portal cria a pasta myhdicluster . O myhdicluster é o nome do cluster.
- Acesso ao Data Lake Store: configure o acesso entre a conta Data Lake Storage Gen1 e o cluster do HDInsight. Para obter instruções, veja Configurar o acesso Data Lake Storage Gen1.
- Contas de armazenamento adicionais: adicione contas de armazenamento do Azure como contas de armazenamento adicionais para o cluster. Para adicionar mais Data Lake Storage Gen1 contas é feita ao conceder ao cluster permissões sobre dados em mais contas Data Lake Storage Gen1 enquanto configura uma conta Data Lake Storage Gen1 como o tipo de armazenamento principal. Veja Configurar Data Lake Storage Gen1 acesso.
No acesso ao Data Lake Store, clique em Selecionar e, em seguida, continue com a criação do cluster, conforme descrito em Criar clusters do Hadoop no HDInsight.
Criar um cluster com Data Lake Storage Gen1 como armazenamento adicional
As seguintes instruções criam um cluster do HDInsight com uma conta de armazenamento de Blobs do Azure como armazenamento predefinido e uma conta de armazenamento com Data Lake Storage Gen1 como armazenamento adicional.
Para criar um cluster do HDInsight com Data Lake Storage Gen1 como uma conta de armazenamento adicional:
Inicie sessão no portal do Azure.
Siga Criar clusters para obter as informações gerais sobre a criação de clusters do HDInsight.
No painel Armazenamento , em Tipo de armazenamento primário, selecione Armazenamento do Azure e, em seguida, introduza as seguintes informações:
Método de seleção – para especificar uma conta de armazenamento que faça parte da sua subscrição do Azure, selecione As minhas subscrições e, em seguida, selecione a conta de armazenamento. Para especificar uma conta de armazenamento que esteja fora da sua subscrição do Azure, selecione Chave de acesso e, em seguida, forneça as informações para a conta de armazenamento externa.
Contentor predefinido – utilize o valor predefinido ou especifique o seu próprio nome.
Contas de armazenamento adicionais – adicione mais contas de armazenamento do Azure como armazenamento adicional.
Acesso ao Data Lake Store – configure o acesso entre a conta Data Lake Storage Gen1 e o cluster do HDInsight. Para obter instruções, veja Configurar Data Lake Storage Gen1 acesso.
Configurar o acesso Data Lake Storage Gen1
Nesta secção, vai configurar Data Lake Storage Gen1 acesso a partir de clusters do HDInsight com um principal de serviço Microsoft Entra.
Especificar um principal de serviço
A partir do portal do Azure, pode utilizar um principal de serviço existente ou criar um novo.
Para criar um principal de serviço a partir do portal do Azure:
- Veja Criar Principal de Serviço e Certificados com Microsoft Entra ID.
Para utilizar um principal de serviço existente do portal do Azure:
O Principal de Serviço deve ter permissões de proprietário na conta de Armazenamento. Veja Configurar permissões para que o Principal de Serviço seja proprietário na conta de armazenamento.
Selecione Acesso ao Data Lake Store.
No painel Data Lake Storage Gen1 acesso, selecione Utilizar existente.
Selecione Principal de serviço e, em seguida, selecione um principal de serviço.
Carregue o certificado (ficheiro.pfx) associado ao principal de serviço selecionado e, em seguida, introduza a palavra-passe do certificado.
Selecione Acesso para configurar o acesso à pasta. Veja Configurar permissões de ficheiro.
Configurar permissões para o Principal de Serviço ser proprietário na conta de armazenamento
- No painel Controlo de Acesso (IAM) da conta de armazenamento, clique em Adicionar uma atribuição de função.
- No painel Adicionar uma atribuição de função, selecione Função como "proprietário", selecione o SPN e clique em guardar.
Configurar permissões de ficheiro
A configuração é diferente consoante a conta seja utilizada como armazenamento predefinido ou como uma conta de armazenamento adicional:
Utilizado como armazenamento predefinido
- permissão no nível de raiz da conta Data Lake Storage Gen1
- no nível de raiz do armazenamento do cluster do HDInsight. Por exemplo, a pasta /clusters utilizada anteriormente no tutorial.
Utilizar como armazenamento adicional
- Permissão nas pastas onde precisa de acesso a ficheiros.
Para atribuir permissão na conta de armazenamento com Data Lake Storage Gen1 ao nível da raiz:
No painel Data Lake Storage Gen1 acesso, selecione Acesso. O painel Selecionar permissões de ficheiro é aberto. Lista todas as contas de armazenamento na sua subscrição.
Paire o rato sobre o nome da conta com Data Lake Storage Gen1 para tornar a caixa de verificação visível e, em seguida, selecione a caixa de verificação.
Por predefinição, AS opções LER, ESCREVER E EXECUTAR estão todas selecionadas.
Clique em Selecionar na parte inferior da página.
Selecione Executar para atribuir permissão.
Selecione Concluído.
Para atribuir permissão ao nível de raiz do cluster do HDInsight:
- No painel Data Lake Storage Gen1 acesso, selecione Acesso. O painel Selecionar permissões de ficheiro é aberto. Lista todas as contas de armazenamento com Data Lake Storage Gen1 na sua subscrição.
- No painel Selecionar permissões de ficheiro, selecione a conta de armazenamento com Data Lake Storage Gen1 nome para mostrar o respetivo conteúdo.
- Selecione a raiz de armazenamento do cluster do HDInsight ao selecionar a caixa de verificação à esquerda da pasta. De acordo com a captura de ecrã anterior, a raiz de armazenamento do cluster é a pasta /clusters que especificou ao selecionar Data Lake Storage Gen1 como armazenamento predefinido.
- Defina as permissões na pasta . Por predefinição, as opções ler, escrever e executar estão todas selecionadas.
- Clique em Selecionar na parte inferior da página.
- Selecione Executar.
- Selecione Concluído.
Se estiver a utilizar Data Lake Storage Gen1 como armazenamento adicional, tem de atribuir permissão apenas às pastas a que pretende aceder a partir do cluster do HDInsight. Por exemplo, na captura de ecrã abaixo, fornece acesso apenas à pasta mynewfolder numa conta de armazenamento com Data Lake Storage Gen1.
Verificar a configuração do cluster
Após a conclusão da configuração do cluster, no painel do cluster, verifique os resultados ao efetuar um ou ambos os passos seguintes:
Para verificar se o armazenamento associado para o cluster é a conta com Data Lake Storage Gen1 que especificou, selecione Contas de armazenamento no painel esquerdo.
Para verificar se o principal de serviço está corretamente associado ao cluster do HDInsight, selecione Data Lake Storage Gen1 acesso no painel esquerdo.
Exemplos
Depois de configurar o cluster com Data Lake Storage Gen1 como armazenamento, veja estes exemplos de como utilizar o cluster do HDInsight para analisar os dados armazenados no Data Lake Storage Gen1.
Executar uma consulta do Hive em dados num Data Lake Storage Gen1 (como armazenamento primário)
Para executar uma consulta do Hive, utilize a interface de vistas do Hive no portal do Ambari. Para obter instruções sobre como utilizar as vistas do Hive do Ambari, veja Utilizar a Vista do Hive com o Hadoop no HDInsight.
Quando trabalha com dados num Data Lake Storage Gen1, existem algumas cadeias para alterar.
Se utilizar, por exemplo, o cluster que criou com Data Lake Storage Gen1 como armazenamento primário, o caminho para os dados é: adl://< data_lake_storage_gen1_account_name>/azuredatalakestore.net/path/to/file. Uma consulta do Hive para criar uma tabela a partir de dados de exemplo armazenados no Data Lake Storage Gen1 é semelhante à seguinte instrução:
CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'
Descrições:
-
adl://hdiadlsg1storage.azuredatalakestore.net/
é a raiz da conta com Data Lake Storage Gen1. -
/clusters/myhdiadlcluster
é a raiz dos dados do cluster que especificou ao criar o cluster. -
/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/
é a localização do ficheiro de exemplo que utilizou na consulta.
Executar uma consulta do Hive em dados num Data Lake Storage Gen1 (como armazenamento adicional)
Se o cluster que criou utilizar o Armazenamento de blobs como armazenamento predefinido, os dados de exemplo não estão contidos na conta de armazenamento com Data Lake Storage Gen1 que são utilizados como armazenamento adicional. Nesse caso, transfira primeiro os dados do Armazenamento de blobs para a conta de armazenamento com Data Lake Storage Gen1 e, em seguida, execute as consultas, conforme mostrado no exemplo anterior.
Para obter informações sobre como copiar dados do Armazenamento de blobs para uma conta de armazenamento com Data Lake Storage Gen1, veja os seguintes artigos:
- Utilizar o Distcp para copiar dados entre o armazenamento de Blobs do Azure e Data Lake Storage Gen1
- Utilizar o AdlCopy para copiar dados do armazenamento de Blobs do Azure para Data Lake Storage Gen1
Utilizar Data Lake Storage Gen1 com um cluster do Spark
Pode utilizar um cluster do Spark para executar tarefas do Spark em dados armazenados num Data Lake Storage Gen1. Para obter mais informações, veja Utilizar o cluster do HDInsight Spark para analisar dados no Data Lake Storage Gen1.