Use o Azure Toolkit for Eclipse para criar aplicativos do Apache Spark para um cluster do HDInsight

Artigo
06/13/2024

Use o HDInsight Tools no Azure Toolkit para Eclipse para desenvolver aplicativos do Apache Spark escritos na Scala e enviá-los para um cluster do Azure HDInsight Spark diretamente do Eclipse IDE. Você pode usar o plug-in Ferramentas do HDInsight de algumas maneiras diferentes:

Para desenvolver e enviar um aplicativo Scala Spark em um cluster HDInsight Spark.
Para acessar os recursos de cluster do Azure HDInsight Spark.
Para desenvolver e executar um aplicativo Scala Spark localmente.

Pré-requisitos

Um cluster do Apache Spark no HDInsight. Para obter instruções, consulte o artigo sobre como Criar clusters do Apache Spark no Azure HDInsight.
JDK (Java Developer Kit), versão 8.
IDE do Eclipse. Este artigo usa o Eclipse IDE para desenvolvedores Java.

Instalar os plug-ins necessários

Instalar o Azure Toolkit for Eclipse

Para obter instruções de instalação, consulte Instalando o Kit de Ferramentas do Azure para Eclipse.

Instalar o plug-in Scala

Quando você abre o Eclipse, as ferramentas do HDInsight detectam automaticamente se você instalou o plug-in Scala. Selecione OK para continuar e, em seguida, siga as instruções para instalar o plug-in Eclipse Marketplace. Reinicie o IDE após a conclusão da instalação.

Automatic installation of the Scala plug-in.

Confirmar plug-ins

Navegue até Ajuda>Marketplace do Eclipse... .
Selecione a guia Instalado.
Você deve ver pelo menos:
- <Versão> do Azure Toolkit for Eclipse.
- <Versão> do IDE Scala.

Inicie o IDE do Eclipse.
Navegue até Janela>Mostrar Exibição>Outro...>Entrar... .
Na caixa de diálogo Mostrar Exibição, navegue até Azure>Azure Explorer e, em seguida, selecione Abrir.
No Azure Explorer, clique com o botão direito do mouse no nó Azure e, em seguida, selecione Entrar.
Na caixa de diálogo Entrada do Azure, escolha o método de autenticação, selecione Entrar e conclua o processo de entrada.
Após a entrada, a caixa de diálogo Suas Assinaturas listará todas as assinaturas do Azure associadas às credenciais. Pressione Selecionar para fechar a caixa de diálogo.
Em Azure Explorer, navegue até Azure>HDInsight para ver os clusters Spark do HDInsight da sua assinatura.
Além disso, você pode expandir um nó de nome de cluster para ver os recursos (por exemplo, contas de armazenamento) associados ao cluster.

Vincular um cluster

Você pode vincular um cluster normal usando o nome de usuário gerenciado do Ambari. Da mesma forma, para um cluster HDInsight ingressado no domínio, crie o vínculo usando o domínio e o nome de usuário, como user1@contoso.com.

No Azure Explorer, clique com o botão direito do mouse em HDInsight e selecione Vincular um Cluster.
Insira o Nome do Cluster, o Nome de Usuário e a Senha e selecione OK. Opcionalmente, insira a Conta de Armazenamento, Chave de Armazenamento e, em seguida, selecione o Contêiner de Armazenamento para o Gerenciador de armazenamento trabalhar no modo de exibição de árvore à esquerda

Observação

Usamos a chave de armazenamento vinculada, nome de usuário e senha, se o cluster registrou na assinatura do Azure e vinculou um cluster.

Para o usuário que usa somente teclado, quando o foco atual está na Chave de Armazenamento, você precisa usar Ctrl + Tab para focalizar no próximo campo da caixa de diálogo.
Você pode ver o cluster vinculado no HDInsight. Agora, você pode enviar um aplicativo para esse cluster vinculado.
Também é possível desvincular um cluster a partir do Azure Explorer.

Configurar um projeto Spark Scala para um cluster HDInsight Spark

No workspace do IDE do Eclipse, selecione Arquivo>Novo>Projeto... .
No assistente Novo Projeto, selecione Projeto HDInsight>Spark no HDInsight (Scala) . Em seguida, selecione Avançar.
Na caixa de diálogo Novo Projeto do HDInsight Scala, forneça os seguintes valores e selecione Avançar:
- Insira um nome para o projeto.
- Na área JRE, verifique se Usar um ambiente de execução JRE está definido como JavaSE-1.7 ou posterior.
- Na área Biblioteca do Spark, você pode escolher a opção Usar o Maven para configurar o SDK do Spark. Nossa ferramenta integra a versão apropriada para o SDK do Spark e o SDK do Scala. Você também pode escolher a opção Adicionar o SDK do Spark manualmente, baixar e adicionar o SDK do Spark manualmente.
Na próxima caixa de diálogo, examine os detalhes e depois selecione Concluir.

Criar um aplicativo Scala para cluster Spark no HDInsight

No Explorador de Pacotes, expanda o projeto que você criou anteriormente. Clique com o botão direito do mouse em src, selecione Novo>Outro... .
Na caixa de diálogo Selecionar um assistente, expanda Assistentes Scala>Objeto Scala. Em seguida, selecione Avançar.
Na caixa de diálogo Criar Novo Arquivo, insira um nome para o objeto e selecione Concluir. Um editor de texto será aberto.

No editor de texto, substitua o conteúdo atual pelo código abaixo:

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

object MyClusterApp{
    def main (arg: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("MyClusterApp")
    val sc = new SparkContext(conf)

    val rdd = sc.textFile("wasbs:///HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv")

    //find the rows that have only one digit in the seventh column in the CSV
    val rdd1 =  rdd.filter(s => s.split(",")(6).length() == 1)

    rdd1.saveAsTextFile("wasbs:///HVACOut")
    }
}

Execute o aplicativo em um cluster HDInsight Spark:

a. No Explorador de Pacotes, clique com o botão direito do mouse no nome do projeto e escolha Enviar Aplicativo Spark para HDInsight.

b. Na caixa de diálogo Envio do Spark, forneça os valores a seguir e selecione Enviar:
- Para Nome do Cluster, selecione o cluster HDInsight Spark no qual você deseja executar o aplicativo.
- Selecione um artefato do projeto Eclipse ou selecionar uma opção do disco rígido. O valor padrão depende do item no qual você clica com o botão direito do mouse por meio do Gerenciador de Pacotes.
- Na lista suspensa Nome de classe principal, o assistente de envio exibe todos os nomes de objeto do projeto. Selecione ou insira um que você deseja executar. Se tiver selecionado um artefato de um disco rígido, você deverá inserir o nome de classe principal manualmente.
- Como o código do aplicativo neste exemplo não exige argumentos de linha de comando ou JARs ou arquivos de referência, você pode deixar as caixas de texto restantes vazias.
A guia Envio de Spark deve começar a exibir o progresso. Você pode interromper o aplicativo selecionando o botão vermelho na janela Envio do Spark. Você também pode exibir os logs para essa execução de aplicativo específica selecionando o ícone de globo (indicado pela caixa azul na imagem).

Acessar e gerenciar clusters HDInsight Spark usando as Ferramentas do HDInsight no Kit de Ferramentas do Azure para Eclipse

Você pode executar várias operações usando as Ferramentas do HDInsight, incluindo o acesso à saída do trabalho.

Acessar a exibição do trabalho

No Azure Explorer, expanda HDInsight, expanda o nome do cluster Spark e escolha Trabalhos.
Selecione o nó Trabalhos. Se a versão do Java é menor do que 1.8, as Ferramentas do HDInsight lembram você automaticamente de instalar o plug-in E(fx)clipse. Selecione OK para continuar e, em seguida, siga o assistente para instalá-lo do Eclipse Marketplace e reiniciar o Eclipse.
Abra a Exibição de Trabalho do nó Trabalhos. No painel direito, a guia Exibição de Trabalho do Spark exibe todos os aplicativos que foram executados no cluster. Selecione o nome do aplicativo do qual você deseja ver mais detalhes.

Você pode executar uma das seguintes ações:
- Passe o mouse sobre o grafo de trabalho. Ele exibe informações básicas sobre o trabalho em execução. Selecione o grafo de trabalho e você poderá ver os estágios e as informações que cada trabalho gera.
- Selecione a guia Log para exibir logs usados frequentemente, como Stderr do Driver, Stdout do Driver e Informações do diretório.
- Abra a IU do histórico do Spark e a IU do Apache Hadoop YARN (no nível do aplicativo) selecionando os hiperlinks na parte superior da janela.

Acessar o contêiner de armazenamento do cluster

No Azure Explorer, expanda o nó raiz HDInsight para ver uma lista de clusters HDInsight Spark disponíveis.
Expanda o nome do cluster para ver a conta de armazenamento e o contêiner de armazenamento padrão do cluster.
Selecione o nome do contêiner de armazenamento associado ao cluster. No painel direito, clique duas vezes na pasta HVACOut. Abra um dos arquivos part- para ver a saída do aplicativo.

Acessar o servidor de histórico do Spark

No Azure Explorer, clique com o botão direito do mouse no nome do cluster Spark e escolha Abrir a Interface do Usuário de Histórico do Spark. Quando solicitado, insira as credenciais de administrador para o cluster. Elas foram especificadas no provisionamento do cluster.
No painel do Servidor de Histórico do Spark, procure o aplicativo que você acabou de executar usando o nome do aplicativo. No código anterior, você definiu o nome do aplicativo usando val conf = new SparkConf().setAppName("MyClusterApp"). Dessa forma, o nome do aplicativo Spark era MyClusterApp.

Iniciar o portal do Apache Ambari

No Azure Explorer, clique com o botão direito do mouse no nome do cluster Spark e escolha Abrir o Portal de Gerenciamento do Cluster (Ambari).
Quando solicitado, insira as credenciais de administrador para o cluster. Elas foram especificadas no provisionamento do cluster.

Gerenciar assinaturas do Azure

Por padrão, a Ferramenta do HDInsight no Kit de Ferramentas do Azure para Eclipse lista os clusters Spark de todas as assinaturas do Azure. Se for necessário, você poderá especificar as assinaturas para as quais deseja acessar o cluster.

No Azure Explorer, clique com o botão direito do mouse no nó-raiz Azure e selecione Gerenciar Assinaturas.
Na caixa de diálogo, desmarque as caixas de seleção da assinatura que você não deseja acessar e selecione Fechar. Você também poderá escolher Sair se quiser sair da sua assinatura do Azure.

Executar um aplicativo Scala Spark localmente

Você pode usar as Ferramentas do HDInsight no Kit de Ferramentas do Azure para Eclipse para executar aplicativos Spark Scala localmente em sua estação de trabalho. Normalmente, esses aplicativos não precisam acessar recursos de cluster como um contêiner de armazenamento e você pode executá-los e testá-los localmente.

Pré-requisito

Durante a execução do aplicativo Spark Scala local em um computador Windows, você pode receber uma exceção, conforme explicado em SPARK-2356. Essa exceção ocorre porque WinUtils.exe está ausente no Windows.

Para resolver esse erro, você precisa baixar Winutils.exe para um local como C:\WinUtils\bin e, depois, adicionar a variável de ambiente HADOOP_HOME e definir o valor da variável como C\WinUtils.

Executar um aplicativo Scala Spark local

Inicie o Eclipse e crie um projeto. Na caixa de diálogo Novo Projeto, faça as opções a seguir e selecione Avançar.
No assistente Novo Projeto, selecione Projeto HDInsight>Amostra de Execução Local do Spark no HDInsight (Scala) . Em seguida, selecione Avançar.
Para fornecer os detalhes do projeto, siga as etapas 3 a 6 da seção anterior Configurar um projeto de Spark Scala para um cluster HDInsight Spark.
O modelo adiciona um código de exemplo (LogQuery) na pasta src que pode ser executada localmente em seu computador.
Clique com o botão direito do mouse em LogQuery.scala e selecione Executar Como>1 Aplicativo Scala. Uma saída como essa é exibida na guia Console:

Função somente leitura

Quando os usuários enviam um trabalho a um cluster com permissão de função somente leitura, as credenciais do Ambari são solicitadas.

Entrar com conta com função somente leitura.
No Azure Explorer, expanda HDInsight para exibir os clusters do HDInsight em sua assinatura. Os clusters marcados "Role:Reader" só tem permissão para a função somente leitura.
Clique com botão direito do mouse no cluster com permissão para a função somente leitura. Selecione Vincular este cluster no menu de contexto para vincular o cluster. Insira o nome de usuário e a senha do Ambari.
Se o cluster for vinculado com êxito, o HDInsight será atualizado. O estágio do cluster será se tornará vinculado.

Vincular cluster expandindo o nó Trabalhos

Clique no nó Trabalhos, a janela Acesso negado ao cluster Trabalhos é exibida.
Clique em Vincular este cluster para vincular o cluster.

Vincular cluster da janela de envio do Spark

Crie um Projeto HDInsight.
Clique com o botão direito do mouse no pacote. Em seguida, selecione Enviar Aplicativo Spark para o HDInsight.
Selecione um cluster que tem a permissão de função somente leitura, para Nome do Cluster. A mensagem de aviso é mostrada. Você pode clicar em Vincular este cluster para vincular o cluster.

Exibir Contas de Armazenamento

Para clusters com permissão de função somente leitura, clique no nó Contas de Armazenamento, a janela Acesso Negado ao Armazenamento aparece.
Para clusters vinculados, clique no nó Contas de Armazenamento, a janela Acesso Negado ao Armazenamento aparece.

Problemas conhecidos

Ao usar Vincular um Cluster, sugiro que você forneça uma credencial de armazenamento.

link cluster with storage credential eclipses.

Há dois modos para enviar os trabalhos. Se a credencial de armazenamento for fornecida, o modo de lote será usado para enviar o trabalho. Caso contrário, o modo interativo será usado. Se o cluster estiver ocupado, poderá receber o erro abaixo.

Compartilhar via

Use o Azure Toolkit for Eclipse para criar aplicativos do Apache Spark para um cluster do HDInsight

Pré-requisitos

Instalar os plug-ins necessários

Instalar o Azure Toolkit for Eclipse

Instalar o plug-in Scala

Confirmar plug-ins

Vincular um cluster

Configurar um projeto Spark Scala para um cluster HDInsight Spark

Criar um aplicativo Scala para cluster Spark no HDInsight

Acessar e gerenciar clusters HDInsight Spark usando as Ferramentas do HDInsight no Kit de Ferramentas do Azure para Eclipse

Acessar a exibição do trabalho

Acessar o contêiner de armazenamento do cluster

Acessar o servidor de histórico do Spark

Iniciar o portal do Apache Ambari

Gerenciar assinaturas do Azure

Executar um aplicativo Scala Spark localmente

Pré-requisito

Executar um aplicativo Scala Spark local

Função somente leitura

Vincular cluster do menu de contexto

Vincular cluster expandindo o nó Trabalhos

Vincular cluster da janela de envio do Spark

Exibir Contas de Armazenamento

Problemas conhecidos

Confira também

Cenários

Criando e executando aplicativos

Ferramentas e extensões

Gerenciando recursos

Comentários

Recursos adicionais

Compartilhar via

Use o Azure Toolkit for Eclipse para criar aplicativos do Apache Spark para um cluster do HDInsight

Pré-requisitos

Instalar os plug-ins necessários

Instalar o Azure Toolkit for Eclipse

Instalar o plug-in Scala

Confirmar plug-ins

Entre em sua assinatura do Azure

Vincular um cluster

Configurar um projeto Spark Scala para um cluster HDInsight Spark

Criar um aplicativo Scala para cluster Spark no HDInsight

Acessar e gerenciar clusters HDInsight Spark usando as Ferramentas do HDInsight no Kit de Ferramentas do Azure para Eclipse

Acessar a exibição do trabalho

Acessar o contêiner de armazenamento do cluster

Acessar o servidor de histórico do Spark

Iniciar o portal do Apache Ambari

Gerenciar assinaturas do Azure

Executar um aplicativo Scala Spark localmente

Pré-requisito

Executar um aplicativo Scala Spark local

Função somente leitura

Vincular cluster do menu de contexto

Vincular cluster expandindo o nó Trabalhos

Vincular cluster da janela de envio do Spark

Exibir Contas de Armazenamento

Problemas conhecidos

Confira também

Cenários

Criando e executando aplicativos

Ferramentas e extensões

Gerenciando recursos

Comentários

Recursos adicionais