Ligar o Excel ao Apache Hadoop utilizando o Power Query
Um recurso importante da solução de big data da Microsoft é a integração de componentes de business intelligence (BI) da Microsoft com clusters Apache Hadoop no Azure HDInsight. Um exemplo principal é a capacidade de conectar o Excel à conta de Armazenamento do Azure que contém os dados associados ao cluster Hadoop usando o suplemento Microsoft Power Query para Excel. Este artigo orienta você sobre como configurar e usar o Power Query para consultar dados associados a um cluster Hadoop gerenciado com o HDInsight.
Pré-requisitos
- Um cluster Apache Hadoop no HDInsight. Consulte Introdução ao HDInsight no Linux.
- Uma estação de trabalho que esteja executando o Windows 10, 7, Windows Server 2008 R2 ou um sistema operacional posterior.
- Aplicações Microsoft 365 para empresas, Office 2016, Office 2013 Professional Plus, Excel 2013 Autónomo ou Office 2010 Professional Plus.
Instalar o Microsoft Power Query
O Power Query pode importar dados que foram produzidos ou que foram gerados por um trabalho Hadoop em execução em um cluster HDInsight.
No Excel 2016, o Power Query foi integrado no friso Dados na secção Obter & Transformar. Para versões mais antigas do Excel, transfira o Microsoft Power Query para Excel a partir do Centro de Transferências da Microsoft e instale-o.
Importar dados do HDInsight para o Excel
O suplemento Power Query para Excel facilita a importação de dados do cluster HDInsight para o Excel, onde ferramentas de BI como o PowerPivot e o Power Map podem ser utilizadas para inspecionar, analisar e apresentar os dados.
Inicie o Excel.
Crie uma nova pasta de trabalho em branco.
Execute as seguintes etapas com base na versão do Excel:
Excel 2016
Selecione >Dados>Obter Dados>do Azure>do Azure HDInsight(HDFS).
Excel 2013/2010
Selecione Power Query>a partir do Azure>a partir do Microsoft Azure HDInsight.
Nota: Se não vir o menu Power Query, aceda a Suplementos de Opções>de Ficheiro>e selecione Suplementos COM na caixa pendente Gerir na parte inferior da página. Selecione o botão Ir... e verifique se a caixa do suplemento Power Query para Excel foi marcada.
Nota: O Power Query também lhe permite importar dados do HDFS selecionando De Outras Fontes.
Na caixa de diálogo Azure HDInsight(HDFS), na caixa de texto Nome da conta ou URL, insira o nome da conta de armazenamento de Blob do Azure associada ao cluster. Em seguida, selecione OK. Essa conta pode ser a conta de armazenamento padrão ou uma conta de armazenamento vinculada. O formato é
https://StorageAccountName.blob.core.windows.net/
.Em Chave de Conta, insira a chave para a conta de armazenamento de Blob e selecione Conectar. (Você precisa inserir as informações da conta somente na primeira vez que acessar esta loja.)
No painel Navegador à esquerda do Editor de Consultas, clique duas vezes no nome do contêiner de armazenamento de Blob associado ao cluster. Por padrão, o nome do contêiner é o mesmo nome do cluster.
Localize HiveSampleData.txt na coluna Nome (o caminho da pasta é .. /hive/warehouse/hivesampletable/) e, em seguida, selecione Binário à esquerda de HiveSampleData.txt. HiveSampleData.txt vem com todo o cluster. Opcionalmente, você pode usar seu próprio arquivo.
Se desejar, você pode renomear os nomes das colunas. Quando estiver pronto, selecione Fechar & Carregar. Os dados foram carregados na pasta de trabalho:
Próximos passos
Neste artigo, você aprendeu como usar o Power Query para recuperar dados do HDInsight para o Excel. Da mesma forma, você pode recuperar dados do HDInsight no Banco de Dados SQL do Azure. Também é possível carregar dados no HDInsight. Para saber mais, leia os artigos seguintes:
- Visualize dados do Apache Hive com o Microsoft Power BI no Azure HDInsight.
- Visualize dados do Hive de Consulta Interativa com o Power BI no Azure HDInsight.
- Use o Apache Zeppelin para executar consultas do Apache Hive no Azure HDInsight.
- Conecte o Excel ao HDInsight com o driver ODBC do Microsoft Hive.
- Conecte-se ao Azure HDInsight e execute consultas do Apache Hive usando o Data Lake Tools for Visual Studio.
- Use a Ferramenta Azure HDInsight para Visual Studio Code.
- Carregue dados para o HDInsight.