Conectar o Excel ao Apache Hadoop com o Power Query
Um dos principais recursos da solução de big data da Microsoft é a integração dos componentes de BI (business intelligence) da Microsoft com clusters Apache Hadoop no Azure HDInsight. Um dos principais exemplos é a capacidade de conectar o Excel com a conta de Armazenamento do Azure, que contém os dados associados ao seu cluster Hadoop usando o suplemento Microsoft Power Query para Excel. Este artigo explica como configurar e usar o Power Query para consultar dados associados a um cluster Hadoop gerenciado com o HDInsight.
Pré-requisitos
- Um cluster do Apache Hadoop no HDInsight. Consulte Introdução ao HDInsight no Linux.
- Uma estação de trabalho que está executando Windows 10, 7, Windows Server 2008 R2 ou um sistema operacional posterior.
- Microsoft 365 Apps para Grandes Empresas, Office 2016, Office 2013 Professional Plus, Excel 2013 autônomo ou Office 2010 Professional Plus.
Instalar o Microsoft Power Query
O Power Query pode importar dados que foram retornados ou que foram gerados por um trabalho Hadoop em execução em um cluster HDInsight.
No Excel 2016, o Power Query foi integrado na faixa de opções Dados na seção Obter e Transformar. Para versões mais antigas do Excel, baixe o Microsoft Power Query para Excel no Centro de Download da Microsoft e instale-o.
Importar dados do HDInsight para o Excel
O suplemento do Power Query para Excel facilita a importação de dados de seu cluster HDInsight para o Excel onde ferramentas de BI, como o PowerPivot e o Power Map, podem ser usadas para inspecionar, analisar e apresentar os dados.
Inicie o Excel.
Crie uma nova pasta de trabalho em branco.
Execute as etapas a seguir com base na versão do Excel:
Excel 2016
Selecione >Dados>Obter Dados>Do Azure>Do Azure HDInsight (HDFS).
Excel 2013/2010
Selecione Power Query>Do Azure>Do Microsoft Azure HDInsight.
Observação: se você não vir o menu Power Query, vá para Arquivo>Opções>Suplementos e selecione Suplementos COM na caixa suspensa Gerenciar na parte inferior da página. Selecione o botão Ir... e verifique se a caixa do suplemento Power Query para Excel está marcada.
Observação: o Power Query também permite que você importe dados do HDFS selecionando De Outras Fontes.
Na caixa de diálogo Azure HDInsight (HDFS) , na caixa de texto Nome da conta ou URL, digite o nome da conta de armazenamento de Blob do Azure associada ao cluster. Depois, selecione OK. Essa conta pode ser a conta de armazenamento padrão ou uma conta de armazenamento vinculada. O formato é
https://StorageAccountName.blob.core.windows.net/
.Para Chave de Conta, insira a chave para a conta de armazenamento de Blob e clique em Conectar. (Você precisa inserir as informações da conta somente na primeira vez que acessar este repositório.)
No painel Navegador à esquerda do Editor de Consultas, clique duas vezes no nome do contêiner de armazenamento de Blobs associado com o cluster. Por padrão, o nome do contêiner é igual ao nome do cluster.
Localize HiveSampleData.txt na coluna Nome (o caminho da pasta é ../hive/warehouse/hivesampletable/ ) e selecione em Binário à esquerda de HiveSampleData.txt. HiveSampleData.txt acompanha todo o cluster. Se desejar, você pode usar seu próprio arquivo.
Se desejar, você pode renomear os nomes das colunas. Quando estiver pronto, selecione Fechar e Carregar. Os dados foram carregados em sua pasta de trabalho:
Próximas etapas
Neste artigo, você aprendeu como usar o Power Query para recuperar dados do HDInsight para o Excel. Da mesma forma, você pode recuperar dados do HDInsight no banco de dados SQL do Azure. Também é possível carregar dados para o HDInsight. Confira os seguintes artigos para saber mais:
- Visualizar dados do Apache Hive com o Microsoft Power BI no Azure HDInsight.
- Visualizar dados da consulta interativa do Hive com o Power BI no Azure HDInsight.
- Use o Apache Zeppelin para executar consultas do Apache Hive no HDInsight do Azure.
- Conectar o Excel ao HDInsight com o Driver ODBC do Microsoft Hive.
- Conecte-se ao Azure HDInsight e execute consultas do Apache Hive usando o Data Lake Tools para Visual Studio.
- Use a Ferramenta do Azure HDInsight para Visual Studio Code.
- Carregue os dados no HDInsight.