Tutorial: Analisar dados do Apache Spark usando o Power BI no HDInsight
Neste tutorial, você aprenderá a usar o Microsoft Power BI para visualizar dados em um cluster Apache Spark no Azure HDInsight.
Neste tutorial, irá aprender a:
- Utilizar o Power BI para ver dados do Spark
Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar.
Pré-requisitos
Conclua o artigo Tutorial: Carregar dados e executar consultas em um cluster Apache Spark no Azure HDInsight.
Opcional: assinatura de avaliação do Power BI.
Verificar os dados
O Jupyter Notebook que você criou no tutorial anterior inclui código para criar uma hvac
tabela. Esta tabela é baseada no arquivo CSV disponível em todos os clusters do HDInsight Spark em \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv
. Utilize o seguinte procedimento para verificar os dados.
No Jupyter Notebook, cole o código a seguir e pressione SHIFT + ENTER. O código verifica a existência das tabelas.
%%sql SHOW TABLES
O resultado tem o seguinte aspeto:
Se tiver fechado o bloco de notas antes de iniciar este tutorial,
hvactemptable
é limpa, pelo que não é incluída na saída. Só as tabelas do Hive que estejam armazenadas na metastore (indicadas com False (Falso), na coluna isTemporary) podem ser acedidas a partir das ferramentas de BI. Neste tutorial, vai ligar à tabela hvac que criou.Cole o seguinte código numa célula vazia e prima SHIFT + ENTER. O código verifica os dados na tabela.
%%sql SELECT * FROM hvac LIMIT 10
O resultado tem o seguinte aspeto:
No menu File (Ficheiro) do bloco de notas, selecione Close and Halt (Fechar e Parar). Encerre o bloco de notas para libertar os recursos.
Ver os dados
Nesta secção, vai utilizar o Power BI para criar visualizações, relatórios e dashboards a partir dos dados do cluster do Spark.
Criar um relatório no Power BI Desktop
Os primeiros passos para começar a trabalhar com o Spark são ligar ao cluster no Power BI Desktop, carregar dados a partir do cluster e criar uma visualização básica com base nesses dados.
Abra Power BI Desktop. Feche a tela inicial de inicialização se ela abrir.
Na guia Página Inicial, navegue até Obter dados>mais...
Introduza
Spark
na caixa de pesquisa, selecione Azure HDInsight Spark e, em seguida, selecione Ligar.Insira a URL do cluster (no formato
mysparkcluster.azurehdinsight.net
) na caixa de texto Servidor .Em Modo de conectividade de dados, selecione DirectQuery. Em seguida, selecione OK.
Pode utilizar qualquer um dos modos de conectividade de dados com o Spark. Se utilizar o DirectQuery, as alterações são refletidas nos relatórios sem atualizar o conjunto de dados completo. Se importar os dados, tem de atualizar o conjunto de dados para ver as alterações. Para obter mais informações sobre como e quando utilizar o DirectQuery, veja Utilizar o DirectQuery no Power BI.
Introduza as informações da conta de início de sessão do HDInsight e, em seguida, selecione Ligar. O nome predefinido da conta é admin.
Selecione a
hvac
tabela, aguarde para ver uma pré-visualização dos dados e, em seguida, selecione Carregar.O Power BI Desktop tem as informações de que precisa para se ligar ao cluster do Spark e carregar dados da tabela
hvac
. A tabela e as colunas são apresentadas no painel Fields (Campos).Visualize a variância entre a temperatura de destino e a temperatura real de cada edifício:
No painel VISUALIZATIONS (VISUALIZAÇÕES), selecione Area Chart (Gráfico de Área).
Arraste o campo BuildingID para Axis (Eixo) e os campos ActualTemp e TargetTemp para Value (Valor).
O diagrama tem o seguinte aspeto:
Por predefinição, a visualização mostra a soma de ActualTemp e TargetTemp. Selecione a seta para baixo ao lado de ActualTemp e TragetTemp no painel Visualizações, você pode ver Soma está selecionada.
Selecione as setas para baixo ao lado de ActualTemp e TragetTemp no painel Visualizações, selecione Média para obter uma média das temperaturas reais e de destino para cada edifício.
A visualização de dados deverá ser semelhante à da captura de ecrã. Mova o cursor sobre a visualização para obter sugestões de contexto com dados relevantes.
Navegue até Guardar Ficheiro>, introduza o nome
BuildingTemperature
do ficheiro e, em seguida, selecione Guardar.
Publicar o relatório no serviço Power BI (opcional)
O serviço Power BI permite-lhe partilhar relatórios e dashboards em toda a sua organização. Nesta secção, vai publicar primeiro o conjunto de dados e o relatório. Em seguida, vai afixar o relatório a um dashboard. Os painéis geralmente são usados para se concentrar em um subconjunto de dados em um relatório. Você tem apenas uma visualização em seu relatório, mas ainda é útil percorrer as etapas.
Abra Power BI Desktop.
No separador Base, selecione Publicar.
Selecione um espaço de trabalho para publicar seu conjunto de dados e relatório e, em seguida, selecione Selecionar. Na imagem seguinte, está selecionada a área de trabalho My Workspace predefinida.
Depois que a publicação for bem-sucedida, selecione Abrir 'BuildingTemperature.pbix' no Power BI.
No serviço do Power BI, selecione Inserir credenciais.
Selecione Editar credenciais.
Introduza as informações da conta de início de sessão do HDInsight e, em seguida, selecione Iniciar sessão. O nome predefinido da conta é admin.
No painel esquerdo, vá para Workspaces>My Workspace>REPORTS e selecione BuildingTemperature.
Também deverá ver BuildingTemperature em DATASETS (CONJUNTOS DE DADOS), no painel do lado esquerdo.
O elemento visual que criou no Power BI Desktop está agora disponível no serviço Power BI.
Passe o cursor sobre a visualização e selecione o ícone de pino no canto superior direito.
Selecione "Novo painel", digite o nome
Building temperature
e, em seguida, selecione Pin.No relatório, selecione Ir para o painel.
O elemento visual é afixado ao dashboard. Pode adicionar outros elementos visuais ao relatório e afixá-los ao mesmo dashboard. Para obter mais informações sobre relatórios e painéis, consulte Relatórios no Power BI e Painéis no Power BI.
Clean up resources (Limpar recursos)
Depois de concluir o tutorial, pode pretender eliminar o cluster. Com o HDInsight, seus dados são armazenados no Armazenamento do Azure, para que você possa excluir com segurança um cluster quando ele não estiver em uso. Você também é cobrado por um cluster HDInsight, mesmo quando ele não está em uso. Como as cobranças para o cluster são muitas vezes mais do que as taxas para armazenamento, faz sentido econômico excluir clusters quando eles não estão em uso.
Para excluir um cluster, consulte Excluir um cluster HDInsight usando seu navegador, PowerShell ou a CLI do Azure.
Próximos passos
Neste tutorial, você aprendeu como usar o Microsoft Power BI para visualizar dados em um cluster Apache Spark no Azure HDInsight. Avance para o próximo artigo para ver que você pode criar um aplicativo de aprendizado de máquina.