Tutorial: Analisar dados do Apache Spark usando o Power BI no HDInsight

Neste tutorial, você aprenderá a usar o Microsoft Power BI para visualizar dados em um cluster Apache Spark no Azure HDInsight.

Neste tutorial, irá aprender a:

  • Utilizar o Power BI para ver dados do Spark

Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar.

Pré-requisitos

Verificar os dados

O Jupyter Notebook que você criou no tutorial anterior inclui código para criar uma hvac tabela. Esta tabela é baseada no arquivo CSV disponível em todos os clusters do HDInsight Spark em \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv. Utilize o seguinte procedimento para verificar os dados.

  1. No Jupyter Notebook, cole o código a seguir e pressione SHIFT + ENTER. O código verifica a existência das tabelas.

    %%sql
    SHOW TABLES
    

    O resultado tem o seguinte aspeto:

    Captura de ecrã a mostrar tabelas no Spark.

    Se tiver fechado o bloco de notas antes de iniciar este tutorial, hvactemptable é limpa, pelo que não é incluída na saída. Só as tabelas do Hive que estejam armazenadas na metastore (indicadas com False (Falso), na coluna isTemporary) podem ser acedidas a partir das ferramentas de BI. Neste tutorial, vai ligar à tabela hvac que criou.

  2. Cole o seguinte código numa célula vazia e prima SHIFT + ENTER. O código verifica os dados na tabela.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    O resultado tem o seguinte aspeto:

    Captura de tela mostrando linhas da tabela hvac no Spark.

  3. No menu File (Ficheiro) do bloco de notas, selecione Close and Halt (Fechar e Parar). Encerre o bloco de notas para libertar os recursos.

Ver os dados

Nesta secção, vai utilizar o Power BI para criar visualizações, relatórios e dashboards a partir dos dados do cluster do Spark.

Criar um relatório no Power BI Desktop

Os primeiros passos para começar a trabalhar com o Spark são ligar ao cluster no Power BI Desktop, carregar dados a partir do cluster e criar uma visualização básica com base nesses dados.

  1. Abra Power BI Desktop. Feche a tela inicial de inicialização se ela abrir.

  2. Na guia Página Inicial, navegue até Obter dados>mais...

    Captura de ecrã a mostrar obter dados para o Power BI Desktop a partir do HDInsight Apache Spark.

  3. Introduza Spark na caixa de pesquisa, selecione Azure HDInsight Spark e, em seguida, selecione Ligar.

    Captura de ecrã a mostrar obter dados para o Power BI a partir do Apache Spark BI.

  4. Insira a URL do cluster (no formato mysparkcluster.azurehdinsight.net) na caixa de texto Servidor .

  5. Em Modo de conectividade de dados, selecione DirectQuery. Em seguida, selecione OK.

    Pode utilizar qualquer um dos modos de conectividade de dados com o Spark. Se utilizar o DirectQuery, as alterações são refletidas nos relatórios sem atualizar o conjunto de dados completo. Se importar os dados, tem de atualizar o conjunto de dados para ver as alterações. Para obter mais informações sobre como e quando utilizar o DirectQuery, veja Utilizar o DirectQuery no Power BI.

  6. Introduza as informações da conta de início de sessão do HDInsight e, em seguida, selecione Ligar. O nome predefinido da conta é admin.

  7. Selecione a hvac tabela, aguarde para ver uma pré-visualização dos dados e, em seguida, selecione Carregar.

    Captura de tela mostrando o nome de usuário e a senha do cluster Spark.

    O Power BI Desktop tem as informações de que precisa para se ligar ao cluster do Spark e carregar dados da tabela hvac. A tabela e as colunas são apresentadas no painel Fields (Campos).

  8. Visualize a variância entre a temperatura de destino e a temperatura real de cada edifício:

    1. No painel VISUALIZATIONS (VISUALIZAÇÕES), selecione Area Chart (Gráfico de Área).

    2. Arraste o campo BuildingID para Axis (Eixo) e os campos ActualTemp e TargetTemp para Value (Valor).

      Captura de ecrã a mostrar colunas de valor acrescentado.

      O diagrama tem o seguinte aspeto:

      Captura de tela mostrando a soma do gráfico de área.

      Por predefinição, a visualização mostra a soma de ActualTemp e TargetTemp. Selecione a seta para baixo ao lado de ActualTemp e TragetTemp no painel Visualizações, você pode ver Soma está selecionada.

    3. Selecione as setas para baixo ao lado de ActualTemp e TragetTemp no painel Visualizações, selecione Média para obter uma média das temperaturas reais e de destino para cada edifício.

      Captura de ecrã a mostrar a média dos valores.

      A visualização de dados deverá ser semelhante à da captura de ecrã. Mova o cursor sobre a visualização para obter sugestões de contexto com dados relevantes.

      Captura de ecrã a mostrar o gráfico de área

  9. Navegue até Guardar Ficheiro>, introduza o nome BuildingTemperature do ficheiro e, em seguida, selecione Guardar.

Publicar o relatório no serviço Power BI (opcional)

O serviço Power BI permite-lhe partilhar relatórios e dashboards em toda a sua organização. Nesta secção, vai publicar primeiro o conjunto de dados e o relatório. Em seguida, vai afixar o relatório a um dashboard. Os painéis geralmente são usados para se concentrar em um subconjunto de dados em um relatório. Você tem apenas uma visualização em seu relatório, mas ainda é útil percorrer as etapas.

  1. Abra Power BI Desktop.

  2. No separador Base, selecione Publicar.

    Captura de ecrã a mostrar a publicação a partir do Power BI Desktop.

  3. Selecione um espaço de trabalho para publicar seu conjunto de dados e relatório e, em seguida, selecione Selecionar. Na imagem seguinte, está selecionada a área de trabalho My Workspace predefinida.

    Captura de tela mostrando o espaço de trabalho selecionado para publicar o conjunto de dados e o relatório.

  4. Depois que a publicação for bem-sucedida, selecione Abrir 'BuildingTemperature.pbix' no Power BI.

    Captura de tela mostrando o sucesso da publicação, clique para inserir as credenciais.

  5. No serviço do Power BI, selecione Inserir credenciais.

    Captura de ecrã a mostrar como introduzir credenciais no serviço do Power BI.

  6. Selecione Editar credenciais.

    Captura de ecrã a mostrar Editar credenciais no serviço Power BI.

  7. Introduza as informações da conta de início de sessão do HDInsight e, em seguida, selecione Iniciar sessão. O nome predefinido da conta é admin.

    Captura de ecrã a mostrar Iniciar sessão no cluster do Spark.

  8. No painel esquerdo, vá para Workspaces>My Workspace>REPORTS e selecione BuildingTemperature.

    Captura de tela mostrando Relatório listado em relatórios no painel esquerdo.

    Também deverá ver BuildingTemperature em DATASETS (CONJUNTOS DE DADOS), no painel do lado esquerdo.

    O elemento visual que criou no Power BI Desktop está agora disponível no serviço Power BI.

  9. Passe o cursor sobre a visualização e selecione o ícone de pino no canto superior direito.

    Captura de ecrã a mostrar o relatório no serviço do Power BI.

  10. Selecione "Novo painel", digite o nome Building temperaturee, em seguida, selecione Pin.

    Captura de tela mostrando o pino no novo painel.

  11. No relatório, selecione Ir para o painel.

O elemento visual é afixado ao dashboard. Pode adicionar outros elementos visuais ao relatório e afixá-los ao mesmo dashboard. Para obter mais informações sobre relatórios e painéis, consulte Relatórios no Power BI e Painéis no Power BI.

Clean up resources (Limpar recursos)

Depois de concluir o tutorial, pode pretender eliminar o cluster. Com o HDInsight, seus dados são armazenados no Armazenamento do Azure, para que você possa excluir com segurança um cluster quando ele não estiver em uso. Você também é cobrado por um cluster HDInsight, mesmo quando ele não está em uso. Como as cobranças para o cluster são muitas vezes mais do que as taxas para armazenamento, faz sentido econômico excluir clusters quando eles não estão em uso.

Para excluir um cluster, consulte Excluir um cluster HDInsight usando seu navegador, PowerShell ou a CLI do Azure.

Próximos passos

Neste tutorial, você aprendeu como usar o Microsoft Power BI para visualizar dados em um cluster Apache Spark no Azure HDInsight. Avance para o próximo artigo para ver que você pode criar um aplicativo de aprendizado de máquina.