Cenários de uso do Power BI: preparação avançada de dados
Observação
Este artigo faz parte da série de artigos sobre o Planejamento de implantação do Power BI. Esta série se concentra principalmente na experiência do Power BI no Microsoft Fabric. Para ter uma introdução a essa série, confira Planejamento de implementação do Power BI.
A preparação de dados (às vezes conhecida como ETL, que é um acrônimo para atividades de Extração, Transformação e Carga) geralmente envolve um grande esforço. O tempo, a habilidade e o esforço envolvidos na coleta, limpeza, combinação e enriquecimento de dados dependem da qualidade e da estrutura dos dados de origem.
Investir tempo e esforço na preparação centralizada de dados ajuda a:
- Aprimorar a reutilização e obter o valor máximo dos esforços de preparação de dados.
- Aprimorar a capacidade de fornecer dados consistentes para várias equipes.
- Reduzir o nível de esforço exigido por outros criadores de conteúdo.
- Alcançar dimensionamento e desempenho.
O cenário avançado de uso de preparação de dados se expande no cenário de preparação de dados de autoatendimento. A preparação avançada de dados trata-se de aumentar a reutilização do fluxo de dados por vários usuários em várias equipes e para vários casos de uso.
Workspaces separados, organizados por finalidade de fluxo de dados, são úteis quando a saída do fluxo de dados é fornecida a vários criadores de modelos semânticos, especialmente quando eles estão em equipes diferentes na organização. Workspaces separados também são úteis para gerenciar funções de segurança quando as pessoas que criam e gerenciam fluxos de dados são diferentes das pessoas as consomem.
Observação
O cenário avançado de preparação de dados é o segundo dos cenários de preparação de dados. Esse cenário baseia-se no que pode ser feito com fluxos de dados centralizados, conforme descrito no cenário de preparação de dados de autoatendimento.
O cenário de preparação de dados avançado é um dos cenários do BI de autoatendimento. No entanto, um membro de equipe centralizado pode usar as técnicas de maneira semelhante ao descrito no cenário de BI de autoatendimento gerenciado. Para obter uma lista completa dos cenários de autoatendimento, confira o artigo Cenários de uso do Power BI.
Para simplificar, alguns aspectos descritos no tópico Cenários de colaboração e entrega de conteúdo não são abordados neste artigo. Para obter a cobertura completa, leia esses artigos primeiro.
Diagrama do cenário
Dica
Recomendamos que você examine o cenário de uso da preparação de dados de autoatendimento se não estiver familiarizado com ele. O cenário avançado de preparação de dados de autoatendimento se baseia nesse cenário.
O foco desse cenário avançado de preparação de dados está em:
- Uso de fluxos de dados separados com base na finalidade: preparo, transformação ou final. É recomendável usar blocos de construção combináveis para obter maior reutilização, em várias combinações, para dar suporte a requisitos específicos do usuário. Blocos de construção combináveis são descritos posteriormente neste artigo.
- O uso de workspaces separados que dão suporte a criadores de fluxo de dados ou consumidores de fluxo de dados. Os modeladores de dados, que consomem fluxos de dados, podem estar em equipes diferentes e/ou ter diferentes casos de uso.
- O uso de tabelas vinculadas (também conhecidas como entidades vinculadas), tabelas computadas (também conhecidas como entidades computadas) e o mecanismo de computação aprimorado.
Observação
Às vezes, os termos modelo semântico e modelo de dados são usados de modo intercambiável. De modo geral, do ponto de vista do serviço do Power BI, ele é chamado de modelo semântico. Do ponto de vista do desenvolvimento, é conhecido como modelo de dados (ou modelo para abreviar). Neste artigo, os dois termos têm o mesmo significado. De modo semelhante, os termos criador de modelo semântico e modelador de dados têm o mesmo significado.
O diagrama a seguir ilustra uma visão geral de alto nível das ações mais comuns do usuário e dos componentes do Power BI que dão suporte ao cenário de preparação de dados avançados.
Dica
Recomendamos que você baixe o diagrama de cenário, caso deseje inseri-lo em sua apresentação, documentação ou postagem no blog, ou imprima-o como um pôster de parede. Como é uma imagem SVG (Elementos Gráficos Vetoriais Escaláveis), você pode escalá-la ou reduzi-la verticalmente sem perda de qualidade.
O diagrama do cenário ilustra as seguintes ações, ferramentas e recursos do usuário:
Item | Descrição |
---|---|
O criador de fluxo de dados desenvolve uma coleção de tabelas em um fluxo de dados. Para um fluxo de dados destinado à reutilização, é comum (mas não obrigatório) que o criador pertença a uma equipe centralizada, que dê suporte a usuários além dos limites organizacionais (como TI, BI corporativo ou Centro de Excelência). | |
O fluxo de dados é conectado aos dados de uma ou mais fontes de dados. | |
Algumas fontes de dados podem exigir um gateway de dados local ou um gateway de VNet para atualização de dados, como aquelas que estão em uma rede organizacional particular. Esses gateways são usados para criar o fluxo de dados no Power Query Online e atualizar esse fluxo. | |
Todos os workspaces envolvidos têm o modo de licença definido como capacidade do Fabric, capacidade Premium, Premium por usuário ou Embedded. Esses modos de licença permitem o uso de tabelas vinculadas e tabelas computadas em workspaces, que são necessários nesse cenário. | |
Os criadores de fluxo de dados desenvolvem fluxos de dados usando o Power Query Online, que é uma versão baseada na Web do Power Query. | |
Um fluxo de dados de preparo é criado em um workspace dedicado ao gerenciamento centralizado de fluxos de dados. Um fluxo de dados de preparo copia os dados brutos da origem. Poucas transformações, se houver, são aplicadas. | |
Um fluxo de dados de transformação (também conhecido como fluxo de dados limpo) é criado no mesmo workspace. Ele fornece dados usando tabelas vinculadas para o fluxo de dados de preparo. As tabelas computadas incluem etapas de transformação que preparam, limpam e remodelam os dados. | |
Os criadores de fluxo de dados têm acesso para gerenciar o conteúdo no workspace dedicado ao gerenciamento centralizado de fluxos de dados. | |
Existem um ou mais workspaces destinados a fornecer acesso ao fluxo de dados final, que fornece dados prontos para produção para modelos de dados. | |
O fluxo de dados final é criado em um workspace disponível para modeladores de dados. Ele fornece dados usando tabelas vinculadas para o fluxo de dados de transformação. Tabelas computadas representam a saída preparada visível para modeladores de dados que recebem a função de visualizador do workspace. | |
Os criadores de modelos semânticos (que consomem a saída do fluxo de dados) têm acesso do visualizador ao workspace que contém a saída final do fluxo de dados. Os criadores de fluxo de dados também têm acesso para gerenciar e publicar conteúdo no workspace (não ilustrado no diagrama de cenário). | |
Os criadores de modelos semânticos usam o fluxo de dados final como uma fonte de dados ao desenvolver um modelo de dados no Power BI Desktop. Quando pronto, o criador do modelo semântico publica o arquivo do Power BI Desktop (.pbix), que contém o modelo de dados no serviço do Power BI (não ilustrado no diagrama do cenário). | |
Os administradores do Fabric gerenciam as configurações no portal de administração. | |
No portal de administração, os administradores do Power BI podem configurar as conexões do Azure para armazenar os dados do fluxo de dados nas respectivas contas do ADLS Gen2 (Azure Data Lake Storage Gen2). As configurações incluem atribuir uma conta de armazenamento no nível do locatário e habilitar as permissões de armazenamento no nível do workspace. | |
Por padrão, os fluxos de dados armazenam os dados usando o armazenamento interno gerenciado pelo serviço do Power BI. Opcionalmente, a saída de dados pelo fluxo de dados pode ser armazenada na conta do ADLS Gen2 da organização. | |
Os administradores do Fabric supervisionam e monitoram a atividade no portal do Fabric. |
Pontos-chave
Veja a seguir alguns pontos importantes a serem enfatizadas sobre o cenário de preparação de dados avançado.
Fluxos de dados
Um fluxo de dados é composto por uma coleção de tabelas (também conhecidas como entidades). Cada tabela é definida por uma consulta, que contém as etapas de preparação de dados necessárias para carregar a tabela com dados. Todo o trabalho para criar um fluxo de dados é feito no Power Query Online. Você pode criar fluxos de dados em vários produtos, incluindo no Power Apps, no Dynamics 365 Customer Insights e no Power BI.
Observação
Você não pode criar fluxos de dados em um workspace pessoal no serviço do Power BI.
Tipos de fluxos de dados
O uso de blocos de construção combináveis é um princípio de design que permite gerenciar, implantar e proteger componentes do sistema e usá-los em várias combinações. Criar fluxos de dados modulares e independentes específicos para uma finalidade é uma melhor prática. Eles ajudam a obter a reutilização de dados e a escala empresarial. Fluxos de dados modulares também são mais fáceis de gerenciar e testar.
Três tipos de fluxos de dados são mostrados no diagrama de cenário: fluxo de dados de preparo, fluxo de dados de transformação e fluxo de dados final.
Preparação de dados
Um fluxo de dados de preparo (às vezes chamado de fluxo de dados de extração de dados) copia dados brutos como estão da origem. Ter os dados brutos extraídos com transformação mínima significa que os fluxos de dados de transformação downstream (descritos em seguida) podem usar o fluxo de dados de preparo como sua origem. Essa modularidade é útil quando:
- O acesso a uma fonte de dados é restrito a janelas de tempo estreitas e/ou a alguns usuários.
- A consistência temporal é desejada para garantir que todos os fluxos de dados downstream (e modelos semânticos relacionados) forneçam dados que foram extraídos da fonte de dados ao mesmo tempo.
- A redução do número de consultas enviadas à fonte de dados é necessária devido a restrições do sistema de origem ou sua capacidade de dar suporte a consultas analíticas.
- Uma cópia dos dados de origem é útil para processos de reconciliação e verificações de qualidade de dados.
Fluxo de dados de transformação
Um fluxo de dados de transformação (às vezes chamado de fluxo de dados limpo) origina seus dados de tabelas vinculadas que se conectam ao fluxo de dados de preparo. É uma melhor prática separar transformações do processo de extração de dados.
Um fluxo de dados de transformação inclui todas as etapas de transformação necessárias para preparar e reestruturar os dados. No entanto, ainda há um foco na reutilização nessa camada para garantir que o fluxo de dados seja adequado para vários casos de uso e finalidades.
Fluxo de dados final
Um fluxo de dados final representa a saída preparada. Algumas transformações adicionais podem ocorrer com base no caso de uso e na finalidade. Para análise, uma tabela de esquema em estrela (dimensão ou fato) é o design preferencial do fluxo de dados final.
As tabelas computadas são visíveis para modeladores de dados que recebem a função de visualizador de workspace. Esse tipo de tabela é descrito nos tipos de tópico de tabelas de fluxo de dados abaixo.
Observação
Os data lakes geralmente têm zonas, como bronze, prata e ouro. Os três tipos de fluxos de dados representam um padrão de design semelhante. Para tomar as melhores decisões de arquitetura de dados possíveis, pense em quem manterá os dados, o uso esperado dos dados e o nível de habilidade exigido pelas pessoas que acessam os dados.
Workspaces para fluxos de dados
Se você criasse todos os fluxos de dados em um único workspace, isso limitaria significativamente a extensão da reutilização. O uso de um único workspace também limita as opções de segurança disponíveis ao dar suporte a vários tipos de usuários entre equipes e/ou para diferentes casos de uso. É recomendável usar vários workspaces. Eles fornecem melhor flexibilidade quando você precisa dar suporte a criadores de autoatendimento de várias áreas da organização.
Os dois tipos de workspaces mostrados no diagrama de cenário incluem:
- Workspace 1: Ele armazena fluxos de dados gerenciados centralmente (às vezes chamados de workspace de back-end). Ele contém os fluxos de dados de preparo e transformação porque eles são gerenciados pelas mesmas pessoas. Os criadores de fluxo de dados geralmente são de uma equipe centralizada, como TI, BI ou o Centro de Excelência. Eles devem ser atribuídos à função de administrador, membro ou colaborador do workspace.
- Workspace 2: Ele armazena e fornece a saída final do fluxo de dados para os consumidores dos dados (às vezes chamados de workspace do usuário). Os criadores de modelos semânticos geralmente são analistas de autoatendimento, usuários de energia ou engenheiros de dados cidadãos. Eles devem ser atribuídos à função de visualizador de workspace porque só precisam consumir a saída do fluxo de dados final. Para dar suporte a criadores de modelos semânticos de várias áreas da organização, você pode criar vários workspaces como este, com base nas necessidades de caso de uso e segurança.
Dica
É recomendável examinar maneiras de dar suporte a criadores de modelos semânticos, conforme descrito no cenário de uso de preparação de dados de autoatendimento. É importante entender que os criadores de modelos semânticos ainda podem usar os recursos completos de Power Query dentro de Power BI Desktop. Eles podem optar por adicionar etapas de consulta para transformar ainda mais os dados de fluxo de dados ou mesclar a saída do fluxo de dados com outras fontes.
Tipos de tabelas de fluxo de dados
Três tipos de tabelas de fluxo de dados (também conhecidas como entidades) são representados no diagrama de cenário.
- Tabela padrão: Consulta uma fonte de dados externa, como um banco de dados. No diagrama de cenário, as tabelas padrão são representadas no fluxo de dados de preparo.
- Tabela vinculada: Faz referência a uma tabela de outro fluxo de dados. Uma tabela vinculada não duplica os dados. Em vez disso, permite a reutilização de uma tabela padrão várias vezes para várias finalidades. As tabelas vinculadas não são visíveis para os visualizadores de workspace, pois herdam permissões do fluxo de dados original. No diagrama de cenário, as tabelas computadas são representadas duas vezes:
- No fluxo de dados de transformação para acessar os dados no fluxo de dados de preparo.
- No fluxo de dados final para acessar os dados no fluxo de dados de transformação.
- Tabela computada: Executa cálculos adicionais usando um fluxo de dados diferente como sua origem. As tabelas computadas permitem personalizar a saída conforme necessário para casos de uso individuais. No diagrama de cenário, as tabelas computadas são representadas duas vezes:
- No fluxo de dados de transformação para executar transformações comuns.
- No fluxo de dados final para fornecer saída aos criadores de modelos semânticos. Como as tabelas computadas persistem os dados novamente (após a atualização do fluxo de dados), os modeladores de dados podem acessar as tabelas computadas no fluxo de dados final. Nesse caso, os modeladores de dados devem ter acesso com a função de visualizador do workspace.
Observação
Existem muitas técnicas de design, padrões e melhores práticas que podem levar os fluxos de dados do autoatendimento para o pronto para uso empresarial. Além disso, os fluxos de dados em um workspace cujo modo de licença foi definido como Premium por usuário ou Capacidade de Premium podem utilizar os recursos avançados. Tabelas vinculadas e tabelas computadas (também conhecidas como entidades) são dois recursos avançados essenciais para aumentar a reutilização de fluxos de dados.
Mecanismo de computação aprimorado
O mecanismo de computação aprimorado é um recurso avançado disponível com Power BI Premium.
Importante
Às vezes, este artigo se refere ao Power BI Premium ou às suas assinaturas de capacidade (P SKUs). Lembre-se de que a Microsoft está consolidando atualmente as opções de compra e desativando os SKUs do Power BI Premium por capacidade. Em vez disso, os clientes novos e existentes devem considerar a compra de SKUs (assinaturas de capacidade do Fabric).
Para obter mais informações, consulte Atualização importante chegando ao de licenciamento do Power BI Premium e Perguntas frequentes do Power BI Premium.
O mecanismo de computação aprimorado melhora o desempenho de tabelas vinculadas (dentro do mesmo workspace) que referenciam (vincular a) o fluxo de dados. Para obter o benefício máximo do mecanismo de computação aprimorado:
- Divida os fluxos de dados de preparo e transformação.
- Use o mesmo workspace para armazenar os fluxos de dados de preparo e transformação.
- Aplique operações complexas que podem dobrar consultas no início das etapas de consulta. Priorizar operações dobráveis pode ajudar a obter o melhor desempenho de atualização.
- Use a tualização incremental para reduzir as durações de atualização e o consumo de recursos.
- Execute testes com frequência e início durante a fase de desenvolvimento.
Atualização de modelos semânticos e do fluxo de dados
Um fluxo de dados é uma fonte de dados para modelos semânticos. Na maioria dos casos, vários agendamentos de atualização de dados estão envolvidos: um para o fluxo de dados e outro para cada modelo semântico. Como alternativa, é possível usar o DirectQuery do modelo semântico para o fluxo de dados, que requer Power BI Premium e o mecanismo de computação aprimorado (não representado no diagrama de cenário).
Azure Data Lake Storage Gen2
Uma conta ADLS Gen2 é um tipo específico de conta de Armazenamento do Azure que tem o namespace hierárquico habilitado. O ADLS Gen2 tem vantagens de desempenho, gerenciamento e segurança para cargas de trabalho operacionais analíticas. Por padrão, os fluxos de dados do Power BI usam o armazenamento interno, que é uma conta interna do data lake gerenciada pelo serviço do Power BI. Opcionalmente, as organizações podem trazer seus próprios data lake conectando-se a uma conta do ADLS Gen2 em sua organização.
Aqui estão algumas vantagens de usar seu próprio data lake:
- Os usuários (ou processos) podem acessar diretamente os dados de fluxo de dados armazenados no data lake. Isso é útil quando a reutilização do fluxo de dados ocorre além do Power BI. Por exemplo, o Azure Data Factory poderia acessar os dados de fluxo de dados.
- Outras ferramentas ou sistemas podem gerenciar os dados no data lake. Nesse caso, o Power BI pode consumir os dados, em vez de gerenciá-los (não ilustrado no diagrama do cenário).
Ao usar tabelas vinculadas ou tabelas computadas, verifique se cada workspace está atribuído à mesma conta de armazenamento do ADLS Gen2.
Observação
Os dados do fluxo de dados no ADLS Gen2 são armazenados em um contêiner específico do Power BI. Esse contêiner é representado no diagrama de cenário de uso de preparação de dados de autoatendimento.
Configurações do portal do administrador
Há duas configurações importantes a serem gerenciadas no portal do Administração:
- Conexões do Azure: A seção Conexões do Azure do portal de Administrador inclui uma configuração para configurar uma conexão com uma conta ADLS Gen2. Essa configuração permite que um administrador do Power BI traga seu próprio data lake para fluxos de dados. Depois de configurados, os workspaces podem usar essa conta do data lake para armazenamento.
- Armazenamento no nível do workspace: Um administrador do Power BI pode definir permissões de armazenamento no nível do workspace. Quando habilitada, essa configuração permite que os administradores de workspace usem uma conta de armazenamento diferente da que foi definida no nível do locatário. Habilitar essa configuração é útil para unidades de negócios descentralizadas, que gerenciam seu próprio data lake no Azure.
Instalação do gateway
Normalmente, é necessário um gateway de dados local para se conectar a fontes de dados que residem em uma rede organizacional privada ou rede virtual.
Um gateway de dados é necessário nos casos a seguir:
- Criação de um fluxo de dados no Power Query Online que se conecta a dados organizacionais privados.
- Atualização de um fluxo de dados que se conecta a dados organizacionais privados.
Dica
Os fluxos de dados exigem um gateway de dados centralizado no modo padrão. Não há suporte para um gateway no modo pessoal ao trabalhar com fluxos de dados.
Supervisão do sistema
O log de atividades registra as atividades do usuário que ocorrem no serviço do Power BI. Os administradores do Power BI podem usar os dados de log de atividades coletados para executar a auditoria, a fim de ajudar a entender os padrões de uso e a adoção. O log de atividades também é importante para dar suporte a esforços de governança, auditorias de segurança e requisitos de conformidade. No cenário avançado de preparação de dados, os dados do log de atividades são úteis para acompanhar o gerenciamento e o uso de fluxos de dados.
Conteúdo relacionado
Para outros cenários úteis para ajudar com decisões de implementação do Power BI, confira o artigo Cenários de uso do Power BI.