Cenários de utilização do Power BI: preparação avançada de dados
Nota
Este artigo faz parte da série de artigos de planejamento de implementação do Power BI. Esta série se concentra principalmente na experiência do Power BI no Microsoft Fabric. Para obter uma introdução à série, consulte Planejamento de implementação do Power BI.
As atividades de preparação de dados (às vezes referidas como ETL, que é um acrônimo para Extract, Transform, and Load) geralmente envolvem um grande esforço. O tempo, a habilidade e o esforço envolvidos na coleta, limpeza, combinação e enriquecimento de dados dependem da qualidade e da estrutura dos dados de origem.
Investir tempo e esforço na preparação centralizada de dados ajuda a:
- Melhore a reutilização e obtenha o máximo valor dos esforços de preparação de dados.
- Melhore a capacidade de fornecer dados consistentes para várias equipes.
- Reduza o nível de esforço exigido por outros criadores de conteúdo.
- Alcance escala e desempenho.
O cenário de uso de preparação avançada de dados expande o cenário de preparação de dados de autoatendimento. A preparação avançada de dados consiste em aumentar a reutilização do fluxo de dados por vários usuários em várias equipes e para vários casos de uso.
Espaços de trabalho separados, organizados por finalidade de fluxo de dados, são úteis quando a saída de fluxo de dados é fornecida a vários criadores de modelos semânticos, especialmente quando eles estão em equipes diferentes na organização. Espaços de trabalho separados também são úteis para gerenciar funções de segurança quando as pessoas que criam e gerenciam fluxos de dados são diferentes das pessoas que os consomem.
Nota
O cenário de preparação avançada de dados é o segundo dos cenários de preparação de dados. Esse cenário se baseia no que pode ser feito com fluxos de dados centralizados, conforme descrito no cenário de preparação de dados de autoatendimento.
O cenário de preparação avançada de dados é um dos cenários de BI de autoatendimento. No entanto, um membro da equipe centralizado pode usar as técnicas de maneira semelhante ao descrito no cenário de BI de autoatendimento gerenciado. Para obter uma lista completa dos cenários de autoatendimento, consulte o artigo Cenários de uso do Power BI.
Por uma questão de brevidade, alguns aspetos descritos no tópico Cenários de colaboração e entrega de conteúdo não são abordados neste artigo. Para uma cobertura completa, leia esses artigos primeiro.
Diagrama de cenário
Gorjeta
Recomendamos que você revise o cenário de uso de preparação de dados de autoatendimento se não estiver familiarizado com ele. O cenário avançado de preparação de dados pessoais baseia-se nesse cenário.
O foco deste cenário avançado de preparação de dados está em:
- O uso de fluxos de dados separados com base na finalidade: preparação, transformação ou final. Recomendamos o uso de blocos de construção composáveis para obter maior reutilização, em várias combinações, para suportar requisitos específicos do usuário. Os blocos de construção componíveis são descritos mais adiante neste artigo.
- O uso de espaços de trabalho separados que suportam criadores de fluxo de dados ou consumidores de fluxo de dados. Os modeladores de dados, que consomem fluxos de dados, podem estar em equipes diferentes e/ou ter casos de uso diferentes.
- O uso de tabelas vinculadas (também conhecidas como entidades vinculadas), tabelas computadas (também conhecidas como entidades computadas) e o mecanismo de computação aprimorado.
Nota
Às vezes, os termos modelo semântico e modelo de dados são usados de forma intercambiável. Geralmente, de uma perspetiva de serviço do Power BI, é chamado de modelo semântico. Do ponto de vista do desenvolvimento, é referido como um modelo de dados (ou modelo ). Neste artigo, ambos os termos têm o mesmo significado. Da mesma forma, um criador de modelo semântico e um modelador de dados têm o mesmo significado.
O diagrama a seguir mostra uma visão geral de alto nível das ações de usuário mais comuns e dos componentes do Power BI que dão suporte ao cenário de preparação avançada de dados.
Gorjeta
Recomendamos que você baixe o diagrama de cenário se quiser incorporá-lo em sua apresentação, documentação ou postagem de blog, ou imprimi-lo como um pôster de parede. Como é uma imagem SVG (Scalable Vetor Graphics), você pode dimensioná-la para cima ou para baixo sem perda de qualidade.
O diagrama de cenário descreve as seguintes ações, ferramentas e recursos do usuário:
Item | Descrição |
---|---|
O criador do fluxo de dados desenvolve uma coleção de tabelas dentro de um fluxo de dados. Para um fluxo de dados destinado à reutilização, é comum (mas não obrigatório) que o criador pertença a uma equipe centralizada que ofereça suporte a usuários além dos limites organizacionais (como TI, BI corporativo ou Centro de Excelência). | |
O fluxo de dados se conecta a dados de uma ou mais fontes de dados. | |
Algumas fontes de dados podem exigir um gateway de dados local ou um gateway VNet para atualização de dados, como aqueles que residem em uma rede organizacional privada. Esses gateways são usados para criar o fluxo de dados no Power Query Online e atualizar o fluxo de dados. | |
Todos os espaços de trabalho envolvidos têm seu modo de licença definido como Capacidade de malha, Capacidade Premium, Premium por usuário ou Incorporado. Esses modos de licença permitem o uso de tabelas vinculadas e tabelas computadas em espaços de trabalho, que são necessários neste cenário. | |
Os criadores de fluxo de dados desenvolvem fluxos de dados utilizando o Power Query Online, que é uma versão baseada na Web do Power Query. | |
Um fluxo de dados de preparo é criado em um espaço de trabalho dedicado ao gerenciamento centralizado de fluxos de dados. Um fluxo de dados de preparo copia os dados brutos como estão da origem. Poucas ou nenhumas transformações são aplicadas. | |
Um fluxo de dados de transformação (também conhecido como fluxo de dados limpo) é criado no mesmo espaço de trabalho. Ele obtém dados usando tabela(s) vinculada(s) ao fluxo de dados de preparo. A(s) tabela(s) computada(s) incluem(m) etapas de transformação que preparam, limpam e remodelam os dados. | |
Os criadores de fluxo de dados têm acesso para gerenciar conteúdo no espaço de trabalho dedicado ao gerenciamento centralizado de fluxos de dados. | |
Existe um ou mais outros espaços de trabalho destinados a fornecer acesso ao fluxo de dados final, que fornece dados prontos para produção para modelos de dados. | |
O fluxo de dados final é criado em um espaço de trabalho disponível para modeladores de dados. Ele obtém dados usando tabela(s) vinculada(s) ao fluxo de dados de transformação. A(s) tabela(s) computada(s) representa(m) a saída preparada que é visível para os modeladores de dados aos quais é concedida a função de visualizador do espaço de trabalho. | |
Os criadores de modelos semânticos (que consomem a saída do fluxo de dados) têm acesso do visualizador ao espaço de trabalho que contém a saída final do fluxo de dados. Os criadores de fluxo de dados também têm acesso para gerenciar e publicar conteúdo no espaço de trabalho (não representado no diagrama de cenário). | |
Os criadores de modelos semânticos usam o fluxo de dados final como uma fonte de dados ao desenvolver um modelo de dados no Power BI Desktop. Quando pronto, o criador do modelo semântico publica o arquivo do Power BI Desktop (.pbix) que contém o modelo de dados no serviço do Power BI (não representado no diagrama de cenário). | |
Os administradores de malha gerenciam as configurações no Portal de administração. | |
No Portal de administração, os administradores do Power BI podem configurar conexões do Azure para armazenar dados de fluxo de dados em sua conta do Azure Data Lake Storage Gen2 (ADLS Gen2). As configurações incluem a atribuição de uma conta de armazenamento no nível do locatário e a habilitação de permissões de armazenamento no nível do espaço de trabalho. | |
Por padrão, os fluxos de dados armazenam dados usando o armazenamento interno gerenciado pelo serviço do Power BI. Opcionalmente, a saída de dados pelo fluxo de dados pode ser armazenada na conta ADLS Gen2 da organização. | |
Os administradores de malha supervisionam e monitoram a atividade no portal de malha. |
Pontos principais
A seguir estão alguns pontos-chave a serem enfatizados sobre o cenário de preparação avançada de dados.
Fluxos de Dados
Um fluxo de dados compreende uma coleção de tabelas (também conhecidas como entidades). Cada tabela é definida por uma consulta, que contém as etapas de preparação de dados necessárias para carregar a tabela com dados. Todo o trabalho para criar um fluxo de dados é feito no Power Query Online. Você pode criar um fluxo de dados em vários produtos, incluindo Power Apps, Dynamics 365 Customer Insights e Power BI.
Nota
Não é possível criar fluxos de dados em um espaço de trabalho pessoal no serviço do Power BI.
Tipos de fluxos de dados
O uso de blocos de construção composáveis é um princípio de design que permite gerenciar, implantar e proteger componentes do sistema e, em seguida, usá-los em várias combinações. Criar fluxos de dados modulares e autônomos que são específicos para uma finalidade é uma prática recomendada. Eles ajudam a alcançar a reutilização de dados e a escala empresarial. Os fluxos de dados modulares também são mais fáceis de gerenciar e testar.
Três tipos de fluxos de dados são mostrados no diagrama de cenário: fluxo de dados de preparação, fluxo de dados de transformação e fluxo de dados final.
Fluxo de dados de preparo
Um fluxo de dados de preparo (às vezes chamado de fluxo de dados de extração de dados) copia dados brutos como estão da fonte. Ter os dados brutos extraídos com transformação mínima significa que os fluxos de dados de transformação downstream (descritos a seguir) podem usar o fluxo de dados de preparo como origem. Esta modularidade é útil quando:
- O acesso a uma fonte de dados é restrito a janelas de tempo restritas e/ou a alguns usuários.
- A consistência temporal é desejada para garantir que todos os fluxos de dados downstream (e modelos semânticos relacionados) forneçam dados que foram extraídos da fonte de dados ao mesmo tempo.
- A redução do número de consultas enviadas à fonte de dados é necessária devido às restrições do sistema de origem ou à sua capacidade de dar suporte a consultas analíticas.
- Uma cópia dos dados de origem é útil para processos de reconciliação e verificações de qualidade de dados.
Fluxo de dados de transformação
Um fluxo de dados de transformação (às vezes chamado de fluxo de dados limpo) obtém seus dados de tabelas vinculadas que se conectam ao fluxo de dados de preparação. É uma prática recomendada separar as transformações do processo de extração de dados.
Um fluxo de dados de transformação inclui todas as etapas de transformação necessárias para preparar e reestruturar os dados. No entanto, ainda há um foco na reutilização nessa camada para garantir que o fluxo de dados seja adequado para vários casos de uso e finalidades.
Fluxo de dados final
Um fluxo de dados final representa a saída preparada. Algumas transformações adicionais podem ocorrer com base no caso de uso e finalidade. Para análises, uma tabela de esquema em estrela (dimensão ou fato) é o design preferido do fluxo de dados final.
As tabelas computadas são visíveis para os modeladores de dados aos quais é concedida a função de visualizador do espaço de trabalho. Esse tipo de tabela é descrito no tópico Tipos de tabelas de fluxo de dados abaixo.
Nota
Os data lakes geralmente têm zonas, como bronze, prata e ouro. Os três tipos de fluxos de dados representam um padrão de design semelhante. Para tomar as melhores decisões possíveis de arquitetura de dados, pense em quem manterá os dados, o uso esperado dos dados e o nível de habilidade exigido pelas pessoas que acessam os dados.
Espaços de trabalho para fluxos de dados
Se você criasse todos os fluxos de dados em um único espaço de trabalho, isso limitaria significativamente a extensão da reutilização. O uso de um único espaço de trabalho também limita as opções de segurança disponíveis ao oferecer suporte a vários tipos de usuários entre equipes e/ou para diferentes casos de uso. Recomendamos o uso de vários espaços de trabalho. Eles fornecem melhor flexibilidade quando você precisa dar suporte a criadores de autoatendimento de várias áreas da organização.
Os dois tipos de espaços de trabalho mostrados no diagrama de cenário incluem:
- Espaço de trabalho 1: armazena fluxos de dados gerenciados centralmente (às vezes chamado de espaço de trabalho de back-end). Ele contém os fluxos de dados de preparo e transformação porque eles são gerenciados pelas mesmas pessoas. Os criadores de fluxo de dados geralmente são de uma equipe centralizada, como TI, BI ou o Centro de Excelência. Eles devem ser atribuídos à função de administrador, membro ou colaborador do espaço de trabalho.
- Espaço de trabalho 2: armazena e entrega a saída final do fluxo de dados aos consumidores dos dados (às vezes chamado de espaço de trabalho do usuário). Os criadores de modelos semânticos geralmente são analistas de autoatendimento, usuários avançados ou engenheiros de dados cidadãos. Eles devem ser atribuídos à função de visualizador de espaço de trabalho porque só precisam consumir a saída do fluxo de dados final. Para dar suporte a criadores de modelos semânticos de várias áreas da organização, você pode criar vários espaços de trabalho como este, com base no caso de uso e nas necessidades de segurança.
Gorjeta
Recomendamos revisar as maneiras de dar suporte a criadores de modelos semânticos , conforme descrito no cenário de uso de preparação de dados de autoatendimento. É importante entender que os criadores de modelos semânticos ainda podem usar todos os recursos do Power Query no Power BI Desktop. Eles podem optar por adicionar etapas de consulta para transformar ainda mais os dados de fluxo de dados ou mesclar a saída de fluxo de dados com outras fontes.
Tipos de tabelas de fluxo de dados
Três tipos de tabelas de fluxo de dados (também conhecidas como entidades) são representados no diagrama de cenário.
- Tabela padrão: consulta uma fonte de dados externa, como um banco de dados. No diagrama de cenário, as tabelas padrão são representadas no fluxo de dados de preparação.
- Tabela vinculada: faz referência a uma tabela de outro fluxo de dados. Uma tabela vinculada não duplica os dados. Em vez disso, permite a reutilização de uma tabela padrão várias vezes para vários fins. As tabelas vinculadas não são visíveis para os visualizadores do espaço de trabalho, pois herdam permissões do fluxo de dados original. No diagrama de cenário, as tabelas vinculadas são representadas duas vezes:
- No fluxo de dados de transformação para acessar os dados no fluxo de dados de preparação.
- No fluxo de dados final para acessar os dados no fluxo de dados de transformação.
- Tabela computada: Executa cálculos adicionais usando um fluxo de dados diferente como fonte. As tabelas computadas permitem personalizar a saída conforme necessário para casos de uso individuais. No diagrama de cenário, as tabelas computadas são representadas duas vezes:
- No fluxo de dados de transformação para executar transformações comuns.
- No fluxo de dados final para fornecer saída aos criadores de modelos semânticos. Como as tabelas computadas persistem os dados novamente (após a atualização do fluxo de dados), os modeladores de dados podem acessar as tabelas computadas no fluxo de dados final. Nesse caso, os modeladores de dados devem ter acesso com a função de visualizador de espaço de trabalho.
Nota
Há muitas técnicas de design, padrões e práticas recomendadas que podem levar os fluxos de dados do autosserviço para o pronto para a empresa. Além disso, os fluxos de dados em um espaço de trabalho que tem seu modo de licença definido como Premium por usuário ou capacidade Premium podem se beneficiar de recursos avançados. Tabelas vinculadas e tabelas computadas (também conhecidas como entidades) são dois recursos avançados que são essenciais para aumentar a reutilização de fluxos de dados.
Mecanismo de computação aprimorado
O mecanismo de computação aprimorado é um recurso avançado disponível com o Power BI Premium.
Importante
Às vezes, este artigo se refere ao Power BI Premium ou suas assinaturas de capacidade (SKUs P). Lembre-se de que a Microsoft está atualmente consolidando opções de compra e desativando as SKUs do Power BI Premium por capacidade. Em vez disso, os clientes novos e existentes devem considerar a compra de assinaturas de capacidade de malha (SKUs F).
Para obter mais informações, consulte Atualização importante chegando ao licenciamento do Power BI Premium e Perguntas frequentes sobre o Power BI Premium.
O mecanismo de computação aprimorado melhora o desempenho de tabelas vinculadas (dentro do mesmo espaço de trabalho) que fazem referência (vinculam a) o fluxo de dados. Para obter o máximo benefício do mecanismo de computação aprimorado:
- Divida os fluxos de dados de preparo e transformação.
- Use o mesmo espaço de trabalho para armazenar os fluxos de dados de preparo e transformação.
- Aplique operações complexas que podem dobrar a consulta no início das etapas de consulta. Priorizar operações dobráveis pode ajudar a obter o melhor desempenho de atualização.
- Use a atualização incremental para reduzir a duração da atualização e o consumo de recursos.
- Realize testes com antecedência e frequência durante a fase de desenvolvimento.
Fluxo de dados e atualização do modelo semântico
Um fluxo de dados é uma fonte de dados para modelos semânticos. Na maioria dos casos, várias agendas de atualização de dados estão envolvidas: uma para cada fluxo de dados e uma para cada modelo semântico. Como alternativa, é possível usar o DirectQuery do modelo semântico para o fluxo de dados, o que requer o Power BI Premium e o mecanismo de computação aprimorado (não representado no diagrama de cenário).
Azure Data Lake Storage Gen2
Uma conta ADLS Gen2 é um tipo específico de conta de armazenamento do Azure que tem o namespace hierárquico habilitado. O ADLS Gen2 tem vantagens de desempenho, gerenciamento e segurança para cargas de trabalho analíticas operacionais. Por padrão, os fluxos de dados do Power BI usam armazenamento interno, que é uma conta de data lake interna gerenciada pelo serviço do Power BI. Opcionalmente, as organizações podem trazer seu próprio data lake conectando-se a uma conta ADLS Gen2 em sua organização.
Aqui estão algumas vantagens de usar seu próprio data lake:
- Os usuários (ou processos) podem acessar diretamente os dados de fluxo de dados armazenados no data lake. Isso é útil quando a reutilização do fluxo de dados ocorre além do Power BI. Por exemplo, o Azure Data Factory pode acessar os dados de fluxo de dados.
- Outras ferramentas ou sistemas podem gerenciar os dados no data lake. Nesse caso, o Power BI poderia consumir os dados em vez de gerenciá-los (não representado no diagrama de cenário).
Ao usar tabelas vinculadas ou tabelas computadas, certifique-se de que cada espaço de trabalho esteja atribuído à mesma conta de armazenamento ADLS Gen2.
Nota
Os dados de fluxo de dados no ADLS Gen2 são armazenados em um contêiner específico do Power BI. Esse contêiner é representado no diagrama de cenário de uso de preparação de dados de autoatendimento.
Configurações do portal de administração
Há duas configurações importantes para gerenciar no Portal de administração:
- Conexões do Azure: a seção Conexões do Azure do Portal de administração inclui uma configuração para configurar uma conexão com uma conta ADLS Gen2. Essa configuração permite que um administrador do Power BI traga seu próprio data lake para fluxos de dados. Uma vez configurados, os espaços de trabalho podem usar essa conta de data lake para armazenamento.
- Armazenamento no nível do espaço de trabalho: um administrador do Power BI pode definir permissões de armazenamento no nível do espaço de trabalho. Quando habilitada, a configuração permite que os administradores de espaço de trabalho usem uma conta de armazenamento diferente daquela definida no nível do locatário. Habilitar essa configuração é útil para unidades de negócios descentralizadas que gerenciam seu próprio data lake no Azure.
Configuração do gateway
Normalmente, um gateway de dados local é necessário para se conectar a fontes de dados que residem em uma rede organizacional privada ou em uma rede virtual.
Um gateway de dados é necessário quando:
- Criação de um fluxo de dados no Power Query Online que se liga a dados organizacionais privados.
- Atualizar um fluxo de dados que se conecta a dados organizacionais privados.
Gorjeta
Os fluxos de dados exigem um gateway de dados centralizado no modo padrão. Um gateway no modo pessoal não é suportado ao trabalhar com fluxos de dados.
Supervisão do sistema
O log de atividades registra as atividades do usuário que ocorrem no serviço do Power BI. Os administradores do Power BI podem usar os dados do log de atividades coletados para executar auditorias para ajudá-los a entender os padrões de uso e a adoção. O registro de atividades também é valioso para dar suporte aos esforços de governança, auditorias de segurança e requisitos de conformidade. No cenário de preparação avançada de dados, os dados do log de atividades são úteis para controlar o gerenciamento e o uso de fluxos de dados.
Conteúdos relacionados
Para obter outros cenários úteis para ajudá-lo com decisões de implementação do Power BI, consulte o artigo Cenários de uso do Power BI.