Módulo 2: Transformar dados com um fluxo de dados no Data Factory
Este módulo leva cerca de 25 minutos para criar um fluxo de dados, aplicar transformações e mover os dados brutos da tabela Bronze para uma tabela Gold Lakehouse.
Com os dados brutos carregados em sua tabela Bronze Lakehouse do último módulo, agora você pode preparar esses dados e enriquecê-los combinando-os com outra tabela que contém descontos para cada fornecedor e suas viagens durante um dia específico. Esta mesa final Gold Lakehouse está carregada e pronta para consumo.
As etapas de alto nível no fluxo de dados são as seguintes:
- Obtenha dados brutos da tabela Lakehouse criada pela atividade Copiar no Módulo 1: Criar um pipeline com o Data Factory.
- Transforme os dados importados da tabela Lakehouse.
- Conecte-se a um arquivo CSV contendo dados de descontos.
- Transforme os dados de descontos.
- Combine dados de viagens e descontos.
- Carregue a consulta de saída na tabela Gold Lakehouse.
Obter dados de uma tabela Lakehouse
Na barra lateral, selecione Criar e, em seguida , Dataflow Gen2 para criar um novo fluxo de dados gen2 .
No novo menu de fluxo de dados, selecione Obter dados e, em seguida , Mais....
Procure e selecione o conector Lakehouse .
A caixa de diálogo Conectar à fonte de dados é exibida e uma nova conexão é criada automaticamente para você com base no usuário conectado no momento. Selecione Seguinte.
A caixa de diálogo Escolher dados é exibida. Use o painel de navegação para encontrar o Lakehouse que você criou para o destino no módulo anterior e selecione a tabela de dados Tutorial_Lakehouse .
(Opcional) Depois que a tela for preenchida com os dados, você poderá definir informações de perfil de coluna, pois isso é útil para a criação de perfil de dados. Você pode aplicar a transformação correta e direcionar os valores de dados corretos com base nela.
Para fazer isso, selecione Opções no painel da faixa de opções, selecione as três primeiras opções em Perfil de coluna e selecione OK.
Transforme os dados importados do Lakehouse
Selecione o ícone de tipo de dados no cabeçalho da coluna da segunda coluna, IpepPickupDatetime, para exibir um menu suspenso e selecione o tipo de dados no menu para converter a coluna do tipo Data/Hora em Data.
(Opcional) No separador Base do friso, selecione a opção Escolher colunas no grupo Gerir colunas .
(Opcional) Na caixa de diálogo Escolher colunas, desmarque algumas colunas listadas aqui e selecione OK.
- lpepDropoffDatahora
- puLocationId
- doLocationId
- captaçãoLatitude
- dropoffLongitude
- rateCodeID
Selecione o filtro da coluna storeAndFwdFlag e o menu suspenso de classificação. (Se vir um aviso A lista pode estar incompleta, selecione Carregar mais para ver todos os dados.)
Selecione 'Y' para mostrar apenas as linhas onde um desconto foi aplicado e, em seguida, selecione OK.
Selecione o menu suspenso IpepPickupDatetime column sort and filter, selecione Date filters e escolha o filtro Between... fornecido para os tipos Date e Date/Time.
Na caixa de diálogo Filtrar linhas, selecione datas entre 1 de janeiro de 2015 e 31 de janeiro de 2015 e, em seguida, selecione OK.
Conectar-se a um arquivo CSV contendo dados de desconto
Agora, com os dados das viagens em vigor, queremos carregar os dados que contêm os respetivos descontos para cada dia e VendorID, e preparar os dados antes de os combinar com os dados das viagens.
Na guia Página Inicial no menu do editor de fluxo de dados, selecione a opção Obter dados e escolha Texto/CSV.
Na caixa de diálogo Conectar à fonte de dados, forneça os seguintes detalhes:
- Caminho do arquivo ou URL -
https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
- Tipo de autenticação - Anónimo
Em seguida, selecione Seguinte.
- Caminho do arquivo ou URL -
Na caixa de diálogo Visualizar dados do arquivo, selecione Criar.
Transformar os dados de desconto
Analisando os dados, vemos que os cabeçalhos parecem estar na primeira linha. Promova-os para cabeçalhos selecionando o menu de contexto da tabela no canto superior esquerdo da área da grade de visualização para selecionar Usar primeira linha como cabeçalhos.
Nota
Depois de promover os cabeçalhos, você pode ver uma nova etapa adicionada ao painel Etapas aplicadas na parte superior do editor de fluxo de dados para os tipos de dados de suas colunas.
Clique com o botão direito do mouse na coluna VendorID e, no menu de contexto exibido, selecione a opção Despivotar outras colunas. Isso permite transformar colunas em pares atributo-valor, onde as colunas se tornam linhas.
Com a tabela não dinâmica, renomeie as colunas Atributo e Valor clicando duas vezes nelas e alterando Atributo para Data e Valor para Desconto.
Altere o tipo de dados da coluna Data selecionando o menu de tipo de dados à esquerda do nome da coluna e escolhendo Data.
Selecione a coluna Desconto e, em seguida, selecione a guia Transformar no menu. Selecione Coluna Número e, em seguida, selecione Transformações numéricas padrão no submenu e escolha Dividir.
Na caixa de diálogo Dividir, insira o valor 100.
Combine dados de viagens e descontos
O próximo passo é combinar as duas mesas em uma única tabela que tenha o desconto que deve ser aplicado à viagem, e o total ajustado.
Primeiro, alterne o botão Visualização de diagrama para que você possa ver ambas as consultas.
Selecione a consulta nyc_taxi e, na guia Página Inicial, selecione o menu Combinar e escolha Mesclar consultas e, em seguida, Mesclar consultas como novas.
Na caixa de diálogo Mesclar, selecione Generated-NYC-Taxi-Green-Discounts na lista suspensa Direita para mesclagem e, em seguida, selecione o ícone "lâmpada" no canto superior direito da caixa de diálogo para ver o mapeamento sugerido de colunas entre as duas tabelas.
Escolha cada um dos dois mapeamentos de coluna sugeridos, um de cada vez, mapeando as colunas VendorID e date de ambas as tabelas. Quando ambos os mapeamentos são adicionados, os cabeçalhos de coluna correspondentes são realçados em cada tabela.
É exibida uma mensagem solicitando que você permita a combinação de dados de várias fontes de dados para exibir os resultados. Selecione OK na caixa de diálogo Mesclar .
Na área da tabela, você verá inicialmente um aviso de que "A avaliação foi cancelada porque a combinação de dados de várias fontes pode revelar dados de uma fonte para outra. Selecione continuar se a possibilidade de revelar dados estiver correta." Selecione Continuar para exibir os dados combinados.
Observe como uma nova consulta foi criada no modo Diagrama mostrando a relação da nova consulta Mesclar com as duas consultas criadas anteriormente. Observando o painel de tabela do editor, role para a direita da lista de colunas de consulta Mesclar para ver a presença de uma nova coluna com valores de tabela. Esta é a coluna "Descontos Verdes Gerados em Nova York" e seu tipo é [Tabela]. No cabeçalho da coluna há um ícone com duas setas indo em direções opostas, permitindo que você selecione colunas da tabela. Desmarque todas as colunas, exceto Desconto, e selecione OK.
Com o valor do desconto agora no nível da linha, podemos criar uma nova coluna para calcular o valor total após o desconto. Para fazer isso, selecione a guia Adicionar coluna na parte superior do editor e escolha Coluna personalizada no grupo Geral .
Na caixa de diálogo Coluna personalizada, pode utilizar a linguagem de fórmula do Power Query (também conhecida como M) para definir como a nova coluna deve ser calculada. Insira TotalAfterDiscount para o nome da coluna Novo, selecione Moeda para o tipo de dados e forneça a seguinte expressão M para a fórmula da coluna Personalizada:
se [totalAmount] 0 então [totalAmount] * ( 1 -[Desconto] ) else [totalAmount] >
Em seguida, selecione OK.
Selecione a coluna TotalAfterDiscount recém-criada e, em seguida, selecione a guia Transformar na parte superior da janela do editor. No grupo da coluna Número, selecione a lista suspensa Arredondamento e escolha Arredondar....
Na caixa de diálogo Rodar, digite 2 para o número de casas decimais e selecione OK.
Altere o tipo de dados do IpepPickupDatetime de Date para Date/Time.
Por fim, expanda o painel Configurações de consulta do lado direito do editor, se ainda não estiver expandido, e renomeie a consulta de Mesclar para Saída.
Carregue a consulta de saída para uma tabela no Lakehouse
Com a consulta de saída agora totalmente preparada e com os dados prontos para a saída, podemos definir o destino de saída para a consulta.
Selecione a consulta Mesclagem de saída criada anteriormente. Em seguida, selecione a guia Página Inicial no editor e Adicionar destino de dados do agrupamento Consulta para selecionar um destino Lakehouse.
Na caixa de diálogo Conectar ao destino dos dados, sua conexão já deve estar selecionada. Selecione Seguinte para continuar.
Na caixa de diálogo Escolher destino de destino, navegue até o Lakehouse onde deseja carregar os dados e nomeie a nova tabela nyc_taxi_with_discounts e, em seguida, selecione Avançar novamente.
Na caixa de diálogo Escolher configurações de destino, deixe o método de atualização padrão Substituir, verifique se as colunas estão mapeadas corretamente e selecione Salvar configurações.
De volta à janela principal do editor, confirme se você vê o destino de saída no painel Configurações de consulta da tabela Saída e selecione Publicar.
Importante
Quando o primeiro Dataflow Gen2 é criado em um espaço de trabalho, os itens Lakehouse e Warehouse são provisionados junto com seus modelos semânticos e de ponto de extremidade de análise SQL relacionados. Esses itens são compartilhados por todos os fluxos de dados no espaço de trabalho e são necessários para que o Dataflow Gen2 funcione, não devem ser excluídos e não se destinam a ser usados diretamente pelos usuários. Os itens são um detalhe de implementação do Dataflow Gen2. Os itens não são visíveis no espaço de trabalho, mas podem ser acessíveis em outras experiências, como as experiências Notebook, SQL-endpoint, Lakehouse e Warehouse. Você pode reconhecer os itens por seu prefixo no nome. O prefixo dos itens é 'DataflowsStaging'.
(Opcional) Na página do espaço de trabalho, você pode renomear seu fluxo de dados selecionando as reticências à direita do nome do fluxo de dados que aparece depois de selecionar a linha e escolhendo Propriedades.
Selecione o ícone de atualização para o fluxo de dados depois de selecionar sua linha e, quando terminar, você verá sua nova tabela Lakehouse criada conforme configurado nas configurações de destino de dados.
Verifique sua Lakehouse para ver a nova mesa carregada lá.
Conteúdos relacionados
Neste segundo módulo do nosso tutorial completo para sua primeira integração de dados usando o Data Factory no Microsoft Fabric, você aprendeu como:
- Crie um novo Dataflow Gen2.
- Importe e transforme dados de exemplo.
- Importe e transforme dados de texto/CSV.
- Mescle dados de ambas as fontes de dados em uma nova consulta.
- Transforme dados e gere novas colunas em uma consulta.
- Configure uma origem de destino de saída para uma consulta.
- Renomeie e atualize seu novo fluxo de dados.
Continue para a próxima seção agora para integrar seu pipeline de dados.