Guia de início rápido: mova e transforme dados com fluxos de dados e pipelines de dados
Neste tutorial, você descobre como a experiência de fluxo de dados e pipeline de dados pode criar uma solução de Data Factory poderosa e abrangente.
Pré-requisitos
Para começar, você deve ter os seguintes pré-requisitos:
- Uma conta de locatário com uma assinatura ativa. Crie uma conta gratuita.
- Verifique se você tem um espaço de trabalho habilitado para Microsoft Fabric: crie um espaço de trabalho que não seja o padrão Meu espaço de trabalho .
- Um banco de dados SQL do Azure com dados de tabela.
- Uma conta de Armazenamento de Blob.
Fluxos de dados em comparação com pipelines
O Dataflows Gen2 permite que você aproveite uma interface low-code e 300+ transformações baseadas em dados e IA para limpar, preparar e transformar dados facilmente com mais flexibilidade do que qualquer outra ferramenta. Os pipelines de dados permitem recursos avançados de orquestração de dados prontos para compor fluxos de trabalho de dados flexíveis que atendem às necessidades da sua empresa. Em um pipeline, você pode criar agrupamentos lógicos de atividades que executam uma tarefa, o que pode incluir chamar um fluxo de dados para limpar e preparar seus dados. Embora haja alguma sobreposição de funcionalidade entre os dois, a escolha de qual usar para um cenário específico depende se você precisa da riqueza total de pipelines ou pode usar os recursos mais simples, mas mais limitados, dos fluxos de dados. Para obter mais detalhes, consulte o Guia de decisão do Fabric
Transforme dados com fluxos de dados
Siga estas etapas para configurar seu fluxo de dados.
Etapa 1: Criar um fluxo de dados
Escolha seu espaço de trabalho habilitado para malha e selecione Novo. Em seguida, selecione Dataflow Gen2.
A janela do editor de fluxo de dados é exibida. Selecione o cartão Importar do SQL Server .
Etapa 2: Obter dados
Na caixa de diálogo Conectar à fonte de dados apresentada a seguir, insira os detalhes para se conectar ao seu banco de dados SQL do Azure e selecione Avançar. Neste exemplo, você usa o banco de dados de exemplo AdventureWorksLT configurado quando configura o banco de dados SQL do Azure nos pré-requisitos.
Selecione os dados que pretende transformar e, em seguida, selecione Criar. Para este início rápido, selecione SalesLT.Customer nos dados de exemplo do AdventureWorksLT fornecidos para o Banco de Dados SQL do Azure e, em seguida, o botão Selecionar tabelas relacionadas para incluir automaticamente duas outras tabelas relacionadas.
Etapa 3: Transforme seus dados
Se não estiver selecionado, selecione o botão Vista de diagrama ao longo da barra de estado na parte inferior da página ou selecione Vista de diagrama no menu Ver na parte superior do editor do Power Query. Qualquer uma destas opções pode alternar a vista de diagrama.
Clique com o botão direito do mouse na consulta SalesLT Customer ou selecione as reticências verticais à direita da consulta e selecione Mesclar consultas.
Configure a mesclagem selecionando a tabela SalesLTOrderHeader como a tabela direita para a mesclagem, a coluna CustomerID de cada tabela como a coluna de junção e Exterior esquerdo como o tipo de junção. Em seguida, selecione OK para adicionar a consulta de mesclagem.
Selecione o botão Adicionar destino de dados, que se parece com um símbolo de banco de dados com uma seta acima dele, na nova consulta de mesclagem que você acabou de criar. Em seguida, selecione o banco de dados SQL do Azure como o tipo de destino.
Forneça os detalhes para sua conexão de banco de dados SQL do Azure onde a consulta de mesclagem deve ser publicada. Neste exemplo, você também pode usar o banco de dados AdventureWorksLT que usamos como fonte de dados para o destino.
Escolha um banco de dados para armazenar os dados, forneça um nome de tabela e selecione Avançar.
Você pode deixar as configurações padrão na caixa de diálogo Escolher configurações de destino e apenas selecionar Salvar configurações sem fazer nenhuma alteração aqui.
Selecione Publicar novamente na página do editor de fluxo de dados para publicar o fluxo de dados.
Mover dados com pipelines de dados
Agora que você criou um Dataflow Gen2, você pode operar nele em um pipeline. Neste exemplo, você copia os dados gerados do fluxo de dados para o formato de texto em uma conta de Armazenamento de Blob do Azure.
Etapa 1: Criar um novo pipeline de dados
No espaço de trabalho, selecione Novo e, em seguida, selecione Pipeline de dados.
Nomeie seu pipeline e selecione Criar.
Etapa 2: Configurar o fluxo de dados
Adicione uma nova atividade de fluxo de dados ao seu pipeline de dados selecionando Fluxo de dados na guia Atividades .
Selecione o fluxo de dados na tela do pipeline e, em seguida, a guia Configurações . Escolha o fluxo de dados criado anteriormente na lista suspensa.
Selecione Salvar e, em seguida , Executar para executar o fluxo de dados para preencher inicialmente sua tabela de consulta mesclada que você criou na etapa anterior.
Etapa 3: Usar o assistente de cópia para adicionar uma atividade de cópia
Selecione Copiar dados na tela para abrir a ferramenta Assistente de Cópia para começar. Ou selecione Usar assistente de cópia na lista suspensa Copiar dados na guia Atividades da faixa de opções.
Escolha sua fonte de dados selecionando um tipo de fonte de dados. Neste tutorial, você usa o Banco de Dados SQL do Azure usado anteriormente quando criou o fluxo de dados para gerar uma nova consulta de mesclagem. Role para baixo abaixo das ofertas de dados de exemplo e selecione a guia Azure e, em seguida, o Banco de Dados SQL do Azure. Em seguida, selecione Avançar para continuar.
Crie uma conexão com sua fonte de dados selecionando Criar nova conexão. Preencha as informações de conexão necessárias no painel e insira o AdventureWorksLT para o banco de dados, onde geramos a consulta de mesclagem no fluxo de dados. Em seguida, selecione Seguinte.
Selecione a tabela gerada na etapa de fluxo de dados anterior e, em seguida, selecione Avançar.
Para o seu destino, escolha Armazenamento de Blobs do Azure e, em seguida, selecione Avançar.
Crie uma conexão com seu destino selecionando Criar nova conexão. Forneça os detalhes da sua ligação e, em seguida, selecione Seguinte.
Selecione o caminho da pasta e forneça um nome de arquivo e, em seguida, selecione Avançar.
Selecione Avançar novamente para aceitar o formato de arquivo padrão, delimitador de coluna, delimitador de linha e tipo de compactação, opcionalmente incluindo um cabeçalho.
Finalize suas configurações. Em seguida, revise e selecione Salvar + Executar para concluir o processo.
Etapa 5: Projetar seu pipeline de dados e salvar para executar e carregar dados
Para executar a atividade Copiar após a atividade Fluxo de dados, arraste de Êxito na atividade Fluxo de dados para a atividade Copiar. A atividade Copiar só é executada depois que a atividade Fluxo de Dados for bem-sucedida.
Selecione Salvar para salvar seu pipeline de dados. Em seguida, selecione Executar para executar o pipeline de dados e carregar os dados.
Programar a execução do pipeline
Depois de concluir o desenvolvimento e o teste do pipeline, você pode programá-lo para ser executado automaticamente.
Na guia Página Inicial da janela do editor de pipeline, selecione Agendar.
Configure a agenda conforme necessário. O exemplo aqui agenda o pipeline para ser executado diariamente às 20:00 até o final do ano.
Conteúdos relacionados
Este exemplo mostra como criar e configurar um Dataflow Gen2 para criar uma consulta de mesclagem e armazená-la em um banco de dados SQL do Azure e, em seguida, copiar dados do banco de dados para um arquivo de texto no Armazenamento de Blobs do Azure. Aprendeu a:
- Criar um fluxo de dados.
- Transforme dados com o fluxo de dados.
- Crie um pipeline de dados usando o fluxo de dados.
- Ordenar a execução de etapas no pipeline.
- Copie dados com o Assistente de cópia.
- Execute e agende seu pipeline de dados.
Em seguida, avance para saber mais sobre como monitorar suas execuções de pipeline.