Guia de início rápido: mova e transforme dados com fluxos de dados e pipelines de dados

Neste tutorial, você descobre como a experiência de fluxo de dados e pipeline de dados pode criar uma solução de Data Factory poderosa e abrangente.

Pré-requisitos

Para começar, você deve ter os seguintes pré-requisitos:

Fluxos de dados em comparação com pipelines

O Dataflows Gen2 permite que você aproveite uma interface low-code e 300+ transformações baseadas em dados e IA para limpar, preparar e transformar dados facilmente com mais flexibilidade do que qualquer outra ferramenta. Os pipelines de dados permitem recursos avançados de orquestração de dados prontos para compor fluxos de trabalho de dados flexíveis que atendem às necessidades da sua empresa. Em um pipeline, você pode criar agrupamentos lógicos de atividades que executam uma tarefa, o que pode incluir chamar um fluxo de dados para limpar e preparar seus dados. Embora haja alguma sobreposição de funcionalidade entre os dois, a escolha de qual usar para um cenário específico depende se você precisa da riqueza total de pipelines ou pode usar os recursos mais simples, mas mais limitados, dos fluxos de dados. Para obter mais detalhes, consulte o Guia de decisão do Fabric

Transforme dados com fluxos de dados

Siga estas etapas para configurar seu fluxo de dados.

Etapa 1: Criar um fluxo de dados

  1. Escolha seu espaço de trabalho habilitado para malha e selecione Novo. Em seguida, selecione Dataflow Gen2.

    Screenshot showing where to start creating a dataflow gen2.

  2. A janela do editor de fluxo de dados é exibida. Selecione o cartão Importar do SQL Server .

    Screenshot showing the dataflow editor window.

Etapa 2: Obter dados

  1. Na caixa de diálogo Conectar à fonte de dados apresentada a seguir, insira os detalhes para se conectar ao seu banco de dados SQL do Azure e selecione Avançar. Neste exemplo, você usa o banco de dados de exemplo AdventureWorksLT configurado quando configura o banco de dados SQL do Azure nos pré-requisitos.

    Screenshot showing how to connect to an Azure SQL database.

  2. Selecione os dados que pretende transformar e, em seguida, selecione Criar. Para este início rápido, selecione SalesLT.Customer nos dados de exemplo do AdventureWorksLT fornecidos para o Banco de Dados SQL do Azure e, em seguida, o botão Selecionar tabelas relacionadas para incluir automaticamente duas outras tabelas relacionadas.

    Screenshot showing where to choose from the available data.

Etapa 3: Transforme seus dados

  1. Se não estiver selecionado, selecione o botão Vista de diagrama ao longo da barra de estado na parte inferior da página ou selecione Vista de diagrama no menu Ver na parte superior do editor do Power Query. Qualquer uma destas opções pode alternar a vista de diagrama.

    Screenshot showing where to select diagram view.

  2. Clique com o botão direito do mouse na consulta SalesLT Customer ou selecione as reticências verticais à direita da consulta e selecione Mesclar consultas.

    Screenshot showing where to find the Merge queries option.

  3. Configure a mesclagem selecionando a tabela SalesLTOrderHeader como a tabela direita para a mesclagem, a coluna CustomerID de cada tabela como a coluna de junção e Exterior esquerdo como o tipo de junção. Em seguida, selecione OK para adicionar a consulta de mesclagem.

    Screenshot of the Merge configuration screen.

  4. Selecione o botão Adicionar destino de dados, que se parece com um símbolo de banco de dados com uma seta acima dele, na nova consulta de mesclagem que você acabou de criar. Em seguida, selecione o banco de dados SQL do Azure como o tipo de destino.

    Screenshot highlighting the Add data destination button on the newly created merge query.

  5. Forneça os detalhes para sua conexão de banco de dados SQL do Azure onde a consulta de mesclagem deve ser publicada. Neste exemplo, você também pode usar o banco de dados AdventureWorksLT que usamos como fonte de dados para o destino.

    Screenshot showing the Connect to data destination dialog with sample values populated.

  6. Escolha um banco de dados para armazenar os dados, forneça um nome de tabela e selecione Avançar.

    Screenshot showing the Choose destination target window.

  7. Você pode deixar as configurações padrão na caixa de diálogo Escolher configurações de destino e apenas selecionar Salvar configurações sem fazer nenhuma alteração aqui.

    Screenshot showing the Choose destination settings dialog.

  8. Selecione Publicar novamente na página do editor de fluxo de dados para publicar o fluxo de dados.

    Screenshot highlighting the Publish button on the dataflow gen2 editor.

Mover dados com pipelines de dados

Agora que você criou um Dataflow Gen2, você pode operar nele em um pipeline. Neste exemplo, você copia os dados gerados do fluxo de dados para o formato de texto em uma conta de Armazenamento de Blob do Azure.

Etapa 1: Criar um novo pipeline de dados

  1. No espaço de trabalho, selecione Novo e, em seguida, selecione Pipeline de dados.

    Screenshot showing where to start a new data pipeline.

  2. Nomeie seu pipeline e selecione Criar.

    Screenshot showing the new pipeline creation prompt with a sample pipeline name.

Etapa 2: Configurar o fluxo de dados

  1. Adicione uma nova atividade de fluxo de dados ao seu pipeline de dados selecionando Fluxo de dados na guia Atividades .

    Screenshot showing where to select the Dataflow option.

  2. Selecione o fluxo de dados na tela do pipeline e, em seguida, a guia Configurações . Escolha o fluxo de dados criado anteriormente na lista suspensa.

    Screenshot showing how to choose the dataflow you created.

  3. Selecione Salvar e, em seguida , Executar para executar o fluxo de dados para preencher inicialmente sua tabela de consulta mesclada que você criou na etapa anterior.

    Screenshot showing where to select Run.

Etapa 3: Usar o assistente de cópia para adicionar uma atividade de cópia

  1. Selecione Copiar dados na tela para abrir a ferramenta Assistente de Cópia para começar. Ou selecione Usar assistente de cópia na lista suspensa Copiar dados na guia Atividades da faixa de opções.

    Screenshot showing the two ways to access the copy assistant.

  2. Escolha sua fonte de dados selecionando um tipo de fonte de dados. Neste tutorial, você usa o Banco de Dados SQL do Azure usado anteriormente quando criou o fluxo de dados para gerar uma nova consulta de mesclagem. Role para baixo abaixo das ofertas de dados de exemplo e selecione a guia Azure e, em seguida, o Banco de Dados SQL do Azure. Em seguida, selecione Avançar para continuar.

    Screenshot showing where to choose a data source.

  3. Crie uma conexão com sua fonte de dados selecionando Criar nova conexão. Preencha as informações de conexão necessárias no painel e insira o AdventureWorksLT para o banco de dados, onde geramos a consulta de mesclagem no fluxo de dados. Em seguida, selecione Seguinte.

    Screenshot showing where to create a new connection.

  4. Selecione a tabela gerada na etapa de fluxo de dados anterior e, em seguida, selecione Avançar.

    Screenshot showing how to select from available tables.

  5. Para o seu destino, escolha Armazenamento de Blobs do Azure e, em seguida, selecione Avançar.

    Screenshot showing the Azure Blob Storage data destination.

  6. Crie uma conexão com seu destino selecionando Criar nova conexão. Forneça os detalhes da sua ligação e, em seguida, selecione Seguinte.

    Screenshot showing how to create a connection.

  7. Selecione o caminho da pasta e forneça um nome de arquivo e, em seguida, selecione Avançar.

    Screenshot showing how to select folder path and file name.

  8. Selecione Avançar novamente para aceitar o formato de arquivo padrão, delimitador de coluna, delimitador de linha e tipo de compactação, opcionalmente incluindo um cabeçalho.

    Screenshot showing the configuration options for the file in Azure Blob Storage.

  9. Finalize suas configurações. Em seguida, revise e selecione Salvar + Executar para concluir o processo.

    Screenshot showing how to review copy data settings.

Etapa 5: Projetar seu pipeline de dados e salvar para executar e carregar dados

  1. Para executar a atividade Copiar após a atividade Fluxo de dados, arraste de Êxito na atividade Fluxo de dados para a atividade Copiar. A atividade Copiar só é executada depois que a atividade Fluxo de Dados for bem-sucedida.

    Screenshot showing how to make the dataflow run take place after the copy activity.

  2. Selecione Salvar para salvar seu pipeline de dados. Em seguida, selecione Executar para executar o pipeline de dados e carregar os dados.

    Screenshot showing where to select Save and Run.

Programar a execução do pipeline

Depois de concluir o desenvolvimento e o teste do pipeline, você pode programá-lo para ser executado automaticamente.

  1. Na guia Página Inicial da janela do editor de pipeline, selecione Agendar.

    A screenshot of the Schedule button on the menu of the Home tab in the pipeline editor.

  2. Configure a agenda conforme necessário. O exemplo aqui agenda o pipeline para ser executado diariamente às 20:00 até o final do ano.

    Screenshot showing the schedule configuration for a pipeline to run daily at 8:00 PM until the end of the year.

Este exemplo mostra como criar e configurar um Dataflow Gen2 para criar uma consulta de mesclagem e armazená-la em um banco de dados SQL do Azure e, em seguida, copiar dados do banco de dados para um arquivo de texto no Armazenamento de Blobs do Azure. Aprendeu a:

  • Criar um fluxo de dados.
  • Transforme dados com o fluxo de dados.
  • Crie um pipeline de dados usando o fluxo de dados.
  • Ordenar a execução de etapas no pipeline.
  • Copie dados com o Assistente de cópia.
  • Execute e agende seu pipeline de dados.

Em seguida, avance para saber mais sobre como monitorar suas execuções de pipeline.