Início Rápido: mova e transforme dados com fluxos de dados e pipelines de dados

Neste tutorial, você descobrirá como a experiência de fluxo de dados e pipeline de dados pode criar uma solução avançada e abrangente de data factory.

Pré-requisitos

Para começar, você precisa cumprir os seguintes pré-requisitos:

Fluxos de dados comparados a pipelines

Os fluxos de dados Gen2 permitem que você aproveite uma interface de baixo código e mais de 300 transformações baseadas em dado e IA, permitindo que você limpe, prepare e transforme dados com facilidade e mais flexibilidade do que com qualquer outra ferramenta. Os Pipelines de Dados permitem funcionalidades avançadas de orquestração de dados prontas para uso para compor fluxos de trabalho de dados flexíveis que atendam às suas necessidades de negócios. Em um pipeline, você pode criar agrupamentos lógicos de atividades que executam uma tarefa, o que pode incluir fazer uma chamada a um fluxo de dados para limpar e preparar seus dados. Embora exista alguma sobreposição de funcionalidade entre os dois, a escolha de qual deles deve ser usado em um cenário específico dependerá se você precisa da riqueza completa dos pipelines ou se pode usar os recursos mais simples, porém mais limitados, dos fluxos de dados. Para obter mais detalhes, consulte o Guia de decisão do Fabric

Transformar dados com fluxos de dados

Siga estas etapas para configurar o fluxo de dados.

Etapa 1: criar um fluxo de dados

  1. Escolha o workspace habilitado para o Fabric e, em seguida, selecione Novo. Em seguida, selecione Fluxo de Dados Gen2.

    Screenshot showing where to start creating a dataflow gen2.

  2. A janela do editor de fluxo de dados é exibida. Selecione o cartão Importar do SQL Server.

    Screenshot showing the dataflow editor window.

Etapa 2: obter os dados

  1. Na caixa de diálogo Conectar-se à fonte de dados apresentada a seguir, insira os detalhes para se conectar ao banco de dados SQL do Azure e selecione Avançar. Para este exemplo, use o banco de dados de exemplo AdventureWorksLT configurado ao definir o banco de dados SQL do Azure nos pré-requisitos.

    Screenshot showing how to connect to an Azure SQL database.

  2. Selecione os dados que você deseja transformar e, em seguida, selecione Criar. Para este início rápido, selecione SalesLT.Customer nos dados de exemplo do AdventureWorksLT fornecidos para o BD SQL do Azure e, em seguida, o botão Selecionar tabelas relacionadas para incluir automaticamente duas outras tabelas relacionadas.

    Screenshot showing where to choose from the available data.

Etapa 3: transformar os dados

  1. Se não estiver selecionado, selecione o botão Exibição do diagrama na barra de status, na parte inferior da página, ou selecione Exibição de diagrama no menu Exibir, na parte superior do editor do Power Query. Qualquer uma dessas opções pode alternar a exibição do diagrama.

    Screenshot showing where to select diagram view.

  2. Clique com o botão direito do mouse na consulta SalesLT Customer ou selecione a elipse vertical à direita da consulta e, em seguida, selecione Mesclar consultas.

    Screenshot showing where to find the Merge queries option.

  3. Configure a mesclagem selecionando a tabela SalesOrderHeader como a tabela direita para a mesclagem, a coluna CustomerID de cada tabela como a coluna de união e Externa esquerda como o tipo de união. Em seguida, selecione OK para adicionar a consulta de mesclagem.

    Screenshot of the Merge configuration screen.

  4. Selecione o botão Adicionar destino de dados, que se parece com um símbolo de banco de dados com uma seta acima dele, na nova consulta de mesclagem que você acabou de criar. Em seguida, selecione o banco de dados SQL do Azure como o tipo de destino.

    Screenshot highlighting the Add data destination button on the newly created merge query.

  5. Forneça os detalhes da conexão de banco de dados SQL do Azure em que a consulta de mesclagem será publicada. Neste exemplo, você também pode usar o banco de dados AdventureWorksLT que usamos como fonte de dados para o destino.

    Screenshot showing the Connect to data destination dialog with sample values populated.

  6. Escolha um banco de dados para armazenar os dados, forneça um nome de tabela e selecione Avançar.

    Screenshot showing the Choose destination target window.

  7. Você pode deixar as configurações padrão na caixa de diálogo Escolher configurações de destino e simplesmente selecionar Salvar configurações sem fazer nenhuma alteração aqui.

    Screenshot showing the Choose destination settings dialog.

  8. Selecione Publicar novamente na página do editor de fluxo de dados para publicar o fluxo de dados.

    Screenshot highlighting the Publish button on the dataflow gen2 editor.

Mover dados com pipelines de dados

Agora que você criou um Fluxo de Dados Gen2, poderá operá-lo em um pipeline. Neste exemplo, você copiará os dados gerados pelo fluxo de dados para o formato de texto em uma conta do Armazenamento de Blobs do Azure.

Etapa 1: criar um novo pipeline de dados

  1. No workspace, selecione Novo e, em seguida, Pipeline de dados.

    Screenshot showing where to start a new data pipeline.

  2. Nomeie o pipeline e selecione Criar.

    Screenshot showing the new pipeline creation prompt with a sample pipeline name.

Etapa 2: configurar o fluxo de dados

  1. Adicione uma nova atividade de fluxo de dados ao pipeline de dados selecionando Fluxo de Dados na guia Atividades.

    Screenshot showing where to select the Dataflow option.

  2. Selecione o fluxo de dados na tela do pipeline e, em seguida, a guia Configurações. Escolha o fluxo de dados criado anteriormente na lista suspensa.

    Screenshot showing how to choose the dataflow you created.

  3. Selecione Salvar e, em seguida, Executar para executar o fluxo de dados e preencher inicialmente a tabela de consulta mesclada que você projetou na etapa anterior.

    Screenshot showing where to select Run.

Etapa 3: usar o assistente de cópia para adicionar uma atividade de cópia

  1. Selecione Copiar dados na tela para abrir a ferramenta Assistente de Cópia para começar. Ou selecione Usar o assistente de cópia na lista suspensa Copiar dados na guia Atividades da faixa de opções.

    Screenshot showing the two ways to access the copy assistant.

  2. Escolha sua fonte de dados selecionando um tipo de fonte de dados. Neste tutorial, você usará o banco de dados SQL do Azure usado anteriormente quando criou o fluxo de dados para gerar uma nova consulta de mesclagem. Role para baixo as ofertas de dados de amostra abaixo e selecione a guia Azure e depois Banco de dados SQL do Azure. Selecione Avançar para continuar.

    Screenshot showing where to choose a data source.

  3. Crie uma conexão com sua fonte de dados selecionando Criar nova conexão. Preencha as informações de conexão necessárias no painel e insira o AdventureWorksLT para o banco de dados, onde geramos a consulta de mesclagem no fluxo de dados. Em seguida, selecione Avançar.

    Screenshot showing where to create a new connection.

  4. Selecione a tabela gerada na etapa de fluxo de dados anteriormente e, em seguida, selecione Avançar.

    Screenshot showing how to select from available tables.

  5. Para seu destino, escolha Armazenamento de Blobs do Azure e selecione Avançar.

    Screenshot showing the Azure Blob Storage data destination.

  6. Crie uma conexão com seu destino selecionando Criar nova conexão. Forneça os detalhes de sua conexão e selecione Avançar.

    Screenshot showing how to create a connection.

  7. Selecione o Caminho da pasta e forneça um Nome de arquivo e, em seguida, selecione Avançar.

    Screenshot showing how to select folder path and file name.

  8. Selecione Avançar novamente para aceitar o formato de arquivo padrão, o delimitador de coluna, o delimitador de linha e o tipo de compactação, incluindo opcionalmente um cabeçalho.

    Screenshot showing the configuration options for the file in Azure Blob Storage.

  9. Finalize suas configurações. Em seguida, revise e selecione Salvar + Executar para concluir o processo.

    Screenshot showing how to review copy data settings.

Etapa 5: projetar o pipeline de dados e salvá-lo para executar e carregar dados

  1. Para executar a atividade de Cópia após a atividade do Fluxo de Dados, arraste de Êxito na atividade do Fluxo de Dados para a atividade de Cópia. A atividade Copy só será executada depois que a atividade de Fluxo de Dados for bem-sucedida.

    Screenshot showing how to make the dataflow run take place after the copy activity.

  2. Selecione Salvar para salvar seu pipeline de dados. Em seguida, selecione Executar para executar o pipeline de dados e carregar os dados.

    Screenshot showing where to select Save and Run.

Agendar a execução do pipeline

Depois de concluir o desenvolvimento e o teste do pipeline, você poderá agendá-lo para ser executado automaticamente.

  1. Na guia Página Inicial da janela do editor de pipeline, selecione Agendamento.

    A screenshot of the Schedule button on the menu of the Home tab in the pipeline editor.

  2. Configure o agendamento conforme necessário. O exemplo aqui agenda o pipeline para ser executado diariamente às 20h até o final do ano.

    Screenshot showing the schedule configuration for a pipeline to run daily at 8:00 PM until the end of the year.

Esse exemplo mostra como criar e configurar um Fluxo de Dados Gen2 para criar uma consulta de mesclagem e armazená-la em um banco de dados SQL do Azure e, em seguida, copiar dados do banco de dados para um arquivo de texto no Armazenamento de Blobs do Azure. Você aprendeu a:

  • Crie um fluxo de dados.
  • Transforme os dados com o fluxo de dados.
  • Crie um pipeline de dados usando o fluxo de dados.
  • Ordene a execução das etapas no pipeline.
  • Copie dados com o Assistente de Cópia.
  • Execute e agende seu pipeline de dados.

Em seguida, avance para saber mais sobre como monitorar suas execuções de pipeline.