Início Rápido: mova e transforme dados com fluxos de dados e pipelines de dados
Neste tutorial, você descobrirá como o fluxo de dados e a experiência do pipeline de dados podem criar uma solução avançada e abrangente do Data Factory.
Pré-requisitos
Para começar, você deve ter os seguintes pré-requisitos:
- Uma conta de locatário com uma assinatura ativa. Criar uma conta gratuita .
- Verifique se você tem um Workspace habilitado para o Microsoft Fabric: Criar um workspace que não seja o Meu Workspace padrão.
- Um banco de dados SQL do Azure com dados da tabela.
- Uma conta do Armazenamento de Blobs.
Fluxos de dados em comparação com pipelines
O Dataflows Gen2 permite que você use uma interface de baixo código e mais de 300 transformações baseadas em dados e IA para limpar, preparar e transformar dados com mais flexibilidade do que qualquer outra ferramenta. Os pipelines de dados permitem funcionalidades avançadas de orquestração de dados prontos para uso para compor fluxos de trabalho de dados flexíveis que atendam às suas necessidades corporativas. Em um pipeline, você pode criar agrupamentos lógicos de atividades que executam uma tarefa, o que pode incluir chamar um fluxo de dados para limpar e preparar seus dados. Embora haja alguma sobreposição de funcionalidade entre os dois, a escolha de qual usar em um cenário específico depende de você precisar de toda a riqueza dos pipelines ou se pode usar as capacidades mais simples, porém limitadas, dos fluxos de dados. Para obter mais informações, consulte o guia de decisão do Fabric
Transformar dados com fluxos de dados
Siga estas etapas para configurar o fluxo de dados.
Etapa 1: Criar um fluxo de dados
Escolha o workspace habilitado para o Fabric e, em seguida, selecione Novo. Em seguida, selecione Fluxo de Dados Gen2.
A janela do editor de fluxo de dados é exibida. Selecione o cartão Importar do SQL Server.
Etapa 2: Obter dados
Na caixa de diálogo Conectar à fonte de dados apresentada em seguida, insira os detalhes para se conectar ao banco de dados SQL do Azure e selecione Próximo. Para este exemplo, use o banco de dados de exemplo AdventureWorksLT configurado ao definir o banco de dados SQL do Azure nos pré-requisitos.
Selecione os dados que deseja transformar e selecione Criar. Para este início rápido, selecione SalesLT.Customer nos dados de exemplo do AdventureWorksLT fornecidos para o BD SQL do Azure e, em seguida, o botão Selecionar tabelas relacionadas para incluir automaticamente duas outras tabelas relacionadas.
Etapa 3: Transformar seus dados
Se não estiver selecionado, selecione o botão Exibição do diagrama na barra de status, na parte inferior da página, ou selecione Exibição de diagrama no menu Exibir, na parte superior do editor do Power Query. Qualquer uma dessas opções pode alternar o modo de exibição de diagrama.
Clique com o botão direito do mouse na consulta SalesLT Customer ou selecione a elipse vertical à direita da consulta e, em seguida, selecione Mesclar consultas.
Configure a mesclagem selecionando a tabela SalesLTOrderHeader como a tabela correta para a mesclagem, a coluna CustomerID de cada tabela como a coluna de junção e Exterior esquerdo como o tipo de junção. Em seguida, selecione OK para adicionar a consulta de mesclagem.
Selecione o botão Adicionar destino de dados, que se parece com um símbolo de banco de dados com uma seta acima dele, na nova consulta de mesclagem criada. Em seguida, selecione banco de dados SQL do Azure como o tipo de destino.
Forneça os detalhes da conexão do banco de dados SQL do Azure em que a consulta de mesclagem deve ser publicada. Neste exemplo, você também pode usar o banco de dados AdventureWorksLT que usamos como fonte de dados para o destino.
Escolha um banco de dados para armazenar os dados e forneça um nome de tabela e selecione Avançar.
Você pode deixar as configurações padrão na caixa de diálogo Escolher configurações de destino e selecionar Salvar configurações sem fazer nenhuma alteração aqui.
Selecione Publicar novamente na página do editor de fluxo de dados para publicar o fluxo de dados.
Mover dados com pipelines de dados
Agora que você criou um Fluxo de Dados Gen2, poderá operá-lo em um pipeline. Neste exemplo, você copia os dados gerados do fluxo de dados para o formato de texto em uma conta do Armazenamento de Blobs do Azure.
Etapa 1: Criar um novo pipeline de dados
No workspace, selecione Novo e, em seguida, Pipeline de dados.
Nomeie o pipeline e selecione Criar.
Etapa 2: Configurar seu fluxo de dados
Adicione uma nova atividade de fluxo de dados ao pipeline de dados selecionando Fluxo de Dados na guia Atividades.
Selecione o fluxo de dados na tela do pipeline e, em seguida, a guia Configurações. Escolha o fluxo de dados criado anteriormente na lista suspensa.
Selecione Salvare, em seguida, Executar para executar o fluxo de dados para preencher inicialmente sua tabela de consulta mesclada que você projetou na etapa anterior.
Etapa 3: Usar o assistente de cópia para adicionar uma atividade de cópia
Selecione Copiar dados na tela para abrir a ferramenta Assistente de Cópia e começar. Ou selecione Usar o assistente de cópia na lista suspensa Copiar dados na guia Atividades da faixa de opções.
Escolha sua fonte de dados selecionando um tipo de fonte de dados. Neste tutorial, você usa o Banco de Dados SQL do Azure usado anteriormente quando criou o fluxo de dados para gerar uma nova consulta de mesclagem. Role para baixo abaixo das ofertas de dados de exemplo e selecione a guia Azure e, em seguida, Banco de Dados SQL do Azure. Em seguida, selecione Próximo para continuar.
Crie uma conexão com sua fonte de dados selecionando Criar nova conexão. Preencha as informações de conexão necessárias no painel e insira o AdventureWorksLT para o banco de dados, onde geramos a consulta de mesclagem no fluxo de dados. Em seguida, selecione Próximo.
Selecione a tabela gerada na etapa de fluxo de dados anteriormente e selecione Próximo.
Para seu destino, escolha Armazenamento de Blobs do Azure e selecione Avançar.
Crie uma conexão com seu destino selecionando Criar nova conexão. Forneça os detalhes da conexão e selecione Próximo.
Selecione o Caminho da pasta e forneça um Nome de arquivo e, em seguida, selecione Avançar.
Selecione Próximo novamente para aceitar o formato de arquivo padrão, delimitador de coluna, delimitador de linha e tipo de compactação, incluindo opcionalmente um cabeçalho.
Finalize suas configurações. Em seguida, examine e selecione Salvar + Executar para concluir o processo.
Etapa 5: Projetar o pipeline de dados e salvar para execução e carregamento de dados
Para executar a atividade de Cópia após a atividade do Fluxo de Dados, arraste de Êxito na atividade do Fluxo de Dados para a atividade de Cópia. A atividade Copiar só é executada após a atividade Fluxo de Dados ser concluída com sucesso.
Selecione a opção Salvar para salvar o pipeline de dados. Em seguida, selecione Executar para executar o pipeline de dados e carregar os dados.
Agendar a execução do pipeline
Depois de concluir o desenvolvimento e o teste do pipeline, você poderá agendá-lo para ser executado automaticamente.
Na guia Página Inicial da janela do editor de pipeline, selecione Agendamento.
Configure o agendamento conforme necessário. O exemplo aqui agenda o pipeline para ser executado diariamente às 20h até o final do ano.
Conteúdo relacionado
Este exemplo mostra como criar e configurar um Dataflow Gen2 para criar uma consulta de mesclagem e armazená-la em um banco de dados SQL do Azure e copiar dados do banco de dados para um arquivo de texto no Armazenamento de Blobs do Azure. Você aprendeu a:
- Crie um fluxo de dados.
- Transforme os dados com o fluxo de dados.
- Crie um pipeline de dados usando o fluxo de dados.
- Ordene a execução das etapas no pipeline.
- Copie dados com o Assistente de Cópia.
- Executar e agendar seu pipeline de dados.
Em seguida, prossiga para saber mais sobre como monitorar as execuções de pipeline.