Cópia rápida em Dataflows Gen2

Este artigo descreve o recurso de cópia rápida no Dataflows Gen2 for Data Factory no Microsoft Fabric. Os fluxos de dados ajudam na ingestão e transformação de dados. Com a introdução do dimensionamento do fluxo de dados com a computação SQL DW, você pode transformar seus dados em escala. No entanto, seus dados precisam ser ingeridos primeiro. Com a introdução da cópia rápida, você pode ingerir terabytes de dados com a experiência fácil de fluxos de dados, mas com o back-end escalável da atividade de cópia do pipeline.

Depois de habilitar esse recurso, os fluxos de dados alternam automaticamente o back-end quando o tamanho dos dados excede um limite específico, sem a necessidade de alterar nada durante a criação dos fluxos de dados. Após a atualização de um fluxo de dados, você pode verificar no histórico de atualizações para ver se a cópia rápida foi usada durante a execução, observando o tipo de mecanismo que aparece lá.

Com a opção Exigir cópia rápida ativada, a atualização do fluxo de dados é cancelada se a cópia rápida não for usada. Isso ajuda a evitar esperar que um tempo limite de atualização continue. Esse comportamento também pode ser útil em uma sessão de depuração para testar o comportamento do fluxo de dados com seus dados enquanto reduz o tempo de espera. Usando os indicadores de cópia rápida no painel de etapas de consulta, você pode verificar facilmente se sua consulta pode ser executada com cópia rápida.

Captura de tela mostrando onde o indicador de cópia rápida aparece no painel de etapas de consulta.

Pré-requisitos

  • Você deve ter uma capacidade de malha.
  • Para dados de arquivo, os arquivos estão em formato .csv ou parquet de pelo menos 100 MB e armazenados em uma conta de armazenamento do Azure Data Lake (ADLS) Gen2 ou Blob.
  • Para banco de dados, incluindo Banco de Dados SQL do Azure e PostgreSQL, 5 milhões de linhas ou mais de dados na fonte de dados.

Nota

Você pode ignorar o limite para forçar a cópia rápida selecionando a configuração "Exigir cópia rápida".

Suporte de conector

Atualmente, a cópia rápida é suportada para os seguintes conectores Dataflow Gen2:

  • ADLS Gen2
  • Armazenamento de Blobs
  • BD SQL do Azure
  • Casa do Lago
  • PostgreSQL
  • SQL Server local
  • Armazém
  • Oracle
  • Snowflake

A atividade de cópia suporta apenas algumas transformações ao se conectar a uma fonte de arquivo:

  • Combinar ficheiros
  • Selecionar colunas
  • Alterar tipos de dados
  • Renomear uma coluna
  • Remover uma coluna

Você ainda pode aplicar outras transformações dividindo as etapas de ingestão e transformação em consultas separadas. A primeira consulta realmente recupera os dados e a segunda consulta faz referência aos seus resultados para que a computação DW possa ser usada. Para fontes SQL, qualquer transformação que faça parte da consulta nativa é suportada.

Quando você carrega diretamente a consulta para um destino de saída, apenas os destinos Lakehouse são suportados atualmente. Se quiser usar outro destino de saída, você pode preparar a consulta primeiro e fazer referência a ela depois.

Como usar cópia rápida

  1. Navegue até o ponto de extremidade de malha apropriado.

  2. Navegue até um espaço de trabalho premium e crie um fluxo de dados Gen2.

  3. Na guia Página Inicial do novo fluxo de dados, selecione Opções:

    Captura de tela mostrando onde selecionar Opções para Fluxos de Dados Gen2 na guia Página Inicial.

  4. Em seguida, escolha a guia Escala na caixa de diálogo Opções e marque a caixa de seleção Permitir o uso de conectores de cópia rápida para ativar a cópia rápida. Em seguida, feche a caixa de diálogo Opções.

    Captura de ecrã a mostrar onde ativar a cópia rápida no separador Escala da caixa de diálogo Opções.

  5. Selecione Obter dados e, em seguida, escolha a fonte ADLS Gen2 e preencha os detalhes do seu contêiner.

  6. Use a funcionalidade Combinar arquivo .

    Captura de ecrã a mostrar a janela de dados da pasta Pré-visualizar com a opção Combinar realçada.

  7. Para garantir uma cópia rápida, aplique apenas as transformações listadas na seção Suporte ao conector deste artigo. Se você precisar aplicar mais transformações, prepare os dados primeiro e faça referência à consulta mais tarde. Faça outras transformações na consulta referenciada.

  8. (Opcional) Você pode definir a opção Exigir cópia rápida para a consulta clicando com o botão direito do mouse nela para selecionar e habilitar essa opção.

    Captura de ecrã a mostrar onde selecionar a opção Exigir cópia rápida no menu do botão direito do rato para uma consulta.

  9. (Opcional) Atualmente, você só pode configurar um Lakehouse como o destino de saída. Para qualquer outro destino, prepare a consulta e faça referência a ela posteriormente em outra consulta onde você pode enviar para qualquer fonte.

  10. Verifique os indicadores de cópia rápida para ver se a sua consulta pode ser executada com cópia rápida. Em caso afirmativo, o tipo Engine mostra CopyActivity.

    Captura de tela mostrando os detalhes de atualização indicando que o mecanismo CopyActivity do pipeline foi usado.

  11. Publique o fluxo de dados.

  12. Verifique após a atualização concluída para confirmar que a cópia rápida foi usada.

Limitações conhecidas

  1. É necessário um gateway de dados local versão 3000.214.2 ou mais recente para suportar o Fast Copy.
  2. O gateway VNet não é suportado.
  3. Não há suporte para gravação de dados em uma tabela existente no Lakehouse.
  4. Não há suporte para esquema fixo.