Cópia rápida em Dataflows Gen2
Este artigo descreve o recurso de cópia rápida no Dataflows Gen2 for Data Factory no Microsoft Fabric. Os fluxos de dados ajudam na ingestão e transformação de dados. Com a introdução do dimensionamento do fluxo de dados com a computação SQL DW, você pode transformar seus dados em escala. No entanto, seus dados precisam ser ingeridos primeiro. Com a introdução da cópia rápida, você pode ingerir terabytes de dados com a experiência fácil de fluxos de dados, mas com o back-end escalável da atividade de cópia do pipeline.
Depois de habilitar esse recurso, os fluxos de dados alternam automaticamente o back-end quando o tamanho dos dados excede um limite específico, sem a necessidade de alterar nada durante a criação dos fluxos de dados. Após a atualização de um fluxo de dados, você pode verificar no histórico de atualizações para ver se a cópia rápida foi usada durante a execução, observando o tipo de mecanismo que aparece lá.
Com a opção Exigir cópia rápida ativada, a atualização do fluxo de dados é cancelada se a cópia rápida não for usada. Isso ajuda a evitar esperar que um tempo limite de atualização continue. Esse comportamento também pode ser útil em uma sessão de depuração para testar o comportamento do fluxo de dados com seus dados enquanto reduz o tempo de espera. Usando os indicadores de cópia rápida no painel de etapas de consulta, você pode verificar facilmente se sua consulta pode ser executada com cópia rápida.
Pré-requisitos
- Você deve ter uma capacidade de malha.
- Para dados de arquivo, os arquivos estão em formato .csv ou parquet de pelo menos 100 MB e armazenados em uma conta de armazenamento do Azure Data Lake (ADLS) Gen2 ou Blob.
- Para banco de dados, incluindo Banco de Dados SQL do Azure e PostgreSQL, 5 milhões de linhas ou mais de dados na fonte de dados.
Nota
Você pode ignorar o limite para forçar a cópia rápida selecionando a configuração "Exigir cópia rápida".
Suporte de conector
Atualmente, a cópia rápida é suportada para os seguintes conectores Dataflow Gen2:
- ADLS Gen2
- Armazenamento de Blobs
- BD SQL do Azure
- Casa do Lago
- PostgreSQL
- SQL Server local
- Armazém
- Oracle
- Snowflake
A atividade de cópia suporta apenas algumas transformações ao se conectar a uma fonte de arquivo:
- Combinar ficheiros
- Selecionar colunas
- Alterar tipos de dados
- Renomear uma coluna
- Remover uma coluna
Você ainda pode aplicar outras transformações dividindo as etapas de ingestão e transformação em consultas separadas. A primeira consulta realmente recupera os dados e a segunda consulta faz referência aos seus resultados para que a computação DW possa ser usada. Para fontes SQL, qualquer transformação que faça parte da consulta nativa é suportada.
Quando você carrega diretamente a consulta para um destino de saída, apenas os destinos Lakehouse são suportados atualmente. Se quiser usar outro destino de saída, você pode preparar a consulta primeiro e fazer referência a ela depois.
Como usar cópia rápida
Navegue até o ponto de extremidade de malha apropriado.
Navegue até um espaço de trabalho premium e crie um fluxo de dados Gen2.
Na guia Página Inicial do novo fluxo de dados, selecione Opções:
Em seguida, escolha a guia Escala na caixa de diálogo Opções e marque a caixa de seleção Permitir o uso de conectores de cópia rápida para ativar a cópia rápida. Em seguida, feche a caixa de diálogo Opções.
Selecione Obter dados e, em seguida, escolha a fonte ADLS Gen2 e preencha os detalhes do seu contêiner.
Use a funcionalidade Combinar arquivo .
Para garantir uma cópia rápida, aplique apenas as transformações listadas na seção Suporte ao conector deste artigo. Se você precisar aplicar mais transformações, prepare os dados primeiro e faça referência à consulta mais tarde. Faça outras transformações na consulta referenciada.
(Opcional) Você pode definir a opção Exigir cópia rápida para a consulta clicando com o botão direito do mouse nela para selecionar e habilitar essa opção.
(Opcional) Atualmente, você só pode configurar um Lakehouse como o destino de saída. Para qualquer outro destino, prepare a consulta e faça referência a ela posteriormente em outra consulta onde você pode enviar para qualquer fonte.
Verifique os indicadores de cópia rápida para ver se a sua consulta pode ser executada com cópia rápida. Em caso afirmativo, o tipo Engine mostra CopyActivity.
Publique o fluxo de dados.
Verifique após a atualização concluída para confirmar que a cópia rápida foi usada.
Limitações conhecidas
- É necessário um gateway de dados local versão 3000.214.2 ou mais recente para suportar o Fast Copy.
- O gateway VNet não é suportado.
- Não há suporte para gravação de dados em uma tabela existente no Lakehouse.
- Não há suporte para esquema fixo.