Como copiar dados usando a atividade de cópia

No Azure Data Factory, você pode usar a atividade de Cópia para copiar dados entre armazenamentos de dados locais e na nuvem.

Depois de copiar os dados, você pode usar outras atividades para transformá-los e analisá-los ainda mais. Também é possível usar a atividade Copy para publicar resultados de análise e transformação para consumo do aplicativo e BI (business intelligence).

Para copiar dados de uma origem para um coletor, o serviço que executa a atividade de Cópia realiza essas etapas:

  1. Lê dados de um armazenamento de dados de origem.
  2. Executa a serialização/desserialização, a compactação/descompactação, o mapeamento de coluna e assim por diante. Ele executa essas operações com base na configuração.
  3. Grava dados no repositório de dados de destino.

Pré-requisitos

Para começar, você deve concluir os seguintes pré-requisitos:

  • Uma conta de locatário do Microsoft Fabric com uma assinatura ativa. Crie uma conta gratuitamente.

  • Verifique se você tem um Workspace habilitado para o Microsoft Fabric.

Adicionar uma atividade de cópia usando copiar assistente

Siga estas etapas para configurar sua atividade de cópia usando o assistente de cópia.

Comece com o assistente de cópia

  1. Abra um pipeline de dados existente ou crie um pipeline de dados.

  2. Selecione Copiar dados na tela para abrir a ferramenta Assistente de cópia para começar. Ou selecione Usar o assistente de cópia na lista suspensa Copiar dados na guia Atividades da faixa de opções.

    Captura de tela mostrando opções para abrir o assistente de cópia.

Configurar sua origem

  1. Selecione um tipo de fonte de dados na categoria. Você usará o Armazenamento de Blobs do Azure como exemplo. Selecione Armazenamento de Blobs do Azure e depois selecione Continuar.

    Captura de tela da tela Escolher fonte de dados.

  2. Crie uma conexão com sua fonte de dados selecionando Criar nova conexão.

    Captura de tela mostrando onde selecionar Nova conexão.

    Depois de selecionar Criar nova conexão, preencha as informações de conexão necessárias e selecione Avançar. Para obter os detalhes da criação da conexão para cada tipo de fonte de dados, você pode consultar cada artigo do conector.

    Se você tiver conexões existentes, poderá selecionar Conexão existente e selecionar sua conexão na lista suspensa.

    Captura de tela mostrando a conexão existente.

  3. Escolha o arquivo ou pasta a ser copiado nesta etapa de configuração de origem e selecione Avançar.

    Captura de tela mostrando onde selecionar os dados a serem copiados.

Configurar seu destino

  1. Selecione um tipo de fonte de dados na categoria. Você usará o Armazenamento de Blobs do Azure como exemplo. Você pode criar uma nova conexão vinculada a uma nova conta Armazenamento de Blobs do Azure seguindo as etapas na seção anterior ou usar uma conexão existente na lista suspensa de conexão. Os recursos de Testar conexão e Editar estão disponíveis para cada conexão selecionada.

    Captura de tela mostrando como selecionar o Armazenamento de Blobs do Azure.

  2. Configure e mapeie os dados de origem para o destino. Em seguida, selecione Avançar para concluir as configurações de destino.

    Captura de tela do mapa para a tela de destino.

    Captura de tela de Conectar ao destino de dados.

    Observação

    É possível usar somente um único gateway de dados local na mesma atividade Copy. Quando a origem e o coletor são fontes de dados locais, o mesmo gateway deve ser usado para ambos. Para mover dados entre fontes de dados locais com gateways diferentes, faça a cópia usando o primeiro gateway para uma fonte de nuvem intermediária em uma atividade Copy. Em seguida, é possível usar outra atividade Copy para copiá-la da fonte de nuvem intermediária, usando o segundo gateway.

Examinar e criar sua atividade de cópia

  1. Examine as configurações de atividade de cópia nas etapas anteriores e selecione OK para concluir. Ou você pode voltar às etapas anteriores para editar suas configurações, se necessário, na ferramenta.

    Captura de tela mostrando a tela Revisar e criar.

Depois de concluída, a atividade de cópia será adicionada à tela do pipeline de dados. Todas as configurações, incluindo configurações avançadas para essa atividade do Cópia, estão disponíveis nas guias abaixo quando selecionadas.

Captura de tela mostrando uma atividade de cópia na tela do pipeline de dados.

Agora você pode salvar seu pipeline de dados com essa atividade de cópia única ou continuar a projetar seu pipeline de dados.

Adicionar uma atividade de cópia diretamente

Siga estas etapas para adicionar uma atividade de cópia diretamente.

Adicione uma atividade de Cópia

  1. Abra um pipeline de dados existente ou crie um pipeline de dados.

  2. Adicione uma atividade de cópia selecionando Adicionar atividade de pipeline >Atividade de Cópia ou selecionando Copiar dados>Adicionar à tela na guia Atividades.

    Captura de tela mostrando duas maneiras de adicionar uma atividade de cópia.

Definir suas configurações gerais na guia geral

Para saber como definir suas configurações gerais, consulte Geral.

Configurar sua origem na guia de origem

  1. Selecione + Novo ao lado de Conexão para criar uma conexão com sua fonte de dados.

    Captura de tela mostrando onde selecionar Novo.

    1. Escolha o tipo de fonte de dados na janela pop-up. Você usará SQL do Azure Banco de Dados como exemplo. Selecione Banco de Dados SQL do Azure e Continuar.

      Captura de tela mostrando como selecionar a fonte de dados.

    2. Ele navega até a página de criação de conexão. Preencha as informações de conexão necessárias no painel e selecione Criar. Para obter os detalhes da criação da conexão para cada tipo de fonte de dados, você pode consultar cada artigo do conector.

      Captura de tela mostrando a página Nova conexão.

    3. Depois que a conexão for criada com êxito, ela o levará de volta à página do pipeline de dados. Em seguida, selecione Atualizar para buscar a conexão que você criou na lista suspensa. Você também pode escolher uma conexão de banco de dados SQL do Azure existente na lista suspensa diretamente se já a tiver criado antes. Os recursos de Testar conexão e Editar estão disponíveis para cada conexão selecionada. Em seguida, selecione Banco de dados do SQL do Azure SQL em Tipo de conexão.

      Captura de tela mostrando onde atualizar sua conexão.

  2. Especifique uma tabela a ser copiada. Selecione Pré-visualizar dados para visualizar a tabela de origem. Você também pode usar Consulta e Procedimento armazenado para ler dados de sua fonte.

    Captura de tela mostrando as opções de configurações da tabela de origem.

  3. Expanda Avançado para configurações mais avançadas.

    Captura de tela de configurações avançadas.

Configurar seu destino na guia de destino

  1. Escolha o tipo de destino. Pode ser o armazenamento de dados interno de primeira classe do workspace, como o Lakehouse, ou seus armazenamentos de dados externos. Você usará o Lakehouse como exemplo.

    Captura de tela mostrando onde selecionar o tipo de destino.

  2. Escolha usar o Lakehouse em Tipo de armazenamento de dados do workspace. Selecione + Novo e ele navega até a página de criação do Lakehouse. Especifique o nome do Lakehouse e selecione Criar.

    Captura de tela mostrando a criação do Lakehouse.

  3. Depois que a conexão for criada com êxito, ela o levará de volta à página do pipeline de dados. Em seguida, selecione Atualizar para buscar a conexão que você criou na lista suspensa. Você também pode escolher uma conexão existente do Lakehouse na lista suspensa diretamente se já a tiver criado antes.

    Captura de tela mostrando a seleção da conexão.

  4. Especifique uma tabela ou configure o caminho do arquivo para definir o arquivo ou a pasta como o destino. Aqui, selecione Tabelas e especifique uma tabela para gravar dados.

    Captura de tela mostrando onde encontrar as configurações da tabela.

  5. Expanda Avançado para configurações mais avançadas.

    Captura de tela das opções avançadas.

Agora você pode salvar seu pipeline de dados com essa atividade de cópia única ou continuar a projetar seu pipeline de dados.

Configurar seus mapeamentos na guia mapeamento

Se o conector que você aplicar der suporte ao mapeamento, você poderá acessar a guia Mapeamento para configurar o mapeamento.

  1. Selecione Importar esquemas para importar o esquema de dados.

    Captura de tela das configurações de mapeamento 1.

  2. Você pode ver que o mapeamento automático é mostrado. Especifique a coluna Origem e a coluna Destino. Se você criar uma nova tabela no destino, poderá personalizar o nome da coluna Destino aqui. Se você quiser gravar dados na tabela de destino existente, não poderá modificar o nome da coluna Destino existente. Você também pode exibir as colunas Tipo de origem e destino.

    Captura de tela das configurações de mapeamento 2.

Além disso, você pode selecionar + Novo mapeamento para adicionar novo mapeamento, selecione Limpar para limpar todas as configurações de mapeamento e selecione Redefinir para redefinir todas as colunas fonte de mapeamento.

Definir suas outras configurações na guia configurações

A guia Configurações contém as configurações de desempenho, preparo e assim por diante.

Captura de tela da guia Configurações.

Consulte a tabela a seguir para obter uma descrição de cada elemento do arquivo.

Configuração Descrição Propriedade do script JSON
Otimização de taxa de transferência inteligente Especifique para otimizar a taxa de transferência. Você pode escolher entre:
Automático
Padrão
Equilibrado
Máximo.

Ao escolher Automático, a configuração ideal é aplicada dinamicamente com base no seu par de destino de origem e no padrão de dados. Você também pode personalizar sua taxa de transferência e o valor personalizado pode ser de 2 a 256, enquanto o valor mais alto implica mais ganhos.
dataIntegrationUnits
Grau de paralelismo de cópia Especifique o grau de paralelismo que o carregamento de dados usaria. parallelCopies
Tolerância a falhas Ao selecionar essa opção, você pode ignorar alguns erros ocorridos no meio do processo de cópia. Por exemplo, linhas incompatíveis entre o repositório de origem e de destino, o arquivo que está sendo excluído durante a movimentação de dados etc. • enableSkipIncompatibleRow
• skipErrorFile:
   fileMissing
   arquivoProibido
   invalidFileName
Habilitar o registro em log Ao selecionar essa opção, você pode registrar arquivos copiados, arquivos ignorados e linhas. /
Habilitar o processo de preparo Especifique se você deseja copiar os dados por meio de um armazenamento de preparo provisório. Habilite o preparo somente para os cenários benéficos. enableStaging
Tipo de armazenamento de dados Ao ativar a preparação, você pode escolher Espaço de trabalho e Externo como seu tipo de armazenamento de dados. /
Para o espaço de trabalho
Workspace Especifique para usar o armazenamento de preparo interno. /
Para externo
Como preparar a conexão da conta Especifique a conexão de um Armazenamento de Blobs do Azure ou Azure Data Lake Storage Gen2, que se refere à instância de Armazenamento que você usa como um repositório de preparo provisório. Crie uma conexão de preparo se você não a tiver. conexão (em externalReferences)
Caminho de armazenamento Especifique o caminho que você deseja que contenha os dados preparados. Se você não fornecer um caminho, o serviço criará um contêiner para armazenar os dados temporários. Especifique um caminho somente se você usar o Armazenamento com uma assinatura de acesso compartilhado ou precisar que os dados temporários fiquem em um local específico. caminho
Ativar compactação Especifica se os dados devem ser compactados antes de serem copiados para o destino. Essa configuração reduz o volume de dados que são transferidos. enableCompression
Preserve Especifique se deseja preservar metadados/ACLs durante a cópia de dados. preservar

Observação

Se você usar a cópia preparada com a compactação habilitada, não haverá suporte para a autenticação da entidade de serviço para conexão de blob de preparo.

Configurar parâmetros em uma atividade de cópia

Os parâmetros podem ser usados para controlar o comportamento de um pipeline e suas atividades. Você pode usar Adicionar conteúdo dinâmico para especificar parâmetros para suas propriedades da atividade de cópia. Vamos tomar como exemplo a especificação do Lakehouse/Data Warehouse/Banco de Dados KQL para ver como usar o recurso.

  1. Em sua origem ou destino, após selecionar Workspace como o tipo de armazenamento de dados e especificar o Lakehouse/Data Warehouse/Banco de Dados KQL como o tipo de armazenamento de dados do espaço de trabalho, selecione Adicionar conteúdo dinâmico na lista suspensa do Lakehouse ou Data Warehouse ou Banco de Dados KQL.

  2. No painel pop-up Adicionar conteúdo dinâmico, na guia Parâmetros, selecione +.

    Captura de tela mostrando a página Adicionar conteúdo dinâmico.

  3. Especifique o nome do seu parâmetro e dê a ele um valor padrão, se quiser, ou você pode especificar o valor para o parâmetro após selecionar Executar no pipeline.

    A captura de tela mostra a criação de um novo parâmetro.

    Observe que o valor do parâmetro deve ser a ID de objeto do Lakehouse/Data Warehouse/Banco de Dados KQL. Para obter a ID do objeto Lakehouse/Data Warehouse/Banco de Dados KQL, abra o Lakehouse/Data Warehouse/Banco de Dados KQL no seu workspace e a ID estará depois de /lakehouses/ ou /datawarehouses/ ou /databases/ no seu URL.

    • ID de objeto do Lakehouse:

      Captura de tela que mostra o ID de objeto do Lakehouse.

    • ID de objeto do Data Warehouse:

      Captura de tela mostrando a ID do objeto do Data Warehouse.

    • ID do objeto do Banco de Dados KQL:

      Captura de tela mostrando o ID do objeto do banco de dados KQL.

  4. Selecione Salvar para retornar ao painel Adicionar conteúdo dinâmico. Em seguida, selecione o parâmetro para que ele apareça na caixa de expressão. Depois, selecione OK. Você voltará para a página do pipeline e poderá ver que a expressão do parâmetro está especificada após a ID do objeto do Lakehouse/ID do objeto do Data Warehouse ID/ID do objeto Banco de Dados KQL.

    Captura de tela mostrando a seleção do parâmetro.