Como copiar dados usando a atividade de cópia
No Pipeline de Dados, você pode usar a atividade Copiar para copiar dados entre armazenamentos de dados localizados na nuvem.
Depois de copiar os dados, você pode usar outras atividades para transformá-los e analisá-los ainda mais. Você também pode usar a atividade Copiar para publicar resultados de transformação e análise para business intelligence (BI) e consumo de aplicativos.
Para copiar dados de uma origem para um destino, o serviço que executa a atividade Copiar executa estas etapas:
- Lê dados de um armazenamento de dados de origem.
- Executa serialização/desserialização, compressão/descompressão, mapeamento de colunas e assim por diante. Ele executa essas operações com base na configuração.
- Grava dados no armazenamento de dados de destino.
Pré-requisitos
Para começar, você deve preencher os seguintes pré-requisitos:
Uma conta de locatário do Microsoft Fabric com uma assinatura ativa. Crie uma conta gratuitamente.
Verifique se você tem um espaço de trabalho habilitado para Microsoft Fabric.
Adicionar uma atividade de cópia usando o assistente de cópia
Siga estas etapas para configurar sua atividade de cópia usando o assistente de cópia.
Comece com o assistente de cópia
Abra um pipeline de dados existente ou crie um novo pipeline de dados.
Selecione Copiar dados na tela para abrir a ferramenta Assistente de Cópia para começar. Ou selecione Usar assistente de cópia na lista suspensa Copiar dados na guia Atividades da faixa de opções.
Configure a sua origem
Selecione um tipo de fonte de dados na categoria. Você usará o Armazenamento de Blobs do Azure como exemplo. Selecione Armazenamento de Blobs do Azure e, em seguida, selecione Avançar.
Crie uma conexão com sua fonte de dados selecionando Criar nova conexão.
Depois de selecionar Criar nova conexão, preencha as informações de conexão necessárias e selecione Avançar. Para obter os detalhes da criação de conexão para cada tipo de fonte de dados, você pode consultar cada artigo do conector.
Se você tiver conexões existentes, poderá selecionar Conexão existente e selecionar sua conexão na lista suspensa.
Escolha o arquivo ou pasta a ser copiado nesta etapa de configuração de origem e selecione Avançar.
Configure o seu destino
Selecione um tipo de fonte de dados na categoria. Você usará o Armazenamento de Blobs do Azure como exemplo. Você pode criar uma nova conexão vinculada a uma nova conta de Armazenamento de Blob do Azure seguindo as etapas na seção anterior ou usar uma conexão existente na lista suspensa de conexão. Os recursos de Testar conexão e Editar estão disponíveis para cada conexão selecionada.
Configure e mapeie os dados de origem para o seu destino. Em seguida, selecione Avançar para concluir as configurações de destino.
Nota
Você só pode usar um único gateway de dados local dentro da mesma atividade de Cópia. Se a origem e o coletor forem fontes de dados locais, eles deverão usar o mesmo gateway. Para mover dados entre fontes de dados locais com gateways diferentes, você deve copiar usando o primeiro gateway para uma fonte de nuvem intermediária em uma atividade de Cópia. Em seguida, você pode usar outra atividade de cópia para copiá-la da fonte de nuvem intermediária usando o segundo gateway.
Rever e criar a sua atividade de cópia
Revise as configurações de atividade de cópia nas etapas anteriores e selecione OK para concluir. Ou você pode voltar às etapas anteriores para editar suas configurações, se necessário, na ferramenta.
Uma vez concluída, a atividade de cópia será adicionada à tela do pipeline de dados. Todas as definições, incluindo as definições avançadas para esta atividade de cópia, estão disponíveis nos separadores quando é selecionada.
Agora você pode salvar seu pipeline de dados com essa atividade de cópia única ou continuar a projetar seu pipeline de dados.
Adicionar uma atividade de cópia diretamente
Siga estas etapas para adicionar uma atividade de cópia diretamente.
Adicionar uma atividade de cópia
Abra um pipeline de dados existente ou crie um novo pipeline de dados.
Adicione uma atividade de cópia selecionando Adicionar atividade>de pipeline Copiar atividade ou selecionando Copiar dados>Adicionar à tela na guia Atividades.
Configure suas configurações gerais na guia geral
Para saber como definir as configurações gerais, consulte Geral.
Configure sua fonte na guia fonte
Selecione + Novo ao lado de Conexão para criar uma conexão com sua fonte de dados.
Escolha o tipo de fonte de dados na janela pop-up. Você usará o Banco de Dados SQL do Azure como exemplo. Selecione Banco de Dados SQL do Azure e, em seguida, selecione Continuar.
Ele navega até a página de criação de conexão. Preencha as informações de conexão necessárias no painel e selecione Criar. Para obter os detalhes da criação de conexão para cada tipo de fonte de dados, você pode consultar cada artigo do conector.
Depois que a conexão for criada com êxito, você voltará para a página do pipeline de dados. Em seguida, selecione Atualizar para buscar a conexão que você criou na lista suspensa. Você também pode escolher uma conexão existente do Banco de Dados SQL do Azure diretamente na lista suspensa se já a tiver criado antes. Os recursos de Testar conexão e Editar estão disponíveis para cada conexão selecionada. Em seguida, selecione Banco de Dados SQL do Azure em Tipo de conexão .
Especifique uma tabela a ser copiada. Selecione Visualizar dados para visualizar sua tabela de origem. Você também pode usar o procedimento Consulta e Armazenado para ler dados de sua fonte.
Expanda Avançado para obter configurações mais avançadas.
Configure seu destino na guia de destino
Escolha o seu tipo de destino. Pode ser seu armazenamento de dados interno de primeira classe do seu espaço de trabalho, como o Lakehouse, ou seus armazenamentos de dados externos. Você usará Lakehouse como exemplo.
Escolha usar Lakehouse no tipo de armazenamento de dados do espaço de trabalho. Selecione + Novo e ele navegará até a página de criação do Lakehouse. Especifique o nome do Lakehouse e selecione Criar.
Depois que a conexão for criada com êxito, você voltará para a página do pipeline de dados. Em seguida, selecione Atualizar para buscar a conexão que você criou na lista suspensa. Você também pode escolher uma conexão Lakehouse existente diretamente na lista suspensa se já a tiver criado antes.
Especifique uma tabela ou configure o caminho do arquivo para definir o arquivo ou pasta como destino. Aqui, selecione Tabelas e especifique uma tabela para gravar dados.
Expanda Avançado para obter configurações mais avançadas.
Agora você pode salvar seu pipeline de dados com essa atividade de cópia única ou continuar a projetar seu pipeline de dados.
Configurar seus mapeamentos na guia mapeamento
Se o conector que você aplica oferecer suporte ao mapeamento, você poderá ir para a guia Mapeamento para configurar o mapeamento.
Selecione Importar esquemas para importar seu esquema de dados.
Você pode ver que o mapeamento automático é mostrado. Especifique a coluna Origem e a coluna Destino. Se você criar uma nova tabela no destino, poderá personalizar o nome da coluna Destino aqui. Se quiser gravar dados na tabela de destino existente, não será possível modificar o nome da coluna Destino existente. Você também pode exibir as colunas Tipo de origem e destino.
Além disso, você pode selecionar + Novo mapeamento para adicionar novo mapeamento, selecionar Limpar para limpar todas as configurações de mapeamento e selecionar Redefinir para redefinir toda a coluna Origem do mapeamento.
Configure as suas outras definições no separador definições
A guia Configurações contém as configurações de desempenho, preparo e assim por diante.
Consulte a tabela a seguir para obter a descrição de cada configuração.
Definição | Descrição | Propriedade de script JSON |
---|---|---|
Otimização inteligente da taxa de transferência | Especifique para otimizar a taxa de transferência. Pode escolher entre: • Automático • Padrão • Equilibrado • Máximo Quando você escolhe Automático, a configuração ideal é aplicada dinamicamente com base no par origem-destino e no padrão de dados. Você também pode personalizar sua taxa de transferência, e o valor personalizado pode ser de 2 a 256, enquanto o valor mais alto implica mais ganhos. |
dataIntegrationUnits |
Grau de paralelismo de cópia | Especifique o grau de paralelismo que o carregamento de dados utilizaria. | parallelCopies |
Tolerância a falhas | Ao selecionar essa opção, você pode ignorar alguns erros ocorridos no meio do processo de cópia. Por exemplo, linhas incompatíveis entre o armazenamento de origem e de destino, arquivo sendo excluído durante a movimentação de dados, etc. | • enableSkipIncompatibleRow • skipErrorFile: arquivoAusente arquivoProibido Nome do arquivo inválido |
Ativar registo | Ao selecionar essa opção, você pode registrar arquivos copiados, arquivos ignorados e linhas. | / |
Ativar preparo | Especifique se os dados devem ser copiados por meio de um repositório de preparo provisório. Habilite o preparo apenas para os cenários benéficos. | habilitarEstadiamento |
Tipo de armazenamento de dados | Ao habilitar o preparo, você pode escolher Espaço de trabalho e Externo como seu tipo de armazenamento de dados. | / |
Para espaço de trabalho | ||
Área de trabalho | Especifique para usar o armazenamento de preparo interno. | / |
Para Externo | ||
Conexão de conta de preparo | Especifique a conexão de um Armazenamento de Blob do Azure ou do Azure Data Lake Storage Gen2, que se refere à instância de Armazenamento que você usa como um repositório de preparo provisório. Crie uma conexão de preparo se você não a tiver. | conexão (em externalReferences ) |
Caminho de armazenamento | Especifique o caminho que você deseja conter os dados em estágios. Se você não fornecer um caminho, o serviço criará um contêiner para armazenar dados temporários. Especifique um caminho somente se você usar o Armazenamento com uma assinatura de acesso compartilhado ou se precisar que os dados temporários estejam em um local específico. | path |
Ativar compactação | Especifica se os dados devem ser compactados antes de serem copiados para o destino. Essa configuração reduz o volume de dados que estão sendo transferidos. | enableCompression |
Preservar | Especifique se deseja preservar metadados/ACLs durante a cópia de dados. | preservar |
Nota
Se você usar cópia em estágios com compactação habilitada, a autenticação da entidade de serviço para conexão de blob de preparo não será suportada.
Configurar parâmetros em uma atividade de cópia
Os parâmetros podem ser usados para controlar o comportamento de um pipeline e suas atividades. Você pode usar Adicionar conteúdo dinâmico para especificar parâmetros para suas propriedades de atividade de cópia. Vamos tomar a especificação Lakehouse/Data Warehouse/KQL Database como um exemplo para ver como usá-lo.
Na origem ou no destino, depois de selecionar Espaço de trabalho como tipo de armazenamento de dados e especificar o banco de dados KQL do Lakehouse/Data Warehouse/como tipo de armazenamento de dados do espaço de trabalho, selecione Adicionar conteúdo dinâmico na lista suspensa de Lakehouse ou Data Warehouse ou Banco de dados KQL.
No pop-up Adicionar painel de conteúdo dinâmico, na guia Parâmetros , selecione +.
Especifique o nome para o parâmetro e atribua-lhe um valor padrão, se desejar, ou especifique o valor para o parâmetro depois de selecionar Executar no pipeline.
Observe que o valor do parâmetro deve ser Lakehouse/Data Warehouse/KQL Database object ID. Para obter seu ID de objeto Lakehouse/Data Warehouse/KQL Database, abra seu Lakehouse/Data Warehouse/KQL Database em seu espaço de trabalho e o ID estará depois
/lakehouses/
ou/datawarehouses/
/databases/
em sua URL.ID do objeto Lakehouse:
ID do objeto do Data Warehouse:
ID do objeto do banco de dados KQL:
Selecione Salvar para voltar ao painel Adicionar conteúdo dinâmico. Em seguida, selecione o parâmetro para que ele apareça na caixa de expressão. Em seguida, selecione OK. Você voltará para a página do pipeline e poderá ver que a expressão do parâmetro é especificada após o ID/do objeto Lakehouse ID do objeto Data Warehouse ID/ do objeto KQL Database.