Copiar novos arquivos de forma incremental com base no nome do arquivo particionado por tempo usando a ferramenta Copiar Dados

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

Neste tutorial, você pode usar o portal do Azure para criar um Data Factory. Em seguida, você usa a ferramenta Copiar Dados para criar um pipeline que copia novos arquivos de forma incremental com base no nome do arquivo particionado por tempo do armazenamento de Blob do Azure para o armazenamento de Blob do Azure.

Observação

Se estiver se familiarizando com o Azure Data Factory, confira Introdução ao Azure Data Factory.

Neste tutorial, você executa as seguintes etapas:

  • Criar um data factory.
  • Usar a ferramenta Copy Data para criar um pipeline.
  • Monitore as execuções de pipeline e de atividade.

Pré-requisitos

  • Assinatura do Azure: Se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.
  • Conta de armazenamento do Azure: use o armazenamento de Blob como o armazenamento de dados de origem e coletor. Se você não tiver uma conta de armazenamento do Azure, confira as instruções em Criar uma conta de armazenamento.

Criar dois contêineres no armazenamento de Blob

Prepare seu armazenamento de Blob para o tutorial seguindo estas etapas.

  1. Crie um contêiner chamado origem. Crie um caminho de pasta como 2021/07/15/06 em seu contêiner. Crie um arquivo de texto vazio e nomeie-o file1.txt. Carregue o file1.txt no caminho da pasta origem/2021/07/15/06 em sua conta de armazenamento. É possível usar várias ferramentas para executar essas tarefas, como o Azure Storage Explorer.

    upload de arquivos

    Observação

    Ajuste o nome da pasta com a sua hora UTC. Por exemplo, se a hora UTC atual for 6:10 em 15 de julho de 2021, você poderá criar o caminho da pasta como origem/2021/07/15/06/ pela regra de origem/{Ano}/{Mês}/{Dia}/{Hora}/ .

  2. Crie um contêiner chamado destino. É possível usar várias ferramentas para executar essas tarefas, como o Azure Storage Explorer.

Criar uma data factory

  1. No menu à esquerda, selecione Criar um recurso>Integração>Data Factory:

    Seleção do Data Factory no painel quot;Novoquot;

  2. Na página Novo data factory, em Nome, insira ADFTutorialDataFactory.

    O nome do seu data factory deve ser globalmente exclusivo. Você deve ver a seguinte mensagem de erro:

    Mensagem de erro para o nome duplicado do novo data factory.

    Se você receber uma mensagem de erro sobre o valor do nome, insira um nome diferente para o data factory. Por exemplo, use o nome seunomeADFTutorialDataFactory. Para ver as regras de nomenclatura de artefatos do Data Factory, confira Regras de nomenclatura do Data Factory.

  3. Selecione a assinatura do Azure na qual deseja criar o novo data factory.

  4. Em Grupo de Recursos, use uma das seguintes etapas:

    a. Selecione Usar existentee selecione um grupo de recursos existente na lista suspensa.

    b. Selecione Criar novoe insira o nome de um grupo de recursos.

    Para saber mais sobre grupos de recursos, confira Usar grupos de recursos para gerenciar recursos do Azure.

  5. Em versão, selecione V2 para a versão.

  6. Em local, selecione o local para o data factory. Somente os locais com suporte são exibidos na lista suspensa. Os armazenamentos de dados (por exemplo, Armazenamento do Azure e Banco de Dados SQL) e os serviços de computação (por exemplo, Azure HDInsight) usados pelo seu data factory podem estar em outros locais e regiões.

  7. Selecione Criar.

  8. Depois de finalizada a criação, a home page do Data Factory é exibida.

  9. Para iniciar a interface do usuário (IU) do Azure Data Factory em uma guia separada, selecione Abrir no bloco Open Azure Data Factory Studio.

    Home page do Azure Data Factory, com o bloco Abrir Azure Data Factory Studio.

Usar a ferramenta Copy Data para criar um pipeline

  1. Na página inicial do ADF (Azure Data Factory), selecione Ingerir para iniciar a ferramenta Copiar Dados.

    Captura de tela que mostra a página inicial do ADF.

  2. Na página Propriedades, execute as seguintes etapas:

    1. Em Tipo de tarefa, selecione Tarefa de cópia interna.

    2. Em Cadência da tarefa ou Agendamento da tarefa, selecione Janela em cascata.

    3. Em Recorrência, insira 1 hora(s) .

    4. Selecione Avançar.

    Página Propriedades

  3. Na página Configurações do armazenamento de dados, conclua as seguintes etapas:

    a. Selecione + Criar conexão para adicionar uma conexão.

    b. Selecione Armazenamento de Blobs do Azure na galeria e, em seguida, selecione Continuar.

    c. Na página Nova conexão (Armazenamento de Blobs do Azure) , especifique um nome para a conexão. Selecione a assinatura do Azure e a conta de armazenamento na lista Nome da conta de armazenamento. Teste a conexão e, em seguida, selecione Concluir.

    Página Armazenamento de dados de origem

    d. Na página Armazenamento de dados de origem, selecione a conexão criada recentemente na seção Conexão.

    e. Na seção Arquivo ou pasta, procure e selecione o contêiner de origem e selecione OK.

    f. Em Comportamento de carregamento de arquivo, selecione Carga incremental: nomes da pasta/arquivo particionados por tempo.

    g. Grave o caminho da pasta dinâmica como origem/{ano}/{mês}/{dia}/{hora}/ e altere o formato, conforme mostrado na captura de tela a seguir.

    h. Marque Cópia binária e clique em Avançar.

    Captura de tela que mostra a configuração da página de Armazenamento de dados de destino.

  4. Na página Armazenamento de dados de destino, conclua as etapas a seguir:

    1. Selecione AzureBlobStorage, que é a mesma conta de armazenamento do armazenamento de fonte de dados.

    2. Procure e selecione a pasta de destino e clique em OK.

    3. Grave o caminho da pasta dinâmica como origem/{ano}/{mês}/{dia}/{hora}/ e altere o formato, conforme mostrado na captura de tela a seguir.

    4. Selecione Avançar.

    Captura de tela que mostra a configuração da página Armazenamento de dados de destino.

  5. Na página Configurações, em Nome da tarefa, insira DeltaCopyFromBlobPipeline e selecione Avançar. A interface do usuário do Data Factory cria um pipeline com o nome especificado da tarefa.

    Captura de tela que mostra a página de configurações.

  6. Na página Resumo, analise as configurações e selecione Avançar.

    Página Resumo

  7. Na página Implantação, selecione Monitorar para monitorar o pipeline (tarefa). Página Implantação

  8. Observe que a guia Monitor à esquerda é selecionada automaticamente. Você precisa aguardar a execução do pipeline quando ele for disparado automaticamente (cerca de uma hora). Quando ele for executado, clique no link do nome do pipeline DeltaCopyFromBlobPipeline para exibir os detalhes da execução da atividade ou execute novamente o pipeline. Selecione Atualizar para atualizar a lista.

    Captura de tela mostra o painel execuções de pipeline.

  9. Há apenas uma atividade (atividade de cópia) no pipeline. Assim, você vê apenas uma entrada. Ajuste a largura das colunas de Origem e de Destino (se necessário) para exibir mais detalhes. Você pode ver que o arquivo de origem (file1.txt) foi copiado de origem/2021/07/15/06/ para destino/2021/07/15/06/ com o mesmo nome de arquivo.

    Captura de tela mostra os detalhes de execução de pipeline.

    Você também pode verificar o mesmo usando o Gerenciador de Armazenamento do Azure (https://storageexplorer.com/) para verificar os arquivos.

    Captura de tela mostra os detalhes de execução do pipeline para o destino.

  10. Crie outro arquivo de texto vazio com o novo nome como file2.txt. Carregue o arquivo file2.txt no caminho da pasta origem/2021/07/15/07 em sua conta de armazenamento. É possível usar várias ferramentas para executar essas tarefas, como o Azure Storage Explorer.

    Observação

    Você deve estar ciente de que um novo caminho de pasta deve ser criado. Ajuste o nome da pasta com a sua hora UTC. Por exemplo, se a hora UTC atual for 7:30 em 15 de julho de 2021, você poderá criar o caminho da pasta como origem/2021/07/15/07/ pela regra de {ano}/{mês}/{dia}/{hora}/ .

  11. Para voltar à exibição Execução de pipeline, selecione Todas as execuções de pipeline e aguarde até que o mesmo pipeline seja disparado novamente automaticamente após outra hora.

    Captura de tela mostra o link Todas as execuções de pipeline para retornar a essa página.

  12. Selecione o novo link DeltaCopyFromBlobPipeline para a segunda execução de pipeline quando ele chegar e faça o mesmo para revisar os detalhes. Você verá que o arquivo de origem (file2.txt) foi copiado de origem/2021/07/15/07/ para destino/2021/07/15/07/ com o mesmo nome de arquivo. Você também pode verificar o mesmo usando o Gerenciador de Armazenamento do Azure (https://storageexplorer.com/) para verificar os arquivos no contêiner de destino.

Avance para o tutorial a seguir para saber mais sobre como transformar dados usando um cluster Spark no Azure: