Copie incrementalmente arquivos novos e alterados com base em LastModifiedDate usando a ferramenta Copiar dados

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

Neste tutorial, você usará o portal do Azure para criar um data factory. Em seguida, você usará a ferramenta Copiar Dados para criar um pipeline que copia incrementalmente somente arquivos novos e alterados, do armazenamento de Blob do Azure para o armazenamento de Blob do Azure. Ele usa LastModifiedDate para determinar quais arquivos copiar.

Depois de concluir as etapas aqui, o Azure Data Factory verificará todos os arquivos no repositório de origem, aplicará o filtro de arquivos por LastModifiedDatee copiará para o repositório de destino somente os arquivos que são novos ou foram atualizados desde a última vez. Observe que, se o Data Factory verificar um grande número de arquivos, você ainda deve esperar durações longas. A verificação de arquivos é demorada, mesmo quando a quantidade de dados copiados é reduzida.

Nota

Se não estiver familiarizado com o Data Factory, veja Introdução ao Azure Data Factory.

Neste tutorial, você concluirá estas tarefas:

  • Criar uma fábrica de dados.
  • Utilizar a ferramenta Copiar Dados para criar um pipeline.
  • Monitorizar o pipeline e execuções de atividades.

Pré-requisitos

  • Subscrição do Azure: se não tem uma subscrição do Azure, crie uma conta gratuita antes de começar.
  • Conta de Armazenamento do Azure: use o armazenamento de Blob para os armazenamentos de dados de origem e coletor. Se você não tiver uma conta de Armazenamento do Azure, siga as instruções em Criar uma conta de armazenamento.

Criar dois contêineres no armazenamento de Blob

Prepare seu armazenamento de Blob para o tutorial concluindo estas etapas:

  1. Crie um contêiner chamado source. Você pode usar várias ferramentas para executar essa tarefa, como o Gerenciador de Armazenamento do Azure.

  2. Crie um contêiner chamado destino.

Criar uma fábrica de dados

  1. No painel esquerdo, selecione Criar um recurso. Selecione Integration>Data Factory:

    Selecionar Fábrica de Dados

  2. Na página Nova fábrica de dados, em Nome, introduza ADFTutorialDataFactory.

    O nome da fábrica de dados tem de ser globalmente exclusivo. Poderá receber esta mensagem de erro:

    Nova mensagem de erro de fábrica de dados para nome duplicado.

    Se receber uma mensagem de erro relacionada com o valor do nome, introduza um nome diferente para a fábrica de dados. Por exemplo, utilize o nome oseunomeADFTutorialDataFactory. Para ter acesso às regras de nomenclatura para artefactos do Data Factory, veja Regras de nomenclatura do Data Factory.

  3. Em Assinatura, selecione a assinatura do Azure na qual você criará o novo data factory.

  4. Em Grupo de Recursos, siga um destes passos:

    • Selecione Usar existente e, em seguida, selecione um grupo de recursos existente na lista.

    • Selecione Criar novo e insira um nome para o grupo de recursos.

    Para saber mais sobre grupos de recursos, veja Utilizar grupos de recursos para gerir os recursos do Azure.

  5. Em Versão, selecione V2.

  6. Em Localização, selecione a localização para a fábrica de dados. Apenas os locais suportados aparecem na lista. Os armazenamentos de dados (por exemplo, Armazenamento do Azure e Banco de Dados SQL do Azure) e cálculos (por exemplo, Azure HDInsight) que sua fábrica de dados usa podem estar em outros locais e regiões.

  7. Selecione Criar.

  8. Depois que o data factory é criado, a home page do data factory é exibida.

  9. Para abrir a interface do usuário (UI) do Azure Data Factory em uma guia separada, selecione Abrir no bloco Abrir o Azure Data Factory Studio :

    Home page para o Azure Data Factory, com o bloco Open Azure Data Factory Studio.

Utilizar a ferramenta Copiar Dados para criar um pipeline

  1. Na home page do Azure Data Factory, selecione o bloco Ingest para abrir a ferramenta Copiar Dados:

    Captura de tela que mostra a página inicial do ADF.

  2. Na página Propriedades, execute as seguintes etapas:

    1. Em Tipo de tarefa, selecione Tarefa de cópia interna.

    2. Em Cadência ou agenda de tarefas, selecione Janela de tombamento.

    3. Em Recorrência, insira 15 Minuto(s).

    4. Selecione Seguinte.

    Copiar página de propriedades de dados

  3. Na página Armazenamento de dados de origem, conclua estas etapas:

    1. Selecione + Nova conexão para adicionar uma conexão.

    2. Selecione Armazenamento de Blobs do Azure na galeria e, em seguida, selecione Continuar:

      Selecione o Armazenamento de Blog do Azure

    3. Na página Nova conexão (Armazenamento de Blob do Azure), selecione sua assinatura do Azure na lista de assinaturas do Azure e sua conta de armazenamento na lista Nome da conta de armazenamento. Teste a conexão e selecione Criar.

    4. Selecione a conexão recém-criada no bloco Conexão .

    5. Na seção Arquivo ou pasta, selecione Procurar e escolha a pasta de origem e, em seguida, selecione OK.

    6. Em Comportamento de carregamento de arquivo, selecione Carga incremental: LastModifiedDate e escolha Cópia binária.

    7. Selecione Seguinte.

    Captura de tela que mostra a página 'Armazenamento de dados de origem'.

  4. Na página Armazenamento de dados de destino, conclua estas etapas:

    1. Selecione a conexão AzureBlobStorage que você criou. Esta é a mesma conta de armazenamento que o armazenamento de dados de origem.

    2. Na seção Caminho da pasta, procure e selecione a pasta de destino e, em seguida, selecione OK.

    3. Selecione Seguinte.

    Captura de ecrã que mostra a página 'Armazenamento de dados de destino'.

  5. Na página Configurações, em Nome da tarefa, digite DeltaCopyFromBlobPipeline e selecione Avançar. O Data Factory cria um pipeline com o nome da tarefa especificada.

    Captura de ecrã que mostra a página Definições.

  6. Na página Resumo, revise as configurações e selecione Avançar.

    Página Resumo

  7. Na Página de implementação, selecione Monitorizar para monitorizar o pipeline (tarefa).

    Página de implementação

  8. Tenha em atenção que o separador Monitorização à esquerda é selecionado automaticamente. O aplicativo alterna para a guia Monitor . Você vê o status do pipeline. Selecione Atualizar para atualizar a lista. Selecione o link em Nome do pipeline para exibir os detalhes da execução da atividade ou para executar o pipeline novamente.

    Atualizar a lista e ver os detalhes da execução da atividade

  9. Há apenas uma atividade (a atividade de cópia) no pipeline, portanto, você vê apenas uma entrada. Para obter detalhes sobre a operação de cópia, na página Execuções de atividade, selecione o link Detalhes (o ícone de óculos) na coluna Nome da atividade. Para obter detalhes sobre as propriedades, consulte Visão geral da atividade de cópia.

    Atividade de cópia no pipeline

    Como não há arquivos no contêiner de origem em sua conta de armazenamento de Blob, você não verá nenhum arquivo copiado para o contêiner de destino na conta:

    Nenhum arquivo no contêiner de origem ou no contêiner de destino

  10. Crie um arquivo de texto vazio e nomeie-o file1.txt. Carregue este arquivo de texto para o contêiner de origem em sua conta de armazenamento. Você pode usar várias ferramentas para executar essas tarefas, como o Gerenciador de Armazenamento do Azure.

    Crie file1.txt e carregue-o para o contêiner de origem

  11. Para voltar à visualização Execuções de pipeline, selecione o link Todas as execuções de pipeline no menu de navegação na página Execuções de atividade e aguarde até que o mesmo pipeline seja acionado automaticamente novamente.

  12. Quando a segunda execução do pipeline for concluída, siga as mesmas etapas mencionadas anteriormente para revisar os detalhes da execução da atividade.

    Você verá que um arquivo (file1.txt) foi copiado do contêiner de origem para o contêiner de destino da sua conta de armazenamento de Blob:

    file1.txt foi copiado do contêiner de origem para o contêiner de destino

  13. Crie outro arquivo de texto vazio e nomeie-o file2.txt. Carregue este arquivo de texto para o contêiner de origem em sua conta de armazenamento de Blob.

  14. Repita as etapas 11 e 12 para o segundo arquivo de texto. Você verá que apenas o novo arquivo (file2.txt) foi copiado do contêiner de origem para o contêiner de destino da sua conta de armazenamento durante essa execução de pipeline.

    Você também pode verificar se apenas um arquivo foi copiado usando o Gerenciador de Armazenamento do Azure para verificar os arquivos:

    Verificar arquivos usando o Gerenciador de Armazenamento do Azure

Vá para o tutorial a seguir para saber como transformar dados usando um cluster Apache Spark no Azure: