Alterar a captura de dados no Azure Data Factory e no Azure Synapse Analytics
APLICA-SE A: Azure Data Factory Azure Synapse Analytics
Gorjeta
Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!
Este artigo descreve a captura de dados de alteração (CDC) no Azure Data Factory.
Para saber mais, consulte Visão geral do Azure Data Factory ou Visão geral do Azure Synapse.
Descrição geral
Quando você executa processos de integração de dados e ETL na nuvem, seus trabalhos podem ter um desempenho melhor e ser mais eficazes quando você lê apenas os dados de origem que foram alterados desde a última vez que o pipeline foi executado, em vez de sempre consultar um conjunto de dados inteiro em cada execução. O ADF fornece várias formas diferentes para obter facilmente dados delta apenas da última execução.
Alterar recurso de fábrica do Data Capture
A maneira mais fácil e rápida de começar no data factory com o CDC é através do recurso Change Data Capture de nível de fábrica. No designer de pipeline principal, clique em Novo em Recursos de fábrica para criar uma nova captura de dados de alteração. O recurso CDC factory fornece uma experiência passo a passo de configuração onde você pode selecionar suas fontes e destinos, aplicar transformações opcionais e clicar em Iniciar para iniciar a captura de dados. Com o recurso CDC, você não precisa projetar pipelines ou atividades de fluxo de dados. Você também só é cobrado por quatro núcleos de fluxos de dados de uso geral enquanto seus dados estão sendo processados. Você pode definir uma latência preferida, que o ADF usará para ativar e procurar dados alterados. Essa é a única vez que você será cobrado. O recurso CDC de nível superior também é o método ADF de executar seus processos continuamente. Os pipelines no ADF são apenas em lote, mas o recurso CDC pode ser executado continuamente.
Captura nativa de dados de alteração no mapeamento do fluxo de dados
Os dados alterados, incluindo linhas inseridas, atualizadas e excluídas, podem ser automaticamente detetados e extraídos pelo fluxo de dados de mapeamento do ADF dos bancos de dados de origem. Nenhuma coluna de carimbo de data/hora ou ID é necessária para identificar as alterações, pois usa a tecnologia nativa de captura de dados de alteração nos bancos de dados. Simplesmente encadeando uma transformação de origem e uma referência de transformação de coletor a um conjunto de dados de banco de dados em um fluxo de dados de mapeamento, você pode ver as alterações ocorridas no banco de dados de origem para serem aplicadas automaticamente ao banco de dados de destino, para que você possa sincronizar facilmente os dados entre duas tabelas. Você também pode adicionar quaisquer transformações intermediárias para qualquer lógica de negócios para processar os dados delta. Ao definir o destino dos dados do coletor, você pode definir operações de inserção, atualização, atualização e exclusão no coletor sem a necessidade de uma transformação Alter Row, pois o ADF é capaz de detetar automaticamente os criadores de linhas.
Conectores suportados
- SAP CDC
- Base de Dados SQL do Azure
- SQL Server
- Instância Gerida do SQL no Azure
- Azure Cosmos DB (SQL API)
- Repositório analítico do Azure Cosmos DB
- Snowflake
Extração incremental automática no mapeamento do fluxo de dados
As linhas ou arquivos atualizados recém-atualizados podem ser detetados e extraídos automaticamente pelo fluxo de dados de mapeamento do ADF dos armazenamentos de origem. Quando você deseja obter dados delta dos bancos de dados, a coluna incremental é necessária para identificar as alterações. Quando você deseja carregar novos arquivos ou arquivos atualizados somente de um armazenamento de armazenamento, o fluxo de dados de mapeamento do ADF funciona apenas durante o tempo da última modificação dos arquivos.
Conectores suportados
- Armazenamento de Blobs do Azure
- ADLS Gen2
- ADLS Gen1
- Base de Dados SQL do Azure
- SQL Server
- Instância Gerida do SQL no Azure
- Base de Dados do Azure para MySQL
- Base de Dados do Azure para PostgreSQL
- Modelo de dados comum
Extração de dados delta gerenciada pelo cliente em pipeline
Você sempre pode criar seu próprio pipeline de extração de dados delta para todos os armazenamentos de dados suportados pelo ADF, incluindo o uso da atividade de pesquisa para obter o valor da marca d'água armazenado em uma tabela de controle externa, a atividade de cópia ou a atividade de fluxo de dados de mapeamento para consultar os dados delta em relação ao carimbo de data/hora ou coluna ID e a atividade do SP para gravar o novo valor da marca d'água de volta à sua tabela de controle externo para a próxima execução. Quando você deseja carregar novos arquivos somente de um armazenamento de armazenamento, você pode excluir arquivos toda vez depois que eles foram movidos para o destino com êxito, ou aproveitar o tempo particionado pasta ou nomes de arquivo ou hora da última modificação para identificar os novos arquivos.
Melhores práticas
Alterar a captura de dados de bancos de dados
- A captura nativa de dados de alteração é sempre recomendada como a maneira mais simples de obter dados de alteração. Ele também traz muito menos carga para seu banco de dados de origem quando o ADF extrai os dados de alteração para processamento posterior.
- Se os armazenamentos de banco de dados não fizerem parte da lista de conectores do ADF com suporte nativo à captura de dados de alteração, recomendamos que você marque a opção de extração incremental automática em que você só precisa inserir a coluna incremental para capturar as alterações. O ADF cuidará do resto, incluindo a criação de uma consulta dinâmica para carregamento delta e o gerenciamento do ponto de verificação para cada atividade executada.
- A extração de dados delta gerenciada pelo cliente no pipeline abrange todos os bancos de dados suportados pelo ADF e oferece a flexibilidade de controlar tudo sozinho.
Alterar a captura de arquivos de armazenamentos baseados em arquivos
- Quando você deseja carregar dados do Armazenamento de Blobs do Azure, do Azure Data Lake Storage Gen2 ou do Azure Data Lake Storage Gen1, o mapeamento do fluxo de dados oferece a oportunidade de obter arquivos novos ou atualizados apenas com um clique. É a maneira mais simples e recomendada para você obter carga delta desses armazenamentos baseados em arquivos no mapeamento do fluxo de dados.
- Você pode obter mais práticas recomendadas.
Check Point
Quando você habilita a captura de dados de alteração nativa ou as opções de extração incremental automática no fluxo de dados de mapeamento do ADF, o ADF ajuda você a gerenciar o ponto de verificação para garantir que cada atividade executada leia automaticamente apenas os dados de origem que foram alterados desde a última vez que o pipeline foi executado. Por padrão, o ponto de verificação é acoplado ao pipeline e ao nome da atividade. Se alterar o nome do pipeline ou o nome da atividade, o ponto de verificação será redefinido, o que faz com que tenha que começar do início ou obter alterações a partir de agora na próxima execução. Se você quiser alterar o nome do pipeline ou o nome da atividade, mas ainda assim manter o ponto de verificação para obter dados alterados da última execução automaticamente, use sua própria chave de ponto de verificação na atividade de fluxo de dados para conseguir isso. A regra de nomenclatura da sua própria chave de ponto de verificação é a mesma que serviços vinculados, conjuntos de dados, pipelines e fluxos de dados.
Quando você depura o pipeline, esse recurso funciona da mesma forma. O ponto de verificação será redefinido quando você atualizar o navegador durante a execução de depuração. Depois de estar satisfeito com o resultado do pipeline da execução de depuração, você pode ir em frente para publicar e acionar o pipeline. No momento em que você aciona pela primeira vez seu pipeline publicado, ele é reiniciado automaticamente desde o início ou recebe alterações a partir de agora.
Na seção de monitoramento, você sempre tem a chance de executar novamente um pipeline. Quando você está fazendo isso, os dados alterados são sempre capturados do ponto de verificação anterior da execução do pipeline selecionado.
Tutoriais
A seguir estão os tutoriais para iniciar a captura de dados de alteração no Azure Data Factory e no Azure Synapse Analytics.
- Tutorial do SAP CDC no ADF
- Copiar dados incrementalmente de um armazenamento de dados de origem para um repositório de dados de destino Tutoriais
Modelos
A seguir estão os modelos para usar a captura de dados de alteração no Azure Data Factory e no Azure Synapse Analytics.
Conteúdos relacionados
- Saiba como usar a chave de ponto de verificação na atividade de fluxo de dados.
- Saiba mais sobre o recurso ADF Change Data Capture.
- Percorra a construção de um artefato CDC de nível superior.