Remover duplicatas em cada tabela para unificação de dados
A etapa Regras de eliminação de duplicação encontra e remove registros duplicados de um cliente em uma tabela de fonte, de maneira que cada cliente seja representado por uma única linha em cada tabela. A duplicata de cada tabela é eliminada separadamente usando regras para identificar os registros de um determinado cliente.
As regras são processadas na ordem. Depois que todas as regras tiverem sido executadas em todos os registros de uma tabela, os grupos de correspondências que compartilham uma linha em comum serão combinados em um único grupo de correspondências.
Definir regras de eliminação de duplicação
Uma boa regra identifica um cliente exclusivo. Leve em consideração os dados. Talvez basta identificar clientes com base em um campo, como email. No entanto, se quiser diferenciar clientes que compartilhem um email, você poderá optar por ter uma regra com duas condições, correspondendo a Email + Nome. Para obter mais informações, consulte Práticas recomendadas de desduplicação.
Na página Regras de eliminação de duplicação, selecione uma tabela e Adicionar regra para definir as regras de eliminação de duplicação.
Dica
Se você tiver enriquecido tabelas no nível da fonte de dados para ajudar a melhorar os resultados da unificação, selecione Usar tabelas enriquecidas na parte superior da página. Para obter mais informações, consulte Enriquecimento de fontes de dados.
No painel Adicionar regra, insira as seguintes informações:
Selecionar campo: escolha na lista de campos disponíveis da tabela na qual você deseja verificar se há duplicidades. Escolha campos que provavelmente são exclusivos para cada cliente. Por exemplo, um endereço de email ou a combinação de nome, cidade e número de telefone.
Normalizar: Select opções de normalização para a coluna. A normalização só afeta a etapa de correspondência, e não os dados.
- Numerais: converte símbolos Unicode que representam números em números simples.
- Símbolos: Remove símbolos e caracteres especiais como !"#$%&'()*+,-./:;<=>? @[]^_`{|}~. Por exemplo, Head&Shoulder se torna HeadShoulder.
- Texto em minúsculas: converte caracteres maiúsculos em minúsculos. "ALL CAPS and Title Case" se torna "all caps and title case".
- Tipo (telefone, nome, endereço, organização): padroniza nomes, cargos, números de telefone e endereços.
- Unicode para ASCII: converte caracteres Unicode em letras ASCII equivalentes. Por exemplo, o ề acentuado é convertido no caractere e.
- Espaço em branco: remove todos os espaços. Olá, Mundo torna-se Olá,Mundo.
- Alias mapeamento: permite fazer upload de uma lista personalizada de pares de strings para indicar strings que sempre devem ser consideradas uma correspondência exata.
- Ignorar personalizado: permite fazer upload de uma lista personalizada de strings para indicar strings que nunca devem ser correspondidas.
Precisão: defina o nível de precisão. A precisão é usada para correspondência exata e correspondência difusa e determina o quão próximas duas strings precisam estar para serem consideradas uma correspondência.
- Básico: escolha entre Baixo (30%), Médio (60%), Alto (80%) e Exato (100%). Selecione Exato para corresponder apenas os registros com 100% de correspondência.
- Personalizado: defina uma porcentagem de correspondência para os registros. O sistema só compara registros que excedam esse limite.
Nome: nome da regra.
Opcionalmente, selecione Adicionar>Adicionar condição para adicionar mais condições à regra. As condições são conectadas a um operador lógico AND e, portanto, somente serão executadas se todas as condições forem atendidas.
Opcionalmente, selecione Adicionar>Adicionar exceção para adicionar exceções à regra. As exceções são usadas para lidar com casos raros de falsos positivos e falsos negativos.
Selecione Concluído para criar a regra.
Opcionalmente, adicione mais regras.
Selecione uma tabela e, em seguida, Editar preferências de mesclagem.
No painel Preferências de mesclagem:
Escolha uma das três opções para determinar qual registro manter se uma duplicidade for encontrada:
- Mais preenchido: identifica o registro com as colunas mais populadas como o registro vencedor. É a opção de mesclagem padrão.
- Mais recente: identifica o registro vencedor com base na maior recência. Requer uma data ou um campo numérico para definir o nível de atualização.
- Menos recente: identifica o registro vencedor com base na menor recência. Requer uma data ou um campo numérico para definir o nível de atualização.
Se houver um empate, o registro vencedor será aquele com o MAX(PK) ou o maior valor de chave primária.
Como opção, para definir preferências de mesclagem em colunas individuais de uma tabela, selecione Avançado na parte inferior do painel. Por exemplo, você pode manter o email mais recente E o endereço mais completo de diferentes registros. Expanda a tabela para ver todas as colunas e defina qual opção usar para colunas individuais. Se você escolher uma opção baseada em recência, também precisará especificar um campo de data/hora que defina a recência.
Selecione Concluído para aplicar suas preferências de mesclagem.
Depois de definir as regras de eliminação de duplicação e as preferências de mesclagem, selecione Avançar.