Dicas para criar conjuntos de dados rotulados
Este conteúdo se aplica a: v3.1 (GA) | Última versão: v4.0 (versão prévia) | Versões anteriores: v3.0
Este conteúdo se aplica a: v3.0 (GA) | Últimas versões: v4.0 (versão prévia) v3.1
Importante
As práticas recomendadas para gerar conjuntos de dados rotulados se aplicam somente aos modelos personalizados e aos modelos neurais personalizados, para a geração personalizada, referem-se ao Generativo Personalizado
Este artigo destaca os melhores métodos para rotular conjuntos de dados de modelo personalizado no Estúdio da Informação de Documentos. A rotulagem de documentos pode ser demorada quando se tem um grande número de rótulos, documentos longos ou com estrutura variável. Essas dicas devem ajudar a rotular documentos com mais eficiência.
Vídeo: melhores práticas de rótulos personalizados
O vídeo a seguir é o segundo de duas apresentações destinadas a ajudá-lo a criar modelos personalizados com maior precisão (a primeira apresentação explora Como criar um conjunto de dados equilibrado).
Examinaremos as melhores práticas para rotular seus documentos selecionados. Com rotulagem semanticamente relevante e consistente, você deve ver uma melhoria no desempenho do modelo.
Pesquisar
O Studio já inclui uma caixa de pesquisa para instâncias quando você sabe que precisa encontrar palavras específicas para rotular, mas simplesmente não sabe onde localizá-las no documento. Basta pesquisar a palavra ou frase e navegar até a seção específica no documento para rotular a ocorrência.
Tabelas com rótulo automática
Pode ser desafiador rotular tabelas quando elas têm muitas linhas ou texto denso. Se a tabela de layout extrair o resultado necessário, basta usar esse resultado e ignorar o processo de rotulagem. Em instâncias em que a tabela de layout não é exatamente o que você precisa, é possível começar com a geração do campo de tabela a partir dos valores extraídos do layout. Comece selecionando o ícone de tabela na página e selecione no botão de rótulo automático. Também é possível editar os valores conforme o necessário. Atualmente, o rótulo automático dá suporte apenas a tabelas de página única.
Seleção de SHIFT
Ao rotular um grande intervalo de texto, em vez de marcar cada palavra no intervalo, mantenha pressionada a tecla SHIFT enquanto seleciona as palavras para acelerar a rotulagem e garantir que você não perca nenhuma palavra no intervalo de texto.
Rotulagem de região
Uma segunda opção para rotular intervalos de texto maiores é usar a rotulagem por região. Quando a rotulagem por região é usada, os resultados do OCR
são preenchidos no valor no momento do treinamento. A diferença entre a seleção de SHIFT e a rotulagem por região está apenas nos comentários de objeto visual que a abordagem da rotulagem com SHIFT fornece.
Rotular campos sobrepostos
Há suporte para campos sobrepostos para campos e células de tabela. Se você espera que os resultados da análise contenham campos sobrepostos, adicione pelo menos um exemplo ao conjunto de dados de treinamento com as sobreposições de campo específicas rotuladas. Para rotular um campo sobreposto, use o recurso de rotulagem de região para selecionar as regiões para cada campo. Há suporte para sobreposições completas e parciais. Qualquer palavra única no documento só pode ser rotulada para dois campos.
Subtipos de campo
Ao criar um campo, selecione o subtipo certo para minimizar o pós-processamento, por exemplo, selecione a opção dmy
de datas para extrair os valores em um formato dd-mm-yyyy
.
Próximas etapas
Saiba mais sobre rotulagem personalizada:
Saiba mais sobre os modelos de template personalizados: