Dicas para criar conjuntos de dados rotulados

Este conteúdo se aplica a:marca de seleção v4.0 (versão prévia) | Versões anteriores:marca de seleção azulv3.1 (GA)marca de seleção azulv3.0 (GA)

Este conteúdo se aplica a: marca de seleção v3.1 (GA) | Última versão: marca de seleção púrpura v4.0 (versão prévia) | Versões anteriores: marca de seleção azul v3.0

Este conteúdo se aplica a: marca de seleção v3.0 (GA) | Últimas versões: marca de seleção púrpura v4.0 (versão prévia) marca de seleção púrpura v3.1

Importante

As práticas recomendadas para gerar conjuntos de dados rotulados se aplicam somente aos modelos personalizados e aos modelos neurais personalizados, para a geração personalizada, referem-se ao Generativo Personalizado

Este artigo destaca os melhores métodos para rotular conjuntos de dados de modelo personalizado no Estúdio da Informação de Documentos. A rotulagem de documentos pode ser demorada quando se tem um grande número de rótulos, documentos longos ou com estrutura variável. Essas dicas devem ajudar a rotular documentos com mais eficiência.

Vídeo: melhores práticas de rótulos personalizados

  • O vídeo a seguir é o segundo de duas apresentações destinadas a ajudá-lo a criar modelos personalizados com maior precisão (a primeira apresentação explora Como criar um conjunto de dados equilibrado).

  • Examinaremos as melhores práticas para rotular seus documentos selecionados. Com rotulagem semanticamente relevante e consistente, você deve ver uma melhoria no desempenho do modelo.

O Studio já inclui uma caixa de pesquisa para instâncias quando você sabe que precisa encontrar palavras específicas para rotular, mas simplesmente não sabe onde localizá-las no documento. Basta pesquisar a palavra ou frase e navegar até a seção específica no documento para rotular a ocorrência.

Tabelas com rótulo automática

Pode ser desafiador rotular tabelas quando elas têm muitas linhas ou texto denso. Se a tabela de layout extrair o resultado necessário, basta usar esse resultado e ignorar o processo de rotulagem. Em instâncias em que a tabela de layout não é exatamente o que você precisa, é possível começar com a geração do campo de tabela a partir dos valores extraídos do layout. Comece selecionando o ícone de tabela na página e selecione no botão de rótulo automático. Também é possível editar os valores conforme o necessário. Atualmente, o rótulo automático dá suporte apenas a tabelas de página única.

Seleção de SHIFT

Ao rotular um grande intervalo de texto, em vez de marcar cada palavra no intervalo, mantenha pressionada a tecla SHIFT enquanto seleciona as palavras para acelerar a rotulagem e garantir que você não perca nenhuma palavra no intervalo de texto.

Rotulagem de região

Uma segunda opção para rotular intervalos de texto maiores é usar a rotulagem por região. Quando a rotulagem por região é usada, os resultados do OCR são preenchidos no valor no momento do treinamento. A diferença entre a seleção de SHIFT e a rotulagem por região está apenas nos comentários de objeto visual que a abordagem da rotulagem com SHIFT fornece.

Rotular campos sobrepostos

Há suporte para campos sobrepostos para campos e células de tabela. Se você espera que os resultados da análise contenham campos sobrepostos, adicione pelo menos um exemplo ao conjunto de dados de treinamento com as sobreposições de campo específicas rotuladas. Para rotular um campo sobreposto, use o recurso de rotulagem de região para selecionar as regiões para cada campo. Há suporte para sobreposições completas e parciais. Qualquer palavra única no documento só pode ser rotulada para dois campos.

Subtipos de campo

Ao criar um campo, selecione o subtipo certo para minimizar o pós-processamento, por exemplo, selecione a opção dmy de datas para extrair os valores em um formato dd-mm-yyyy.

Próximas etapas