Modelo de documento geral da Informação de Documentos

Artigo
10/16/2024

Importante

Começando com as versões do Document Intelligence 2024-02-29-preview, 2023-10-31-preview e, daqui para frente, o modelo de documento geral (pré-documento predefinido) é preterido. Para extrair pares de chave-valor, marcas de seleção, texto, tabelas e estrutura dos documentos use os seguintes modelos:

Recurso	version	ID do Modelo
Modelo de `Layout` com o parâmetro de cadeia de caracteres de consulta `features=keyValuePairs` opcional habilitado.	• v4:2024-02-29-preview • v3.1:2023-07-31 (GA)	`prebuilt-layout`
Modelo de documento geral	• v3.1:2023-07-31 (GA) • v3.0:2022-08-31 (GA) • v2.1 (GA)	`prebuilt-document`

Este conteúdo se aplica a:v3.1 (GA) | Versão mais recente:v4.0 (versão prévia) | Versão anterior: v3.0

Este conteúdo se aplica a: v3.0 (GA) | Últimas versões: v4.0 (versão prévia) v3.1

O modelo da Documentação geral combina recursos avançados de OCR (Reconhecimento óptico de caracteres) com modelos de aprendizado profundo para extrair pares de chave-valor, tabelas e marcas de seleção de documentos. O documento geral está disponível com as APIs v3.1 e v3.0. Para obter mais informações, consulte nosso guia de migração.

Recursos de Documentação Geral

O modelo de documento geral é pré-treinado e não requer rótulos nem treinamento.
Uma única API extrai pares de chave-valor, marcas de seleção, texto, tabelas e estrutura dos documentos.
O modelo de documentação geral dá suporte a documentos estruturados, semiestruturados e não estruturados.
As marcas de seleção são identificadas como campos com um valor igual :selected: ou :unselected:.

Exemplo de documento processado no Estúdio de Informação de Documentos

Captura de tela de análise de documento geral no Estúdio de Informação de Documentos.

Extração de par chave-valor

A API de documento geral dá suporte à maioria dos tipos de formulários e analisa seus documentos e extrai chaves e valores associados. Ela é ideal para extrair pares chave-valor comuns de documentos. Você pode usar o modelo de documentação geral como uma alternativa para treinar um modelo personalizado sem rótulos.

Opções de desenvolvimento

A Informação de Documentos v3.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso	Recursos	ID do Modelo
Modelo de documento geral	• Estúdio de Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript	prebuilt-document

A Informação de Documentos v3.0 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso	Recursos	ID do Modelo
Modelo de documento geral	• Estúdio de Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript	prebuilt-document

Requisitos de entrada

Formatos de arquivo com suporte:

Modelar	PDF	Image,: `JPEG/JPG`, `PNG`, `BMP`, `TIFF`, `HEIF`	Microsoft Office: Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Ler	✔	✔	✔
Layout	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
Documento geral	✔	✔
Predefinida	✔	✔
Extração personalizada	✔	✔
Classificação personalizada	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview)

Para ter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de camada gratuita, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para análise de documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 x 10.000 pixels.
Se os PDFs estiverem com bloqueio de senha, você deverá remover o bloqueio antes do envio.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1.024 x 768 pixels. Essa dimensão corresponde a aproximadamente 8 pontos de texto a 150 pontos por polegada (DPI).
Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
- Para o treinamento do modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1 GB para o modelo neural.
- Para o treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é de 1 GB, com um máximo de 10.000 páginas. Para a versão 2024-07-31-preview e posteriores, o tamanho total dos dados de treinamento é de 2 GB, com um máximo de 10.000 páginas.

Extração de dados de modelo de documentação geral

Tente extrair dados de formulários e documentos pelo Estúdio da Informação de Documentos.

Você precisa dos seguintes recursos:

Uma assinatura do Azure — você pode criar uma gratuitamente.
Uma instância da Informação de Documentos no portal do Azure. Você pode usar o tipo de preço gratuito (F0) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter a chave e o ponto de extremidade.

Captura de tela da localização das chaves e do ponto de extremidade no portal do Azure.

Observação

O Estúdio de Informação de Documentos e o modelo de documentação geral estão disponíveis com a API v 3.0.

Na home page do Estúdio de Informação de Documentos, selecione Documentos gerais.
Você pode analisar o documento de amostra ou carregar seus próprios arquivos.
Selecione o botão Executar análise e, se necessário, configure as opções Analisar :

Experimente o Estúdio da Informação de Documentos.

Pares de chave-valor

Pares de chave-valor são spans específicos dentro do documento que identificam um rótulo ou chave e sua resposta ou valor associado. Em um formulário estruturado, esses pares poderiam ser o rótulo e o valor que o usuário inseriu no campo. Em um documento não estruturado, poderiam ser a data em que um contrato foi executado com base no texto em um parágrafo. O modelo de AI é treinado para extrair chaves e valores identificáveis com base em uma ampla variedade de tipos de documento, formatos e estruturas.

As chaves também podem existir isoladamente quando o modelo detecta que existe uma chave, sem valor associado ou ao processar campos opcionais. Por exemplo, um campo de nome do meio pode ser deixado em branco em um formulário em algumas instâncias. Pares de chave-valor são intervalos de texto contidos no documento. Para documentos em que o mesmo valor é descrito de maneiras diferentes, por exemplo, cliente/usuário, a chave associada é cliente ou usuário (com base no contexto).

Extração de dados

Modelo	Extração de texto	Pares chave-valor	Marcas de seleção	Tabelas	Nomes Comuns
Documentação Geral	✓	✓	✓	✓	✓*

✓* – disponível somente no 2023-07-31 (GA v3.1) e versões posteriores da API.

Idiomas e localidades com suporte

Confira nossa página Suporte ao idioma – modelos de análise de documentos, para obter uma lista completa dos idiomas com suporte.

Considerações

Como as chaves são intervalos de texto extraídos do documento, para documentos semiestruturados, as chaves precisam ser mapeadas para um dicionário de chaves existente.
Espere ver pares chave-valor com uma chave, mas nenhum valor. Por exemplo, se um usuário optar por não fornecer um endereço de email no formulário.

Próximas etapas

Siga nosso Guia de migração da Informação de Documentos v3.1 para saber como usar a versão v3.1 em seus aplicativos e fluxos de trabalho.
Explore nossa API REST.

Experimente o Estúdio de Informação de Documentos

Compartilhar via