Modelo de contrato da Informação de Documentos
Importante
- As versões preliminares públicas da Informação de Documentos oferecem acesso antecipado a recursos que estão em desenvolvimento ativo. Recursos, abordagens e processos podem ser alterados, antes da Disponibilidade Geral (GA), com base nos comentários do usuário.
- A versão de visualização pública das bibliotecas de clientes da Informação de Documentos usa como padrão a versão da API REST 2024-07-31-preview.
- Atualmente, a versão de visualização pública 2024-07-31-preview só está disponível nas regiões do Azure a seguir. Observe que o modelo generativo personalizado (extração de campos do documento) no Estúdio de IA está disponível somente na região Centro-Norte dos EUA:
- Leste dos EUA
- Oeste dos EUA 2
- Oeste da Europa
- Centro-Norte dos EUA
Esse conteúdo se aplica a: v4.0 (versão prévia) | Versão prévia: v3.1 (GA)
Este conteúdo se aplica a: v3.1 (GA) | Versão mais recente: v4.0 (versão prévia)
O modelo de contrato da Informação de Documentos usa recursos poderosos de Reconhecimento Óptico de Caracteres (OCR) para analisar e extrair campos-chave e itens de linha de um grupo seleto de entidades de contrato importantes. Os contratos podem ter uma variedade de formatos e qualidade, incluindo imagens capturadas por telefone, documentos digitalizados e PDFs digitais. A API analisa o texto do documento; extrai informações importantes, como Partes, Jurisdições, ID do Contrato e Título; e retorna uma representação de dados JSON estruturada. Atualmente, o modelo dá suporte a formatos de documento em inglês.
Processamento automatizado de contratos
O processamento automatizado de contratos é o processo de extração de campos-chave de documentos. Historicamente, o processo de análise de contratos é alcançado manualmente e, portanto, consome muito tempo. A extração exata de dados-chave dos contratos normalmente é a primeira e uma das etapas mais críticas no processo de automação de contratos.
Opções de desenvolvimento
A Informação de Documentos v4.0 (2024-07-31-preview) dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
Recurso | Recursos | ID do Modelo |
---|---|---|
Modelo de contrato | • Estúdio da Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript |
prebuilt-contract |
A Informação de Documentos v3.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
Recurso | Recursos | ID do Modelo |
---|---|---|
Modelo de contrato | • Estúdio da Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript |
prebuilt-contract |
A Informação de Documentos v3.0 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
Recurso | Recursos | ID do Modelo |
---|---|---|
Modelo de contrato | • Estúdio da Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript |
prebuilt-contract |
Requisitos de entrada
Formatos de arquivo com suporte:
Modelar PDF Image,: JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLLer ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Documento geral ✔ ✔ Predefinida ✔ ✔ Extração personalizada ✔ ✔ Classificação personalizada ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) Para ter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de camada gratuita, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para análise de documentos é de 500 MB para a camada paga (S0) e
4
MB para a camada gratuita (F0).As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 x 10.000 pixels.
Se os PDFs estiverem com bloqueio de senha, você deverá remover o bloqueio antes do envio.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1.024 x 768 pixels. Essa dimensão corresponde a aproximadamente
8
pontos de texto a 150 pontos por polegada (DPI).Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Para o treinamento do modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e
1
GB para o modelo neural.Para o treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é de
1
GB, com um máximo de 10.000 páginas. Para a visualização de 31/07/2024 e posteriores, o tamanho total dos dados de treinamento é de2
GB com um máximo de 10.000 páginas.
Experimente a extração de dados do documento do contrato
Veja como os dados, incluindo informações do cliente, detalhes do fornecedor e itens de linha, são extraídos dos contratos. Você precisa dos seguintes recursos:
Uma assinatura do Azure — você pode criar uma gratuitamente.
Uma instância da Informação de Documentos no portal do Azure. Você pode usar o tipo de preço gratuito (
F0
) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter a chave e o ponto de extremidade.
Estúdio de Informação de Documentos
Na página inicial do Document Intelligence Studio, selecione Documentos Fiscais.
Você pode analisar os documentos fiscais de amostra ou carregar seus próprios arquivos.
Selecione o botão Executar análise e, se necessário, configure as opções Analisar :
Idiomas e localidades com suporte
Para uma lista completa de idiomas suportados, veja nossa página Suporte a idiomas — modelos pré-criados.
Extração de campo
Para campos de extração de documentos suportados, consulte a página esquema do modelo de contrato em nosso repositório de exemplos do GitHub.
Os pares de chave-valor do contrato e os itens de linha extraídos estão na seção
documentResults
da saída JSON.
Próximas etapas
Experimente processar seus próprios formulários e documentos com o Estúdio da Informação de Documentos.
Execute um início rápido do serviço Informação de Documentos e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.