Modelos de processamento de documentos

Artigo
10/16/2024

Importante

As versões preliminares públicas da Informação de Documentos oferecem acesso antecipado a recursos que estão em desenvolvimento ativo. Recursos, abordagens e processos podem ser alterados, antes da Disponibilidade Geral (GA), com base nos comentários do usuário.
A versão de visualização pública das bibliotecas de clientes da Informação de Documentos usa como padrão a versão da API REST 2024-07-31-preview.
Atualmente, a versão de visualização pública 2024-07-31-preview só está disponível nas regiões do Azure a seguir. Observe que o modelo generativo personalizado (extração de campos do documento) no Estúdio de IA está disponível somente na região Centro-Norte dos EUA:
- Leste dos EUA
- Oeste dos EUA 2
- Oeste da Europa
- Centro-Norte dos EUA

Esse conteúdo se aplica a: v4.0 (versão prévia) | Versões prévias: v3.1 (GA) v3.0 (GA) v2.1 (GA)

Esse conteúdo se aplica a: v3.1 (GA) | Ultima versão: v4.0 (versão prévia) | Versões prévia: v3.0 v2.1

Esse conteúdo se aplica a: v3.0 (GA) | Ultimas versões: v4.0 (versão prévia) v3.1 | Versões prévia: v2.1

Esse conteúdo se aplica a: v2.1 | ais recente: v4.0 (versão prévia)

A IA do Azure para Informação de Documentos dá suporte a uma ampla variedade de modelos que permitem adicionar processamento de informação de documentos aos seus aplicativos e fluxos. Você pode usar um modelo específico do domínio predefinido ou treinar um modelo personalizado personalizado para seus casos específicos de necessidade e uso de negócios. A Informação de Documentos pode ser usada com a API REST ou bibliotecas de clientes Python, C#, Java e JavaScript.

Observação

Projetos de processamento de documentos que envolvem dados financeiros, dados de saúde protegidos, dados pessoais ou dados altamente confidenciais precisam de atenção especial.
É necessário estar em conformidade com todos os requisitos nacionais/regionais e específicos do setor.

Visão geral do modelo

A tabela a seguir mostra os modelos disponíveis para cada versão prévia atual e a API estável:

Tipo de modelo	Modelo	• 2024-02-29-preview • 2023-10-31-preview	31-07-2023 (GA)	2022-08-31 (GA)	v2.1 (GA)
Modelos de análise de documentos	Leitura	✔️	✔️	✔️	N/D
Modelos de análise de documentos	Layout	✔️	✔️	✔️	✔️
Modelos de análise de documentos	Documentação geral	movido para o layout**	✔️	✔️	N/D
Modelos predefinidos	Cheque Bancário	✔️	N/D	N/D	N/D
Modelos predefinidos	Extrato Bancário	✔️	N/D	N/D	N/D
Modelos predefinidos	Holerite	✔️	N/D	N/D	N/D
Modelos predefinidos	Contrato	✔️	✔️	N/D	N/D
Modelos predefinidos	cartão do seguro de saúde	✔️	✔️	✔️	N/D
Modelos predefinidos	Documento de identificação	✔️	✔️	✔️	✔️
Modelos predefinidos	Fatura	✔️	✔️	✔️	✔️
Modelos predefinidos	Receipt	✔️	✔️	✔️	✔️
Modelos predefinidos	Imposto Unificado dos EUA*	✔️	N/D	N/D	N/D
Modelos predefinidos	Imposto dos EUA 1040*	✔️	✔️	N/D	N/D
Modelos predefinidos	Imposto dos EUA 1098*	✔️	N/D	N/D	N/D
Modelos predefinidos	Imposto dos EUA 1099*	✔️	N/D	N/D	N/D
Modelos predefinidos	Imposto W2 dos EUA	✔️	✔️	✔️	N/D
Modelos predefinidos	Financiamento de Imóveis dos EUA, URLA 1003	✔️	N/D	N/D	N/D
Modelos predefinidos	URAR 1004 de Hipoteca dos EUA	✔️	N/D	N/D	N/D
Modelos predefinidos	Hipoteca dos EUA 1005	✔️	N/D	N/D	N/D
Modelos predefinidos	Resumo de Hipoteca dos EUA 1008	✔️	N/D	N/D	N/D
Modelos predefinidos	Divulgação do fechamento de Financiamento de Imóveis dos EUA	✔️	N/D	N/D	N/D
Modelos predefinidos	Certidão de casamento	✔️	N/D	N/D	N/D
Modelos predefinidos	Cartão de crédito	✔️	N/D	N/D	N/D
Modelos predefinidos	Cartão de visita	preterido	✔️	✔️	✔️
Modelo de classificação personalizada	Classificador personalizado	✔️	✔️	N/D	N/D
Modelo Generativo Personalizado	Modelo Generativo Personalizado	✔️	N/D	N/D	N/D
Modelo de extração personalizado	Neural personalizado	✔️	✔️	✔️	N/D
Modelo de extração personalizada	Modelo personalizado	✔️	✔️	✔️	✔️
Modelo de extração personalizado	Composto personalizado	✔️	✔️	✔️	✔️
Todos os modelos	Funcionalidades de complemento	✔️	✔️	N/D	N/D

* – Contém submodelos. Confira as informações específicas do modelo para ver as variações e os subtipos com suporte.

Latência

A latência é a quantidade de tempo que leva para um servidor de API manipular e processar uma solicitação de entrada e fornecer a resposta de saída para o cliente. O tempo para analisar um documento depende do tamanho (por exemplo, o número de páginas) e do conteúdo associado em cada página. A Informação de Documentos é um serviço multilocatário em que a latência para documentos semelhantes é comparável, mas nem sempre idêntica. A variabilidade ocasional em latência e desempenho é inerente em qualquer serviço assíncrono baseado em microsserviço, sem estado, que processa imagens e documentos grandes em escala. Embora ocorra continuamente a colocação em escala do hardware, a capacidade e os recursos de dimensionamento, você ainda poderá ter problemas de latência em runtime.

Capacidade de complemento	Complemento/gratuito	• 2024-02-29-preview &bullet [2023-10-31-preview](/rest/api/aiservices/operation-groups?view=rest-aiservices-v4.0%20(2024-07-31-preview)&preserve-view=true	`2023-07-31` (GA)	`2022-08-31` (GA)	v2.1 (GA)
Extração de propriedade de fonte	Complemento	✔️	✔️	N/D	N/D
Extração de fórmulas	Complemento	✔️	✔️	N/D	N/D
Extração de alta resolução	Complemento	✔️	✔️	N/D	N/D
Extração de código de barras	Grátis	✔️	✔️	N/D	N/D
Detecção de idioma	Grátis	✔️	✔️	N/D	N/D
Pares chave-valor	Grátis	✔️	N/D	N/D	N/D
Campos de consulta	Complemento*	✔️	N/D	N/D	N/D
PDF pesquisável	Complemento*	✔️	N/D	N/D	N/D

Recursos de análise de modelo

ID do Modelo	Extração de conteúdo	Campos de consulta	Parágrafos	Funções de Parágrafo	Marcas de Seleção	Tabelas	Pares Chave-Valor	Idiomas	Códigos de barras	Análise de Documentos	Fórmulas*	Fonte de estilo*	Alta Resolução*	PDF pesquisável
prebuilt-read	✓						O	O		O	O	O		✓
prebuilt-layout	✓	✓	✓	✓	✓	✓		O	O		O	O	O
prebuilt-document	✓	✓	✓	✓	✓	✓	✓	O	O		O	O	O
prebuilt-businessCard	✓	✓								✓
prebuilt-contract	✓	✓	✓	✓			O	O	✓	O	O	O
prebuilt-healthInsuranceCard.us	✓	✓						O	O	✓	O	O	O
prebuilt-idDocument	✓	✓						O	O	✓	O	O	O
prebuilt-invoice	✓	✓			✓	✓	O	O	O	✓	O	O	O
prebuilt-receipt	✓	✓						O	O	✓	O	O	O
prebuilt-marriageCertificate.us	✓	✓						O	O	✓	O	O	O
prebuilt-creditCard	✓	✓						O	O	✓	O	O	O
prebuilt-check.us	✓	✓						O	O	✓	O	O	O
prebuilt-payStub.us	✓	✓						O	O	✓	O	O	O
prebuilt-bankStatement	✓	✓						O	O	✓	O	O	O
prebuilt-mortgage.us.1003	✓	✓						O	O	✓	O	O	O
prebuilt-mortgage.us.1004	✓	✓						O	O	✓	O	O	O
prebuilt-mortgage.us.1005	✓	✓						O	O	✓	O	O	O
prebuilt-mortgage.us.1008	✓	✓						O	O	✓	O	O	O
prebuilt-mortgage.us.closingDisclosure	✓	✓						O	O	✓	O	O	O
prebuilt-tax.us	✓	✓			✓			O	O	✓	O	O	O
prebuilt-tax.us.w2	✓	✓			✓			O	O	✓	O	O	O
prebuilt-tax.us.1098	✓	✓			✓			O	O	✓	O	O	O
prebuilt-tax.us.1098E	✓	✓			✓			O	O	✓	O	O	O
prebuilt-tax.us.1098T	✓	✓			✓			O	O	✓	O	O	O
prebuilt-tax.us.1099(variações)	✓	✓			✓			O	O	✓	O	O	O
prebuilt-tax.us.1040(variações)	✓	✓						O	O	✓	O	O	O
{ customModelName }	✓	✓	✓	✓	✓	✓		O	O	✓	O	O	O

✓ – Habilitado
O – opcional
* – os recursos Premium incorrem em custos extras

Complemento*: os campos de consulta têm um preço diferente dos outros recursos complementares. Para obter detalhes, confira os preços.

Caixa delimitadora e coordenadas de polígono

Uma caixa delimitadora (polygon na v3.0 e versões posteriores) é um retângulo abstrato que envolve elementos de texto em um documento ou em um formulário, além de ser usada como um ponto de referência para a detecção de objetos.

A caixa delimitadora especifica a posição utilizando um plano de coordenadas x e y apresentado em uma matriz de quatro pares numéricos. Cada par representa um canto da caixa na seguinte ordem: superior esquerdo, superior direito, inferior direito, inferior esquerdo.
As coordenadas de imagem são apresentadas em pixels. Para um PDF, as coordenadas são apresentadas em polegadas.

Para todos os modelos, exceto o modelo de cartão de visita, a Informação de Documentos agora dá suporte a recursos de complemento para permitir uma análise mais sofisticada. Esses recursos opcionais podem ser habilitados e desabilitados dependendo do cenário de extração de documentos. Há sete recursos de complemento disponíveis para o 2023-07-31 (GA) e a versão posterior da API:

ocrHighResolution
formulas
styleFont
barcodes
languages
keyValuePairs (2024-02-29-preview, 2023-10-31-preview)
queryFields (2024-02-29-preview, 2023-10-31-preview) Not available with the US.Tax models
searchablePDF (2024-07-31-preview) Only available for Read Model

Suporte ao idioma

Os modelos universais baseados em aprendizado profundo na Informação de Documentos dá suporte a vários idiomas que podem extrair texto multilíngue de imagens e documentos, incluindo linhas de texto com idiomas mistos. Os idiomas compatíveis variam de acordo com a funcionalidade do serviço de Informação de Documentos. Para obter uma lista completa, confira os seguintes artigos:

Disponibilidade regional

A Informação de Documentos geralmente está disponível em muitas das mais de 60 regiões de infraestrutura global do Azure.

Para obter mais informações, consulte nossa página geografias do Azure para ajudar a escolher a região que é melhor para você e seus clientes.

Detalhes do modelo

Esta seção descreve a saída que você pode esperar de cada modelo. Você pode estender a saída da maioria dos modelos com recursos de complemento.

Ler OCR

A API de Leitura analisa e extrai linhas, palavras, seus locais, idiomas detectados e estilo manuscrito, se detectado.

Exemplo de documento processado usando o Estúdio de Informação de Documentos:

Captura de tela de exemplo de documento processado usando a Leitura de Estúdio de Informação de Documentos

Para saber mais: leia modelo

Análise de layout

O modelo de Análise de layout analisa e extrai texto, tabelas, marcas de seleção e outros elementos de estrutura como títulos, títulos de seção, cabeçalhos de página, rodapés de página e muito mais.

Exemplo de documento processado usando o Estúdio de Informação de Documentos:

Captura de tela da página de exemplo de jornal processada usando o Estúdio de Informação de Documentos.

Saiba mais: modelo de layout

cartão do seguro de saúde

O modelo de cartão de seguro de saúde combina recursos avançados de Reconhecimento Óptico de Caracteres (OCR) com modelos de aprendizado profundo para analisar e extrair informações importantes de cartões do seguro de saúde dos EUA.

Exemplo de cartão do seguro de saúde dos EUA processado usando o Estúdio de Informação de Documentos:

Saiba mais: Modelo de cartão de seguro de saúde

Documentos de impostos dos EUA

Os modelos de documentos de impostos dos EUA analisam e extraem campos-chave e itens de linha de um grupo selecionado dos documentos fiscais. A API dá suporte à análise de documentos de impostos em inglês dos EUA de vários formatos e qualidade, incluindo imagens capturadas por telefone, documentos digitalizados e PDFs digitais. Os modelos a seguir têm suporte atualmente:

Modelar	Descrição	ModelID
Imposto W-2 dos EUA	Extrair detalhes de compensação tributáveis.	prebuilt-tax.us.w2
Imposto dos EUA 1040	Extrair os detalhes de juros da hipoteca.	prebuilt-tax.us.1040(variations)
Imposto 1098 dos EUA	Extrair os detalhes de juros da hipoteca.	prebuilt-tax.us.1098(variations)
Imposto 1099 dos EUA	Extrai os rendimentos recebidos de fontes diferentes do empregador.	prebuilt-tax.us.1099(variações)

Exemplo de documento W-2 processado usando o Estúdio de Informação de Documentos:

Captura de tela de um W-2 de amostra.

Saiba mais: modelos de documentos de impostos

Documentos de hipoteca dos EUA

Os modelos de documentos de hipoteca dos EUA analisam e extraem campos-chave, incluindo informações de mutuários, empréstimos e propriedades de um grupo seleto de documentos de hipoteca. A API dá suporte à análise de documentos de hipoteca em inglês dos EUA de vários formatos e níveis de qualidade, incluindo imagens capturadas por telefone, documentos digitalizados e PDFs digitais. Os modelos a seguir têm suporte atualmente:

Modelar	Descrição	ModelID
1003 Contrato de Licença de Usuário Final (EULA)	Extrai detalhes de empréstimos, mutuários e propriedades.	prebuilt-mortgage.us.1003
Documento de Resumo 1008	Extrai os detalhes de mutuário, vendedor, propriedade, hipoteca e subscrição.	prebuilt-mortgage.us.1008
Declaração de conclusão de transação	Extrai detalhes de fechamento de transações, custos de transação e empréstimo.	prebuilt-mortgage.us.closingDisclosure
Certidão de casamento	Extrai detalhes de informações de casamento para candidatos a empréstimos conjuntos.	prebuilt-marriageCertificate
Imposto W-2 dos EUA	Extrai detalhes de remuneração tributável para verificação de imposto de renda.	prebuilt-tax.us.w2

Exemplo de documento de declaração de conclusão de transação processado com o Estúdio de Informação de Documentos:

Captura de tela de um exemplo de declaração de conclusão de transação.

Saiba mais: Modelos de documentos de hipoteca

Contrato

O modelo de contrato analisa e extrai os principais campos e itens de linha de contratos, incluindo partes, jurisdições, ID do contrato e título. Atualmente, o modelo dá suporte a formatos de documento em inglês.

Exemplo de recibo processado usando o Estúdio de Informação de Documentos:

Captura de tela de extração de modelo de Contrato usando o Estúdio de Informação de Documentos.

Saiba mais: modelo de contrato

Fatura

O modelo de fatura automatiza o processamento de faturas para extrair o nome do cliente, o endereço para cobrança, a data de vencimento e o valor devido, os itens de linha e outros dados-chave. Atualmente, o modelo dá suporte a faturas em inglês, espanhol, alemão, francês, italiano, português e holandês.

Exemplo de fatura processada usando o Estúdio de Informação de Documentos:

Saiba mais: modelo de fatura

Receipt

Use o modelo de recibo para digitalizar os recibos de vendas e extrair o nome do comerciante, as datas, os itens de linha, as quantidades e os totais dos recibos impressos e manuscritos. A versão v3.0 também dá suporte a processamento de recibos de hotel de página única.

Exemplo de recibo de processado usando o Estúdio de Informação de Documentos:

Saiba mais: modelo de recibo

ID (Documento de identificação)

Use o modelo de ID (documento de identificação) para processar Carteiras de Habilitação dos EUA (todos os 50 estados e o Distrito de Columbia) e páginas biográficas de passaportes internacionais (excluindo o visto e outros documentos de viagem) para extrair os campos-chave.

Exemplo de carteira de motorista dos EUA processada usando o Estúdio de Informação de Documentos:

Saiba mais: modelo de documento de identidade

Certidão de casamento

Use o modelo de certidão de casamento para processar as certidões de casamento dos EUA a fim de extrair campos-chave, incluindo os indivíduos, a data e o local.

Exemplo de certidão de casamento dos EUA processado com o Estúdio de Informação de Documentos:

Saiba mais: modelo de documento de identidade

Cartão de crédito

Use o modelo de cartão de crédito para processar cartões de crédito e débito a fim de extrair campos-chave.

Exemplo de cartão de crédito processado com o Estúdio de Informação de Documentos:

Saiba mais: modelo de documento de identidade

Modelos personalizados

Os modelos personalizados podem ser amplamente classificados em dois tipos. Modelos de classificação personalizados que dão suporte à classificação de um “tipo de documento” e modelos de extração personalizados que podem extrair um esquema definido de um tipo de documento específico.

Diagrama dos tipos de modelos personalizados e dos modos de build de modelo associados.

Os modelos de documentos personalizados analisam e extraem dados dos documentos e formulários específicos para a empresa. Eles reconhecem os campos de formulário no conteúdo distinto e extrair os pares chave-valor e os dados de tabela. Você só precisa de um exemplo do tipo de formulário para começar.

Os modelos personalizados da versão v3.0 e posteriores dão suporte à detecção de assinatura em modelos personalizados (formulário) e tabelas entre páginas em modelos e em modelos neurais. A detecção de assinatura procura a presença de uma assinatura, não a identidade da pessoa que assina o documento. Se o modelo retornar não assinado em detecção de assinatura, o modelo não encontrou uma assinatura no campo definido.

Exemplo de modelo personalizado processado usando o Estúdio de Informação de Documentos:

Captura de tela da janela da ferramenta Analisar um formulário personalizado da Informação de Documentos.

Saiba mais: modelo personalizado

Extração personalizada

Modelos de extração personalizados podem ser um dos dois tipos, modelo personalizado ou neurais personalizados. Para criar um modelo de extração personalizado, rotule um conjunto de documentos com os valores que deseja extrair e treine o modelo no conjunto de dados rotulado. É necessário somente cinco exemplos do mesmo tipo de formulário ou documento para começar.

Exemplo de extração personalizada processada usando o Estúdio de Informação de Documentos:

Captura de tela da análise de modelo de extração personalizada no Estúdio de Informação de Documentos.

Saiba mais: modelo de modelo personalizado

Saiba mais: modelo neural personalizado

Classificador personalizado

O modelo de classificação personalizado permite que você identifique o tipo de documento antes de invocar o modelo de extração. O modelo de classificação está disponível a partir da API 2023-07-31 (GA). Treinar um modelo de classificação personalizado requer pelo menos duas classes distintas e um mínimo de cinco amostras por classe.

Saiba mais: modelo de classificação personalizado

Modelos compostos

Um modelo composto é criado com uma coleção de modelos personalizados e atribuindo-os a um único modelo criado a partir de tipos de formulário. É possível atribuir vários modelos personalizados a um modelo composto chamado com uma única ID de modelo. Você pode atribuir até 200 modelos personalizados treinados a um único modelo composto.

Janela de diálogo do modelo composto no Estúdio de Informação de Documentos:

Captura de tela da janela de diálogo Compor modelo personalizado do Estúdio de Informação de Documentos.

Saiba mais: modelo personalizado

Requisitos de entrada

Formatos de arquivo com suporte:

Modelar	PDF	Image,: `JPEG/JPG`, `PNG`, `BMP`, `TIFF`, `HEIF`	Microsoft Office: Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Ler	✔	✔	✔
Layout	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
Documento geral	✔	✔
Predefinida	✔	✔
Extração personalizada	✔	✔
Classificação personalizada	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview)

Para ter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de camada gratuita, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para análise de documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 x 10.000 pixels.
Se os PDFs estiverem com bloqueio de senha, você deverá remover o bloqueio antes do envio.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1.024 x 768 pixels. Essa dimensão corresponde a aproximadamente 8 pontos de texto a 150 pontos por polegada (DPI).
Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
- Para o treinamento do modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1 GB para o modelo neural.
- Para o treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é de 1 GB, com um máximo de 10.000 páginas. Para 2024-07-31-preview e versões posteriores, o tamanho total dos dados de treinamento é de 2 GB com um máximo de 10.000 páginas.

Observação

A ferramenta de Rotulagem de Exemplo não é compatível com o formato de arquivo BMP. Essa é uma limitação da ferramenta, não do Serviço de Inteligência de Documentos.

Migração de versão

Saiba como usar a Informação de Documentos v3.0 em seus aplicativos seguindo nosso Guia de migração da Informação de Documentos v3.1

Modelo	Descrição
Análise de documentos
Layout	Extraia informações de texto e layout dos documentos.
Predefinida
Fatura	Extrai informações importantes de faturas em inglês e espanhol.
Receipt	Extrai informações importantes de recibos em inglês.
Documento de identificação	Extrai informações importantes de carteiras de motorista dos EUA e passaportes internacionais.
Cartão de visita	Extrai informações importantes de cartões de visita em inglês.
Personalizado
Personalizado	Extrai dados de formulários e documentos específicos à sua empresa. Os modelos personalizados são treinados para seus dados e casos de uso distintos.
Composto	Componha uma coleção de modelos personalizados e atribua-os a um único modelo criado com base em seus tipos de formulário.