Modelo de recibo da Informação de Documentos
Importante
- As versões preliminares públicas da Informação de Documentos oferecem acesso antecipado a recursos que estão em desenvolvimento ativo. Recursos, abordagens e processos podem ser alterados, antes da Disponibilidade Geral (GA), com base nos comentários do usuário.
- A versão de visualização pública das bibliotecas de clientes da Informação de Documentos usa como padrão a versão da API REST 2024-07-31-preview.
- Atualmente, a versão de visualização pública 2024-07-31-preview só está disponível nas regiões do Azure a seguir. Observe que o modelo generativo personalizado (extração de campos do documento) no Estúdio de IA está disponível somente na região Centro-Norte dos EUA:
- Leste dos EUA
- Oeste dos EUA 2
- Oeste da Europa
- Centro-Norte dos EUA
Esse conteúdo se aplica a: v4.0 (versão prévia) | Versões prévias: v3.1 (GA) v3.0 (GA) v2.1 (GA)
Esse conteúdo se aplica a: v3.1 (GA) | Ultima versão: v4.0 (versão prévia) | Versões prévia: v3.0 v2.1
Esse conteúdo se aplica a: v3.0 (GA) | Ultimas versões: v4.0 (versão prévia) v3.1 | Versões prévia: v2.1
Esse conteúdo se aplica a: v2.1 | ais recente: v4.0 (versão prévia)
O modelo de recibo da Informação de Documentos combina recursos avançados de OCR (Reconhecimento Óptico de Caracteres) com modelos de aprendizado profundo para analisar e extrair informações importantes dos recibos de vendas. Os recibos podem ser de vários formatos e qualidade, incluindo recibos impressos e manuscritos. A API extrai informações importantes, como o nome do comerciante, o número de telefone do comerciante, a data da transação, o imposto e o total da transação e retorna os dados JSON estruturados.
Tipos de recibo com suporte:
- Térmico
- Cartão de crédito
- Gasolina
- Estacionamento
- Hotel
- Transporte
- Comunicação
- Entretenimento
- Voo
- Treinamento
- Farmácia/Médico
Extração de dados de recibo
A digitalização de recibos abrange a transformação de vários tipos de recibos, incluindo cópias digitalizadas, fotografadas e impressas, em um formato digital para processamento downstream simplificado. Os exemplos incluem gerenciamento de despesas, análise de comportamento do consumidor, automação de impostos etc. O uso da Informação de Documentos com a tecnologia OCR (Reconhecimento Óptico de Caracteres) pode extrair e interpretar dados desses diversos formatos de recibo. O processamento da Informação de Documentos simplifica o processo de conversão, mas também reduz significativamente o tempo e o esforço necessários, facilitando assim o gerenciamento e a recuperação de dados eficientes.
Recibo de exemplo processado com o Estúdio da Informação de Documentos:
Recibo de exemplo processado com a Ferramenta de rotulagem de exemplo da Informação de Documentos:
Opções de desenvolvimento
A Informação de Documentos v4.0 (2024-07-31-preview) dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
Recurso | Recursos | ID do Modelo |
---|---|---|
Modelo de recibo | • Estúdio da Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript |
prebuilt-receipt |
A Informação de Documentos v3.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
Recurso | Recursos | ID do Modelo |
---|---|---|
Modelo de recibo | • Estúdio da Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript |
prebuilt-receipt |
A Informação de Documentos v3.0 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
Recurso | Recursos | ID do Modelo |
---|---|---|
Modelo de recibo | • Estúdio da Informação de Documentos • API REST • SDK do C# • SDK do Python • SDK do Java • SDK do JavaScript |
prebuilt-receipt |
O Document Intelligence v2.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
Recurso | Recursos |
---|---|
Modelo de recibo | ● Ferramenta de rotulagem da Informação de Documentos • API REST • SDK da biblioteca de clientes • Contêiner do Docker da Informação de Documentos |
Requisitos de entrada
Formatos de arquivo com suporte:
Modelar PDF Image,: JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLLer ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Documento geral ✔ ✔ Predefinida ✔ ✔ Extração personalizada ✔ ✔ Classificação personalizada ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) Para ter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de camada gratuita, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para análise de documentos é de 500 MB para a camada paga (S0) e
4
MB para a camada gratuita (F0).As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 x 10.000 pixels.
Se os PDFs estiverem com bloqueio de senha, você deverá remover o bloqueio antes do envio.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1.024 x 768 pixels. Essa dimensão corresponde a aproximadamente
8
pontos de texto a 150 pontos por polegada (DPI).Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Para o treinamento do modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e
1
GB para o modelo neural.Para o treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é de
1
GB, com um máximo de 10.000 páginas. Para a visualização de 31/07/2024 e posteriores, o tamanho total dos dados de treinamento é de2
GB com um máximo de 10.000 páginas.
- Formatos de arquivo com suporte: JPEG, PNG, PDF e TIFF.
- Permissão de página com suporte para PDF e TIFF, a Informação de Documentos s pode processar até 2.000 mil páginas para assinantes da camada Standard ou apenas as duas primeiras páginas para assinantes da camada gratuita.
- Tamanho do arquivo com suporte: inferior a 50 MB; mínimo de pixels 50 x 50 px; máximo de pixels: 10.000 x 10.000 px.
Extração de dados do modelo de recibo
Veja como a Informação de Documentos extrai dados dos recibos, incluindo a hora e a data das transações, as informações do comerciante e os valores totais. Você precisa dos seguintes recursos:
Uma assinatura do Azure — você pode criar uma gratuitamente.
Uma instância da Informação de Documentos no portal do Azure. Você pode usar o tipo de preço gratuito (
F0
) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter a chave e o ponto de extremidade.
Observação
O Estúdio da Informação de Documentos está disponível com APIs v3.1 e v3.0 e versões posteriores.
Na home page do Estúdio da Informação de Documentos, selecione Recibos.
Você pode analisar o documento de amostra ou carregar seus próprios arquivos.
Selecione o botão Executar análise e, se necessário, configure as opções Analisar :
Ferramenta de Rotulagem de Amostra da Informação de Documentos
Navegue até a Ferramenta de Exemplo da Informação de Documentos.
Na página inicial da ferramenta de exemplos, selecione o bloco Usar modelo predefinido para obter dados.
Selecione o Tipo de Formulário que deseja analisar no menu suspenso.
Escolha um URL para o arquivo que você gostaria de analisar, usando as opções abaixo:
No campo Origem , selecione URL no menu suspenso, cole a URL selecionada e selecione o botão Buscar.
No campo Ponto de extremidade do serviço Informação de Documentos, cole o ponto de extremidade obtido com a assinatura da Informação de Documentos.
No campo chave, cole a chave obtida do recurso Informação de Documentos.
Selecione Executar análise. A ferramenta de rotulagem de exemplo da Informação de Documentos chamará a API predefinida Analisar e analisará o documento.
Veja os resultados: confira os pares chave-valor extraídos, os itens de linha, o texto realçado extraído e as tabelas detectadas.
Observação
A ferramenta de Rotulagem de Exemplo não é compatível com o formato de arquivo BMP. Essa é uma limitação da ferramenta, não do Serviço de Inteligência de Documentos.
Idiomas e localidades com suporte
Para obter uma lista completa de idiomas com suporte, consulte nossa página de suporte à linguagem de modelos predefinidos.
Extração de campo
Nome | Tipo | Descrição | Saída padronizada |
---|---|---|---|
ReceiptType | String | Tipo de recibo de vendas | Itemizado |
MerchantName | String | Nome do comerciante que está emitindo o recibo | |
MerchantPhoneNumber | phoneNumber | Número de telefone listado do comerciante | +1 xxx xxx xxxx |
MerchantAddress | String | Endereço listado do comerciante | |
Data da transação | Data | Data em que o recibo foi emitido | aaaa-mm-dd |
TransactionTime | Hora | Hora em que o recibo foi emitido | hh-mm-ss (24 horas) |
Total | Número (USD) | Total de transações completas do recibo | Float com duas casas decimais |
Subtotal | Número (USD) | Subtotal do recibo, geralmente antes da aplicação de impostos | Float com duas casas decimais |
Imposto | Número (USD) | Imposto total no recibo (geralmente imposto sobre vendas ou equivalente). Renomeado para "TotalTax" na versão 2022-06-30-preview. | Float com duas casas decimais |
Dica | Número (USD) | Gorjeta incluída pelo comprador | Float com duas casas decimais |
Itens | Matriz de objetos | Itens de linha extraídos, com nome, quantidade, preço unitário e preço total extraído | |
Nome | String | Descrição do item. Renomeado para "Description" na versão 2022-06-30. | |
Quantidade | Número | Quantidade de cada item | Float com duas casas decimais |
Preço | Número | Preço individual de cada unidade de item | Float com duas casas decimais |
TotalPrice | Número | Preço total do item de linha | Float com duas casas decimais |
Para campos de extração de documentos com suporte, consulte a página esquema de modelo de recibo em nosso repositório de exemplo do GitHub.
Guia de migração e API REST v3.1
- Siga nosso Guia de migração da Informação de Documentos v3.1 para saber como usar a versão v3.1 prévia em seus aplicativos e fluxos de trabalho.
Próximas etapas
Experimente processar seus próprios formulários e documentos com o Estúdio da Informação de Documentos.
Execute um início rápido do serviço Informação de Documentos e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.
Tente processar seus próprios formulários e documentos com a ferramenta Rotulagem de Amostra da Informação de Documentos.
Execute um início rápido do serviço Informação de Documentos e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.