Recursos de complemento do Document Intelligence

Importante

  • As versões preliminares públicas da Informação de Documentos oferecem acesso antecipado a recursos que estão em desenvolvimento ativo. Recursos, abordagens e processos podem ser alterados, antes da Disponibilidade Geral (GA), com base nos comentários do usuário.
  • A versão de visualização pública das bibliotecas de clientes da Informação de Documentos usa como padrão a versão da API REST 2024-07-31-preview.
  • Atualmente, a versão de visualização pública 2024-07-31-preview só está disponível nas regiões do Azure a seguir. Observe que o modelo generativo personalizado (extração de campos do documento) no Estúdio de IA está disponível somente na região Centro-Norte dos EUA:
    • Leste dos EUA
    • Oeste dos EUA 2
    • Oeste da Europa
    • Centro-Norte dos EUA

Este conteúdo se aplica a: marca de seleção v4.0 (versão prévia) | Versões anteriores: marca de seleção azul v3.1 (GA)

Este conteúdo se aplica a: marca de seleção v3.1 (GA) | Versão mais recente: marca de seleção púrpura v4.0 (versão prévia)

Observação

Os recursos de complemento estão disponíveis em todos os modelos, exceto no modelo de cartão de Negócios.

Funcionalidades

A Informação de Documentos agora dá suporte a recursos de análise mais sofisticados e modulares. Use os recursos de complemento para estender os resultados para incluir mais recursos extraídos de seus documentos. Alguns recursos de complemento incorrem em um custo extra. Esses recursos opcionais podem ser habilitados e desabilitados dependendo do cenário de extração de documentos. Para habilitar um recurso, adicione o nome do recurso associado à propriedade features da cadeia de caracteres da consulta. Você pode habilitar mais de um recurso complementar em uma solicitação ao fornecer uma lista de recursos separada por vírgulas. Os seguintes recursos complementares estão disponíveis para a versão 2023-07-31 (GA) e posteriores.

Para a versão 2024-07-31-preview e posterior, o modelo de Leitura dá suporte à saída de PDF pesquisável:

Observação

  • Nem todas as funcionalidades complementares têm suporte para todos os modelos. Para obter mais informações, confira extração de dados do modelo.

  • Atualmente, não há suporte para recursos de complemento dos tipos de arquivo do Microsoft Office.

O Document Intelligence dá suporte a recursos opcionais que podem ser habilitados e desabilitados dependendo do cenário de extração de documentos. Os seguintes recursos complementares estão disponíveis para a versão 2023-10-31-preview e posteriores:

Observação

A implementação dos campos de consulta na API de 30/10/2023 versão prévia é diferente da última versão prévia. A nova implementação é mais barata e funciona bem com documentos estruturados.

Disponibilidade de versão

Capacidade de complemento Complemento/gratuito 2024-02-29-preview 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Extração de propriedade de fonte Complemento ✔️ ✔️ N/D N/D
Extração de fórmulas Complemento ✔️ ✔️ N/D N/D
Extração de alta resolução Complemento ✔️ ✔️ N/D N/D
Extração de código de barras Grátis ✔️ ✔️ N/D N/D
Detecção de idioma Grátis ✔️ ✔️ N/D N/D
Pares chave-valor Grátis ✔️ N/D N/D N/D
Campos de consulta Complemento* ✔️ N/D N/D N/D

✱ Complemento: os campos de consulta têm um preço diferente dos outros recursos complementares. Para obter detalhes, confira os preços.

Formatos de arquivo com suporte

  • PDF

  • Imagens: JPEG/JPG, PNG, BMP, TIFF, HEIF

✱ Atualmente, não há suporte para arquivos do Microsoft Office.

Extração de alta resolução

A tarefa de reconhecer textos pequenos de documentos de grande porte, como desenhos de engenharia, é um desafio. Geralmente, o texto é misturado com outros elementos gráficos e tem fontes, tamanhos e orientações variados. Além disso, o texto pode ser dividido em partes separadas ou conectado a outros símbolos. A Informação de Documentos agora dá suporte à extração de conteúdo desses tipos de documentos com a funcionalidade ocr.highResolution. Você obtém uma qualidade aprimorada da extração de conteúdo de documentos A1/A2/A3 habilitando essa funcionalidade de complemento.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Extração de fórmulas

A funcionalidade ocr.formula extrai todas as fórmulas identificadas, como equações matemáticas, na coleção formulas como um objeto de nível superior em content. Dentro de content, as fórmulas detectadas são representadas como :formula:. Cada entrada nesta coleção representa uma fórmula que inclui o tipo de fórmula como inline ou display, e sua representação LaTeX como value junto com suas coordenadas polygon. Inicialmente, fórmulas aparecem no final de cada página.

Observação

A pontuação confidence é codificada.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Extração de propriedade de fonte

A funcionalidade ocr.font extrai todas as propriedades de fonte do texto extraído na coleção styles como um objeto de nível superior em content. Cada objeto de estilo especifica uma única propriedade de fonte, o intervalo de texto ao qual ele se aplica e sua pontuação de confiança correspondente. A propriedade de estilo existente é estendida com mais propriedades de fonte, como similarFontFamily para a fonte do texto, fontStyle para estilos como itálico e normal, fontWeight para negrito ou normal, color para cor do texto e backgroundColor para a cor da caixa delimitadora de texto.

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Extração de propriedade de código de barras

O recurso ocr.barcode extrai todos os códigos de barras identificados na coleção barcodes como um objeto de nível superior em content. Dentro do content, os códigos de barras detectados são representados como :barcode:. Cada entrada nesta coleção representa um código de barras e inclui o tipo de código de barras como kind e o conteúdo do código de barras inserido como value, juntamente com suas coordenadas polygon. Inicialmente, os códigos de barras aparecem no final de cada página. O confidence é codificado como 1.

Tipos de código de barras com suporte

Tipo de código de barras Exemplo
QR Code Captura de tela do Código QR.
Code 39 Captura de tela do Código 39.
Code 93 Captura de tela do Código 93.
Code 128 Captura de tela do Código 128.
UPC (UPC-A & UPC-E) Captura de tela do UPC.
PDF417 Captura de tela do PDF417.
EAN-8 Captura de tela do código de barras EAN-8 (European Article Number).
EAN-13 Captura de tela do código de barras EAN-13 (European Article Number).
Codabar Captura de tela do Codabar.
Databar Captura de tela da Barra de dados.
Databar Expandido Captura de tela da Barra de dados expandida.
ITF Captura de tela do código de barras intercalado dois de cinco (ITF).
Data Matrix Captura de tela da Matriz de Dados.
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Detecção de idioma

Adicionar o recurso languages à solicitação analyzeResult prevê o idioma principal detectado para cada linha de texto junto com a confidence na coleção de languages em analyzeResult.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

PDF Pesquisável

A funcionalidade do PDF pesquisável permite que você converta um PDF analógico, como arquivos PDF de imagem digitalizada, em um PDF com texto inserido. O texto inserido habilita a pesquisa de texto profundo no conteúdo extraído do PDF sobrepondo as entidades de texto detectadas sobre os arquivos de imagem.

Importante

  • Atualmente, a funcionalidade do PDF pesquisável só tem suporte pelo modelo OCR de Leitura prebuilt-read. Ao usar esse recurso, especifique o modelId como prebuilt-read, pois outros tipos de modelo retornarão o erro para essa versão de visualização.
  • O PDF pesquisável está incluído no modelo 2024-07-31-preview prebuilt-read sem custo de uso para o consumo geral do PDF.

Usar o PDF pesquisável

Para usar o PDF pesquisável, faça uma solicitação POST usando a operação Analyze e especifique o formato de saída como pdf:


POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202

Depois que a operação de Analyze for concluída, faça uma solicitação GET para recuperar os resultados da operação Analyze.

Após a conclusão bem-sucedida, o PDF pode ser recuperado e baixado como application/pdf. Essa operação permite o download direto do formulário de texto inserido do PDF em vez de do JSON codificado em Base64.


// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}

// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf

Pares de chave-valor

Em versões anteriores da API, o modelo prebuilt-document extraía pares chave-valor de formulários e documentos. Com o acréscimo do recurso keyValuePairs ao layout predefinido, o modelo de layout agora produz os mesmos resultados.

Pares de chave-valor são spans específicos dentro do documento que identificam um rótulo ou chave e sua resposta ou valor associado. Em um formulário estruturado, esses pares poderiam ser o rótulo e o valor que o usuário inseriu no campo. Em um documento não estruturado, poderiam ser a data em que um contrato foi executado com base no texto em um parágrafo. O modelo de AI é treinado para extrair chaves e valores identificáveis com base em uma ampla variedade de tipos de documento, formatos e estruturas.

As chaves também podem existir isoladamente quando o modelo detecta que existe uma chave, sem valor associado ou ao processar campos opcionais. Por exemplo, um campo de nome do meio pode ser deixado em branco em um formulário em algumas instâncias. Pares de chave-valor são intervalos de texto contidos no documento. Para documentos em que o mesmo valor é descrito de maneiras diferentes, por exemplo, cliente/usuário, a chave associada é cliente ou usuário (com base no contexto).

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Campos de consulta

Os campos de consulta são um recurso complementar destinado a ampliar o esquema extraído de qualquer modelo predefinido ou definir um nome de chave específico quando o nome da chave for variável. Para usar campos de consulta, defina os recursos para queryFields e forneça uma lista separada por vírgulas de nomes de campo na propriedade queryFields.

  • A Informação de Documentos agora dá suporte ás extrações de campo de consulta. Com a extração de campo de consulta, é possível adicionar campos ao processo de extração usando uma solicitação de consulta sem a necessidade de treinamento adicional.

  • Use os campos de consulta quando precisar estender o esquema de um modelo predefinido ou personalizado ou precisar extrair alguns campos com a saída do layout.

  • Os campos de consulta são uma funcionalidade de complemento premium. Para obter melhores resultados, defina os campos que deseja extrair usando nomes de campo em letras maiúsculas ou minúsculas para nomes de campo com várias palavras.

  • Os campos de consulta dão suporte a um máximo de 20 campos por solicitação. Se o documento contiver um valor para o campo, o campo e o valor serão retornados.

  • Esta versão tem uma nova implementação da funcionalidade de campos de consulta que tem um preço menor que a implementação anterior e deve ser validada.

Observação

A extração de campo do Document Intelligence Studio está disponível atualmente com os modelos Layout e Predefinidos 2024-02-29-preview 2023-10-31-preview API e versões posteriores, exceto para os modelos US tax (modelos W2, 1098s e 1099s).

Extração de campo de consulta

Para realizar a extração de campo de consulta, especifique os campos que deseja extrair e a Informação de Documentos analisará o documento adequadamente. Veja um exemplo:

  • Se você estiver processando um contrato no Estúdio da Informação de Documentos, use as versões 2024-02-29-preview ou 2023-10-31-preview:

    Captura de tela do botão de campo de consulta do Estúdio de Informação de Documentos.

  • Você pode passar uma lista de rótulos de campo como Party1, Party2, TermsOfUse, PaymentTerms, PaymentDate e TermEndDate como parte da solicitação de analyze document.

    Captura de tela da janela de seleção de campos de consulta no Estúdio de Informação de Documentos.

  • A Informação de Documentos pode analisar e extrair os dados de campo e retornar os valores em uma saída JSON estruturada.

  • Além dos campos de consulta, a resposta inclui texto, tabelas, marcas de seleção e outros dados relevantes.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Próximas etapas

Exemplos de SDK: Python

Confira mais exemplos: Recursos de complemento

Confira mais exemplos: Recursos de complemento