Extração de campo de documento - modelo de IA generativo personalizado

Importante

  • As versões de visualização pública do Document Intelligence fornecem acesso antecipado a recursos que estão em desenvolvimento ativo. Recursos, abordagens e processos podem mudar, antes da Disponibilidade Geral (GA), com base nos comentários dos usuários.
  • A versão de visualização pública das bibliotecas de cliente do Document Intelligence predefine a versão 2024-07-31-preview da API REST e está atualmente disponível apenas nas seguintes regiões do Azure.
    • E.U.A. Leste
    • Centro-Norte dos EUA

O modelo de extração de campo de documento (IA generativa personalizada) utiliza IA generativa para extrair campos especificados pelo usuário de documentos em uma ampla variedade de modelos visuais. O modelo de IA generativa personalizada combina o poder da compreensão de documentos com Large Language Models (LLMs) e o rigor e o esquema dos recursos de extração personalizada para criar um modelo com alta precisão em minutos. Com esse tipo de modelo generativo, você pode começar com um único documento e passar pelo processo de adição de esquema e criação de modelo com rotulagem mínima. O modelo generativo personalizado permite que desenvolvedores e empresas automatizem facilmente fluxos de trabalho de extração de dados com maior precisão e velocidade para qualquer tipo de documento. O modelo de IA generativa personalizado se destaca na extração de campos simples de documentos sem amostras rotuladas. No entanto, fornecer algumas amostras rotuladas melhora a precisão de extração para campos complexos e campos definidos pelo usuário, como tabelas. Você pode usar a API REST ou bibliotecas de cliente para enviar um documento para análise com uma compilação de modelo e usar o processo generativo personalizado.

Benefícios do modelo de IA generativa personalizada

  • Etiquetagem automática. Utilize modelos de linguagem grandes (LLM) e extraia campos especificados pelo usuário para vários tipos de documentos e modelos visuais.

  • Melhoria da generalização. Extraia dados de dados não estruturados e modelos de documentos variados com maior precisão.

  • Resultados fundamentados. Localize os dados extraídos nos documentos. Modelos generativos personalizados fundamentam os resultados quando aplicável, garantindo que a resposta seja gerada a partir do conteúdo e permitam fluxos de trabalho de revisão humana.

  • Escores de confiança. Use pontuações de confiança para cada campo extraído para, filtrar dados extraídos de alta qualidade, maximizar o processamento direto de documentos e minimizar os custos de revisão humana.

Casos comuns de utilização

  • Gestão do Ciclo de Vida do Contrato. Crie um modelo generativo e extraia os campos, cláusulas e obrigações de uma ampla gama de tipos de contrato.

  • pedidos de empréstimo e hipoteca. A automatização do processo de pedido de empréstimo e hipoteca permite que bancos, credores e entidades governamentais processem rapidamente pedidos de empréstimo e hipoteca.

  • Serviços financeiros. Com o modelo de IA generativa personalizado, analise documentos complexos, como relatórios financeiros e relatórios de gerenciamento de ativos.

  • Gestão de despesas. Recibos e faturas de vários varejistas e empresas precisam ser analisados para validar as despesas. O modelo de IA generativa personalizada pode extrair despesas em diferentes formatos e documentos com modelos variados.

Gerenciando o conjunto de dados de treinamento

Com nossos outros modelos personalizados, você precisa manter o conjunto de dados, adicionar novas amostras e treinar o modelo para melhorias de precisão. Com o modelo de IA generativa personalizado, os documentos rotulados são transformados, criptografados e armazenados como parte do modelo. Este processo garante que o modelo possa usar continuamente as amostras rotuladas para melhorar a qualidade da extração. Tal como acontece com outros modelos personalizados, os modelos são armazenados no armazenamento da Microsoft e pode eliminá-los a qualquer momento.

O serviço Document Intelligence gerencia seus conjuntos de dados, mas seus documentos são armazenados criptografados e usados apenas para melhorar os resultados do modelo específico. Uma chave gerenciada pelo serviço pode ser usada para criptografar seus dados ou, opcionalmente, pode ser criptografada com uma chave gerenciada pelo cliente. A alteração no gerenciamento e no ciclo de vida do conjunto de dados só se aplica a modelos generativos personalizados.

Capacidades do modelo

O modelo generativo personalizado de extração de campo atualmente suporta tabela dinâmica com os 2024-07-31-preview seguintes campos:

Campos de formulário Marcas de seleção Campos tabulares Assinatura Rotulagem de regiões Campos sobrepostos
Suportado Suportado Suportado Não suportado Não suportado Suportado

Modo de construção

A build custom model operação suporta modelos personalizados, neurais e generativos, consulteModo de construção de modelo personalizado. Aqui estão as diferenças nos tipos de modelo:

  • Os modelos de IA generativa personalizados podem processar documentos complexos com vários formatos, modelos variados e dados não estruturados.

  • Os modelos neurais personalizados suportam processamento de documentos complexos e também suportam mais variância nas páginas para documentos estruturados e semiestruturados.

  • Os modelos de modelo personalizados dependem de modelos visuais consistentes, como questionários ou aplicativos, para extrair os dados rotulados.

Suporte a idiomas e localidades

A versão do modelo 2024-07-31-preview generativo personalizado de extração de campo suporta a localidade en-us . Para obter mais informações sobre suporte a idiomas, consulte Suporte a idiomas - modelos personalizados.

Suporte de região

A versão do modelo 2024-07-31-preview generativo personalizado de extração de campo só está disponível em 'Leste dos EUA' e North Central US.  

Requisitos de entrada

  • Formatos de ficheiro suportados:

    Modelo PDF Imagem:
    JPEG/JPG, PNG, BMP, TIFF, , HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Lida
    Esquema ✔ (2024-07-31-pré-visualização, 2024-02-29-pré-visualização, 2023-10-31-pré-visualização)
    Documento Geral
    Pré-criado
    Extração personalizada
    Classificação personalizada ✔ (2024-07-31-pré-visualização, 2024-02-29-pré-visualização)
  • Para obter melhores resultados, forneça uma foto nítida ou uma digitalização de alta qualidade por documento.

  • Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas).

  • O tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).

  • As dimensões da imagem devem estar entre 50 pixels x 50 pixels e 10.000 pixels x 10.000 pixels.

  • Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.

  • A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Esta dimensão corresponde a cerca 8 de texto pontual a 150 pontos por polegada (DPI).

  • Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.

    • Para o treinamento do modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1 GB para o modelo neural.

    • Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é 1 GB com um máximo de 10.000 páginas. Para 2024-07-31-preview e posterior, o tamanho total dos dados de treinamento é 2 GB com um máximo de 10.000 páginas.

Melhores práticas

  • Dados representativos. Use documentos representativos que visam a distribuição de dados real e treine um modelo generativo personalizado de alta qualidade. Por exemplo, se o documento de destino incluir campos tabulares parcialmente preenchidos, adicione documentos de treinamento que consistam em tabelas parcialmente preenchidas. Ou se o campo for nomeado data, os valores para este campo devem ser uma data, pois cadeias de caracteres aleatórias podem afetar o desempenho do modelo.

  • Nomenclatura de campos. Escolha um nome de campo preciso que represente os valores de campo. Por exemplo, para um valor de campo que contém a Data da Transação, considere nomear o campo Data da Transação em vez de Date1.

  • Descrição do campo. Forneça mais informações contextuais na descrição para ajudar a esclarecer o campo que precisa ser extraído. Os exemplos incluem a localização no documento, possíveis rótulos de campo aos quais ele pode ser associado e maneiras de diferenciar com outros termos que podem ser ambíguos.

  • Variação. Os modelos generativos personalizados podem generalizar entre diferentes modelos de documentos do mesmo tipo de documento. Como prática recomendada, crie um modelo único para todas as variações de um tipo de documento. Para melhorar a precisão e consistência do modelo na geração ou processamento de documentos, inclua um modelo visual para cada tipo, particularmente aqueles que exigem formatação específica e/ou elementos estruturais.

Orientação de serviço

  • Atualmente, o modelo de visualização Generativa Personalizada não oferece suporte à extração fixa de tabelas e assinaturas.

  • A inferência no mesmo documento pode produzir resultados ligeiramente diferentes entre as chamadas e é uma limitação conhecida dos modelos atuais GPT .

  • As pontuações de confiança para cada campo podem variar. Recomendamos testar com seus dados representativos para estabelecer os limites de confiança para seu cenário.

  • O aterramento, especialmente para campos tabulares, é desafiador e pode não ser perfeito em alguns casos.

  • A latência para documentos grandes é alta e uma limitação conhecida na visualização.

  • Os modelos compostos não suportam extração generativa personalizada.

Formar um modelo

Modelos generativos personalizados estão disponíveis com a 2024-07-31-preview versão e modelos posteriores.

O build operation modelo to train suporta a buildMode propriedade, para treinar um modelo generativo personalizado, defina o buildMode como generative.


https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "generative",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Próximos passos