Compor modelos personalizados

Estilo de ênfase

Esse conteúdo se aplica a: marca de seleção v4.0 (versão prévia) | Versões prévias: marca de seleção azul v3.1 (GA) marca de seleção azul v3.0 (GA) marca de seleção azul v2.1 (GA)

Esse conteúdo se aplica a: marca de seleção v3.1 (GA) | Ultima versão: marca de seleção púrpura v4.0 (versão prévia) | Versões prévia: marca de seleção azul v3.0 marca de seleção azul v2.1

Esse conteúdo se aplica a: marca de seleção v3.0 (GA) | Ultimas versões: marca de seleção púrpura v4.0 (versão prévia) marca de seleção púrpura v3.1 | Versões prévia: marca de seleção azul v2.1

Esse conteúdo se aplica a: marca de seleção v2.1 | ais recente: marca de seleção azul v4.0 (versão prévia)

Importante

O comportamento de composição de modelo está mudando para api-version=2024-07-31-preview e posterior, para obter mais informações, consulte modelos personalizados compostos. O comportamento a seguir só se aplica à v3.1 e versões anteriores

Um modelo composto é criado com uma coleção de modelos personalizados e atribuindo-os a uma única ID de modelo. Você pode atribuir até 200 modelos personalizados treinados a um único modelo composto de ID. Quando um documento é enviado para um modelo composto, o serviço executa uma etapa de classificação para decidir qual modelo personalizado representa com precisão o formulário apresentado para análise. Modelos compostos são úteis quando você treina vários modelos e deseja agrupá-los para analisar tipos de formulário semelhantes. Por exemplo, seu modelo composto pode incluir modelos personalizados treinados para analisar suas ordens de compra de suprimentos, equipamentos e móveis. Em vez de tentar selecionar manualmente o modelo apropriado, você pode usar um modelo composto para determinar o modelo personalizado apropriado para cada análise e extração.

Para saber mais, confira Modelos personalizados compostos.

Neste artigo, você aprende como criar e usar modelos personalizados compostos para analisar seus formulários e documentos.

Pré-requisitos

Para começar, você precisa dos seguintes recursos:

  • Uma assinatura do Azure. Você pode criar uma assinatura gratuita do Azure.

  • Uma instância do Document Intelligence. Depois de obter sua assinatura do Azure, crie um recurso da Informação de Documentos no portal do Azure para obter a chave e o ponto de extremidade. Se você tiver um recurso de Informação de Documento existente, navegue diretamente para a página de recursos. Use o tipo de preço gratuito (F0) para experimentar o serviço e atualizar mais tarde para um nível pago para produção.

    1. Após a implantação do recurso, selecione Ir para o recurso.

    2. Copie os valores de Chaves e Ponto de Extremidade do portal do Azure e cole-os em um local viável, como o Bloco de Notas Microsoft. Você precisa dos valores de chave e ponto de extremidade para conectar o aplicativo à API da Informação de Documentos.

Imagem estática mostrando como acessar a chave de recurso e a URL do ponto de extremidade.

Dica

Para obter mais informações, confira Criar um recurso do Document Intelligence.

Criar seus modelos personalizados

Primeiro, é necessário um conjunto de modelos personalizados para compor. Você pode usar o Document Intelligence Studio, a API REST ou bibliotecas de clientes. As etapas são as seguintes:

Reunir seu conjunto de dados de treinamento

A criação de um modelo personalizado começa com o estabelecimento do conjunto de dados de treinamento. Você precisa de um mínimo de cinco formulários do mesmo tipo preenchidos para seu conjunto de dados de amostra. Eles podem ser de tipos de arquivo diferentes (jpg, png, pdf, tiff) e conter texto e manuscrito. Os formulários precisam seguir os requisitos de entrada do Document Intelligence.

Dica

Siga estas dicas para otimizar seu conjunto de dados para treinamento:

  • Se possível, use documentos PDF de texto em vez de documentos baseados em imagem. Os PDFs digitalizados são tratados como imagens.
  • Para formulários preenchidos, use exemplos que tenham todos os campos preenchidos.
  • Use os formulários com diferentes valores em cada campo.
  • Se as imagens de formulário forem de qualidade inferior, use um conjunto de dados maior (10 a 15 imagens, por exemplo).

Confira Criar um conjunto de dados de treinamento para obter dicas sobre como coletar seus documentos de treinamento.

Carregar o conjunto de dados de treinamento

Depois de coletar um conjunto de documentos de treinamento, você precisará carregar seus dados de treinamento em um contêiner de armazenamento de blobs do Azure.

Se você quiser usar dados rotulados manualmente, você tem que carregar os arquivos .labels.json e .ocr.json que correspondam aos seus documentos de treinamento.

Treinar seu modelo personalizado

Quando você treina seu modelo usando dados rotulados, o modelo usa aprendizado supervisionado para extrair os valores de interesse usando os formulários rotulados que você fornece. Os dados rotulados geram modelos de melhor desempenho e podem produzir modelos que funcionam com formulários complexos ou formulários que contêm valores sem chaves.

O Document Intelligence usa a API do modelo de layout predefinido para aprender os tamanhos e as posições esperados dos elementos de texto impressos e manuscritos e extrair tabelas. Em seguida, ele usa rótulos especificados pelo usuário para aprender as associações de chave/valor e as tabelas nos documentos. Recomendamos que você use cinco formulários rotulados manualmente do mesmo tipo (mesma estrutura) para começar ao treinar um novo modelo. Em seguida, adicione mais dados rotulados, conforme necessário, para melhorar a precisão do modelo. O Document Intelligence permite treinar um modelo para extrair pares chave-valor e tabelas usando funcionalidades de aprendizado supervisionado.

Para criar modelos personalizados, comece configurando o projeto:

  1. Na página inicial do Studio, selecione Criar novo no cartão de modelo personalizado.

  2. Use o comando ➕ Criar um projeto para iniciar o assistente de configuração de projeto novo.

  3. Insira os detalhes do projeto, selecione a assinatura e o recurso do Azure e o contêiner de Armazenamento de Blobs do Azure que contém seus dados.

  4. Examine, envie suas configurações e crie o projeto.

Animação mostrando a criação de um projeto personalizado no Document Intelligence Studio.

Ao criar seus modelos personalizados, talvez seja necessário extrair coleções de valores de seus documentos. As coleções podem aparecer em um dos dois formatos. Usando tabelas como o padrão visual:

  • Uma contagem dinâmica ou variável de valores (linhas) para um determinado conjunto de campos (colunas)

  • Uma coleção específica de valores para um determinado conjunto de campos (colunas e/ou linhas)

Confira Document Intelligence Studio: rotulando como tabelas

Criar um modelo composto

Observação

A operação create compose model está disponível somente para modelos personalizados treinados com rótulos. Tentar compor modelos sem rótulo produzirá um erro.

Com a operação criar modelo de composição, você pode atribuir até 100 modelos personalizados treinados para uma única ID de modelo. Ao analisar documentos com um modelo composto, o Document Intelligence classifica primeiro o formulário enviado, escolhe o modelo atribuído com a maior correspondência e retorna resultados para esse modelo. Essa operação é útil quando formulários de entrada podem pertencer a um de vários modelos.

Depois que o processo de treinamento for concluído com êxito, você poderá começar a criar seu modelo composto. Estas são as etapas para criar e usar modelos compostos:

Coletar suas IDs de modelo

Quando você treina modelos usando o Document Intelligence Studio, a ID do modelo está localizada no menu de modelos em um projeto:

Captura de tela da janela de configuração do modelo no Document Intelligence Studio.

Compor seus modelos personalizados

  1. Selecione um projeto de modelos personalizados.

  2. No projeto, selecione o item de menu Models.

  3. Na lista de modelos resultante, selecione os modelos que você deseja compor.

  4. Escolha o botão Compor no canto superior esquerdo.

  5. Na janela pop-up, dê um nome ao novo modelo composto e selecione Compor.

  6. Quando a operação estiver concluída, seu modelo recém-composto aparecerá na lista.

  7. Quando o modelo estiver pronto, use o comando Test para validá-lo com seus documentos de teste e observe os resultados.

Analisar documentos

A operação Analisar do modelo personalizado necessita que você forneça modelID na chamada para o Document Intelligence. Você deve fornecer a ID do modelo composto para o parâmetro modelID em seus aplicativos.

Captura de tela de uma ID do modelo composto no Document Intelligence Studio.

Gerenciar seus modelos compostos

Você pode gerenciar seus modelos personalizados durante os ciclos de vida:

  • Testar e validar novos documentos.
  • Baixe seu modelo para usar em seus aplicativos.
  • Exclua seu modelo quando o ciclo de vida dele for concluído.

Captura de tela de um modelo composto no Document Intelligence Studio

Ótimo! Você aprendeu as etapas para criar modelos personalizados e compostos e usá-los em seus projetos e aplicativos do Document Intelligence.

Próximas etapas

Experimente um de nossos guias de início rápido do Document Intelligence:

C#

O Document Intelligence usa tecnologia avançada de aprendizado de máquina para detectar e extrair informações de imagens de documento e retornar dados extraídos em uma saída JSON estruturada. Com o Document Intelligence, você pode treinar modelos personalizados independentes ou combinar modelos personalizados para criar modelos compostos.

  • Modelos personalizados. Os modelos personalizados do Document Intelligence permitem que você analise e extraia dados de formulários e documentos específicos para sua empresa. Os modelos personalizados são treinados para seus dados e casos de uso distintos.

  • Modelos compostos. Um modelo composto é criado com uma coleção de modelos personalizados e atribuindo-os a um único modelo que abrange os tipos de formulário. Quando um documento é enviado para um modelo composto, o serviço executa uma etapa de classificação para decidir qual modelo personalizado representa com precisão o formulário apresentado para análise.

Neste artigo, saiba como criar modelos personalizados e compostos do Document Intelligence usando nossa ferramenta de Rotulagem de Exemplo de Inteligência de Documento, APIs REST ou bibliotecas de cliente.

Ferramenta de rotulagem de exemplos

Tente extrair dados de formulários personalizados usando nossa ferramenta de Rotulagem de Exemplo. Você precisa dos seguintes recursos:

  • Uma assinatura do Azure – você pode criar uma gratuitamente

  • Uma instância da Informação de Documentos no portal do Azure. Você pode usar o tipo de preço gratuito (F0) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter a chave e o ponto de extremidade.

Captura de tela da localização das chaves e do ponto de extremidade no portal do Azure.

Na interface do usuário do Document Intelligence:

  1. Selecione Usar Personalizado para treinar um modelo com rótulos e obter os pares chave-valor.

Captura de tela da ferramenta 'FOTT' selecione a opção de modelo personalizado.

  1. Na próxima janela, selecione Novo projeto:

Captura de tela da ferramenta 'FOTT' selecione a nova opção de projeto.

Criar seus modelos

As etapas para criar, treinar e usar modelos personalizados e compostos são as seguintes:

Reunir seu conjunto de dados de treinamento

A criação de um modelo personalizado começa com o estabelecimento do conjunto de dados de treinamento. Você precisa de um mínimo de cinco formulários do mesmo tipo preenchidos para seu conjunto de dados de amostra. Eles podem ser de tipos de arquivo diferentes (jpg, png, pdf, tiff) e conter texto e manuscrito. Os formulários precisam seguir os requisitos de entrada do Document Intelligence.

Carregar o conjunto de dados de treinamento

Você precisa de carregar seus dados de treinamento para um contêiner de armazenamento de blob do Azure. Se você não sabe como criar uma conta de armazenamento do Azure com um contêiner, confira o Guia de início rápido do Armazenamento do Azure no portal do Azure. Use o tipo de preço gratuito (F0) para experimentar o serviço e atualizar mais tarde para um nível pago para produção.

Treinar seu modelo personalizado

Você treina seu modelo com conjuntos de dados rotulados. Os conjuntos de dados rotulados dependem da API de layout predefinida, mas a entrada humana suplementar é incluída, como as localizações de campo e rótulos específicos. Comece com pelo menos cinco formulários concluídos do mesmo tipo para seus dados de treinamento rotulados.

Quando você treina usando dados rotulados, o modelo usa aprendizado supervisionado para extrair os valores de interesse usando os formulários rotulados que você fornece. Os dados rotulados geram modelos de melhor desempenho e podem produzir modelos que funcionam com formulários complexos ou formulários que contêm valores sem chaves.

O Document Intelligence usa a API de Layout para aprender os tamanhos e as posições esperados de elementos de texto impressos e manuscritos e extrair tabelas. Em seguida, ele usa rótulos especificados pelo usuário para aprender as associações de chave/valor e as tabelas nos documentos. Recomendamos que você use cinco formulários rotulados manualmente do mesmo tipo (mesma estrutura) para começar ao treinar um novo modelo. Adicione mais dados rotulados, conforme necessário, para melhorar a precisão do modelo. O Document Intelligence permite treinar um modelo para extrair pares chave-valor e tabelas usando funcionalidades de aprendizado supervisionado.

Introdução ao treinamento com rótulos

[!VÍDEO https://video2.skills-academy.com/Shows/Docs-Azure/Azure-Form-Recognizer/player]

Criar um modelo composto

Observação

O Model Compose só está disponível para modelos personalizados treinados com rótulos. Tentar compor modelos sem rótulo produzirá um erro.

Com a operação de Modelo Composto, você pode atribuir até 200 modelos treinados e personalizados a um único modelo de ID. Quando você chamar Analisar com a ID do modelo composto, o Document Intelligence classifica o formulário que você enviou primeiro, escolhe o melhor modelo atribuído correspondente e, em seguida, retorna os resultados para esse modelo. Essa operação é útil quando formulários de entrada podem pertencer a um de vários modelos.

Usando a ferramenta de rotulagem de exemplo do Document Intelligence, a API REST ou as bibliotecas de cliente, siga as etapas para configurar um modelo composto:

  1. Reunir suas IDs de modelo personalizado
  2. Compor seus modelos personalizados

Reunir suas IDs de modelo personalizado

Depois que o processo de treinamento for concluído com êxito, seu modelo personalizado recebe uma ID de modelo. Você pode recuperar uma ID de modelo da seguinte forma:

Quando você treina modelos usando a ferramenta de Rotulagem de Exemplo do Document Intelligence, a ID do modelo está localizada na janela Resultado do Treinamento:

Captura de tela da janela de resultados do treinamento.

Compor seus modelos personalizados

Depois de reunir seus modelos personalizados que correspondem a um único tipo de formulário, você pode redigi-los em um único modelo.

A ferramenta Rotulagem de Exemplo permite que você comece rapidamente a treinar modelos e a compô-los em uma só ID de modelo.

Após a conclusão do treinamento, redigir seus modelos da seguinte maneira:

  1. No menu de trilho à esquerda, selecione o ícone de Composição de modelo (seta mesclando).

  2. Na janela principal, selecione os modelos que você deseja atribuir a uma única ID de modelo. Modelos com o ícone de setas já são modelos compostos.

  3. Escolha o botão Compor no canto superior esquerdo.

  4. Na janela pop-up, dê um nome ao novo modelo composto e selecione Compor.

Quando a operação estiver concluída, seu modelo recém-composto aparecerá na lista.

Captura de tela da janela de composição de modelo.

Analisar documentos com o modelo personalizado

A operação Analisar do formulário personalizado necessita que você forneça modelID na chamada para o Document Intelligence. Você pode fornecer uma única ID de modelo personalizado ou uma ID de modelo composto para o parâmetro modelID.

  1. No menu do painel esquerdo da ferramenta, selecione o Analyze ícone (lâmpada).

  2. Escolha um arquivo local ou uma URL de imagem para análise.

  3. Selecione o botão Executar análise.

  4. A ferramenta aplica rótulos em caixas delimitadoras e relata a porcentagem de confiança para cada rótulo.

Captura de tela da janela da ferramenta Analisar um formulário personalizado da Informação de Documentos.

Teste seus modelos recém-treinados analisando formulários que não fizeram parte do conjunto de dados de treinamento. Dependendo da precisão relatada, talvez você queira realizar mais treinamento para aprimorar o modelo. Você pode continuar a treinar mais para melhorar os resultados.

Gerenciar seus modelos personalizados

Você pode gerenciar seus modelos personalizados ao longo do seu ciclo de vida exibindo uma lista de todos os modelos personalizados na sua assinatura, recuperando informações sobre um modelo personalizado específico e excluindo modelos personalizados de sua conta.

Ótimo! Você aprendeu as etapas para criar modelos personalizados e compostos e usá-los em seus projetos e aplicativos do Document Intelligence.

Próximas etapas

Saiba mais sobre a biblioteca de clientes do Document Intelligence explorando nossa documentação de referência de API.