Como processar conteúdos com o Syntex

Concluído

Presumivelmente, tal como a Contoso Electronics, a sua organização já tem vários documentos e quer saber como utilizar o Syntex para otimizar o processo de processamento dos mesmos. Esta unidade descreve como o Syntex irá ajudá-lo com as fases 2, 3 e 4 do ciclo de vida do conteúdo: classificar conteúdo, extrair metadados e aplicar etiquetagem através da lente da Contoso Electronics.

Diagrama de um ciclo de vida de conteúdo típico com a fase 2, 3 e 4 realçada como processamento de conteúdos do Syntex.

Irá aprender:

  • Tipos de modelos de processamento de documentos fornecidos pela Syntex
  • Funcionalidades, requisitos e restrições de cada modelo
  • Um processo típico de análise de necessidades, configuração e preparação de um modelo

Antes de começarmos, recomendamos que configure o "modelo de site de equipa de gestão de Contratos do SharePoint" no seu site do SharePoint. Com este modelo, pode praticar juntamente com ficheiros de exemplo, modelos, bibliotecas e modelos incluídos neste modelo.

Captura de ecrã a mostrar a seleção do modelo de gestão de contratos.

Modelos de processamento de documentos

A compreensão de conteúdos no Microsoft Syntex começa com modelos de processamento de documentos. Os modelos de processamento de documentos permitem-lhe identificar e classificar documentos carregados para bibliotecas de documentos do SharePoint e, em seguida, extrair as informações de que precisa de cada ficheiro. Dependendo das funcionalidades e finalidades dos documentos, o Syntex fornece-lhe diferentes modelos para processar os documentos. Existem duas categorias de modelos de processamento de documentos: modelos pré-criados e modelos personalizados.

Vejamos os principais factos dos modelos em cada categoria.

Modelos predefinidos

Em primeiro lugar, a Syntex inclui três modelos pré-criados : modelo de contratos, modelo de faturas e modelo de recibos, respetivamente, para analisar e extrair informações importantes de documentos de contratos, processar faturas de vendas e recibos de vendas. Estes modelos pré-criados são pré-configurados e pré-preparados. Em vez de começar do zero para criar o modelo, pode começar por analisar um ficheiro relativamente ao modelo pré-criado e identificar os campos que pretende extrair. Ambos os modelos funcionam em ficheiros nos seguintes tipos de ficheiro: .bmp, .jpeg, .pdf, .png e .tiff.

Processamento de contratos

O modelo de processamento de contratos analisa e extrai informações importantes de documentos contratuais. O modelo de processamento de contratos pré-criado reconhece contratos em vários formatos e extrai informações do contrato de chave, como o nome e endereço do cliente, a duração do contrato e a data de renovação.

Processamento de faturas

O modelo de processamento de faturas processa faturas para extrair informações de chave. O modelo de processamento de faturas pré-criado funciona em documentos PDF e ficheiros de imagem, mas suporta apenas faturas em inglês dos Estados Unidos.

Processamento de recibos

Utilize o modelo de processamento de recibos para obter informações importantes de recibos impressos ou manuscritos. Este modelo de processamento de recibos pré-criado funciona em documentos PDF e ficheiros de imagem, mas só suporta recibos de vendas em inglês da Austrália, Canadá, Grã-Bretanha, Índia e Estados Unidos.

Utilizar modelos pré-criados

Para utilizar modelos pré-criados, comece por criar o modelo. Em seguida, carregue um ficheiro de exemplo para comparar com o modelo pré-criado. Tem de indicar ao modelo que informações devem ser extraídas do documento (selecionar extratores). Depois de selecionar extratores, pode guardar o modelo e aplicá-lo à biblioteca de documentos. Os dados principais extraídos pelos extratores são apresentados na biblioteca de documentos.

Modelos personalizados

Mais frequentemente, os seus documentos não são contratos, faturas e recibos. Tem de criar modelos personalizados para processar estes documentos. Existem três tipos de modelos personalizados: modelo de processamento de documentos estruturado, modelo de processamento de documentos de forma livre e modelo de processamento de documentos não estruturado. Cada um funciona melhor com determinados tipos de documentos em termos de estrutura de informações, formato de ficheiro e idioma suportado. Os custos, os requisitos para utilizar cada modelo e os esforços para configurar também variam consoante o tipo de modelo.

Modelo de processamento de documentos estruturados

Um modelo de processamento de documentos estruturado funciona melhor quando as informações no documento são armazenadas num formato de tabela, como formulários e faturas. Este modelo personalizado funciona em documentos PDF e ficheiros de imagem. Suporta uma vasta gama de idiomas e utiliza o método de esquema para classificar e extrair informações.

Modelo de processamento de documentos de forma livre

Um modelo de processamento de documentos de forma livre funciona melhor em documentos não estruturados e de forma livre em que os formatos podem ser diferentes, mas existem conteúdos semelhantes em todos os documentos. Este modelo personalizado funciona em documentos PDF e ficheiros de imagem, mas atualmente só suporta documentos em inglês. Este modelo utiliza o método de seleção de forma livre para classificar e extrair informações.

Observação

Tanto o processamento de documentos estruturados como os modelos de processamento de documentos de forma livre dependem do Power Platform. Poderá querer verificar a disponibilidade do Power Platform antes de decidir utilizar estes dois modelos. Ambos os modelos requerem créditos do AI Builder. Cada "seat" licenciado da Microsoft Syntex inclui 3500 créditos com a opção de comprar mais, se necessário.

Modelo de processamento de documentos não estruturados

Se os seus documentos tiverem várias estruturas de conteúdo, mas contiverem informações de chave semelhantes, deve considerar a utilização do modelo de processamento de documentos não estruturado. Entre os três modelos personalizados, o modelo de processamento de documentos não estruturado suporta a maior variedade de tipos de documentos. Este modelo suporta os idiomas baseados no latim, incluindo inglês, francês, alemão, italiano e espanhol. Utiliza o método de ensino para preparar os ficheiros. O modelo de processamento de documentos não estruturado está disponível em todas as regiões.

O vídeo seguinte fornece uma descrição geral rápida sobre o que é um modelo de processamento de documentos não estruturado:

Todos os modelos

Para todos os modelos, primeiro tem de carregar um ou vários ficheiros de exemplo para preparar o modelo. No entanto, diferentes modelos utilizam métodos de preparação diferentes e suportam diferentes conjuntos de tipos de documentos e idiomas. Além disso, para alguns modelos, tem de considerar que podem não funcionar em determinadas regiões, se o Power Platform e o AI Builder não estiverem disponíveis na região. Veja mais detalhes sobre os requisitos e limitações de cada modelo de processamento de documentos.

Lembre-se:

  • Os modelos criados centralmente são conhecidos como modelos empresariais e localmente como modelos locais.
  • Pode aplicar modelos empresariais a múltiplas bibliotecas, ao passo que só pode aplicar modelos locais a uma única biblioteca.
  • Se um modelo tiver uma classificação de confiança baixa, carregue ficheiros de exemplo adicionais e volte a preparar o modelo.

Antes de começar a criar modelos

  • Pense nas informações necessárias para extrair.
  • Se atualizar um modelo estruturado ou livre de Syntex, não se esqueça de publicar estas alterações para as tornar dinâmicas. Na página de detalhes do modelo, selecione a última versão preparada e, em seguida, selecione Publicar.
  • Se estiver a atualizar um modelo Syntex, como adicionar ou remover extratores, não se esqueça de sincronizar o modelo com a biblioteca onde está atribuído. A ação de sincronização atualiza o tipo de conteúdo e as colunas em conformidade.

Etiquetagem de documentos

Além dos modelos de processamento de documentos, o Syntex permite-lhe etiquetar automaticamente documentos com IA. Para imagens, a identificação de imagens armazena palavras-chave descritivas extraídas pela IA na coluna Etiquetas de Imagem , facilitando a pesquisa, ordenação, filtragem e gestão de imagens. Para outros documentos suportados, a etiquetagem de taxonomia armazena os termos configurados no arquivo de termos na coluna taxonomia , facilitando a pesquisa, ordenação, filtragem e gestão destes documentos.

Reconhecimento óptico de caracteres (OCR)

O serviço OCR no Syntex extrai texto impresso ou manuscrito de imagens e documentos e, em seguida, indexa-os na pesquisa. Este serviço ajuda-o a encontrar rápida e precisamente as palavras-chave e expressões que procura.

A Contoso Electronics otimiza a verificação de qualidade do documento com o modelo de processamento de documentos estruturado

Agora, vamos ver como a Contoso Electronics identifica a sua abordagem para otimizar o processo de verificação da qualidade do documento.

Identificar o cenário

A Contoso Electronics, sendo uma grande empresa que opera em vários países/regiões, quer garantir que toda a papelada está em conformidade com o que os clientes esperam em cada área específica. Isto inclui analisar aspetos como designs técnicos, processos e garantir que as encomendas dos clientes são precisas. Basicamente, trata-se de garantir que estão a seguir as regras e que tudo está em ordem.

No passado, os processadores de documentos da Contoso Electronics faziam verificações de qualidade manualmente, custando tempo e recursos valiosos. Agora, com o Syntex, os processadores de documentos esperam que as informações principais possam ser capturadas automaticamente a partir de cada documento associado ao projeto, tornando as verificações de qualidade mais rápidas e fáceis.

Decidir a abordagem

Para implementar o Syntex para a verificação da qualidade do documento da Contoso, o primeiro passo é identificar o modelo de processamento de documentos a utilizar. A liderança pede aos departamentos de TI que trabalhem com processadores de documentos de vários projetos e localizações por satélite para tomar a decisão. A equipa analisa primeiro os tipos de documentos da Contoso para verificação de qualidade, os respetivos formatos, estrutura de conteúdo e idiomas.

Em breve, a equipa descobre que os documentos na Contoso Electronics têm vários formatos, como documentos PDF, imagens, documentos do Microsoft Word, e-mails e páginas html. No entanto, os principais tipos de documentos sujeitos a verificação de qualidade são PDFs e imagens digitalizadas em formatos .jpeg. Uma vez que a Contoso Electronics é uma multinacional com projetos de todo o mundo, muitos documentos estão em línguas latinas de alfabeto ou idiomas não alfabetos. Além disso, a maioria destes documentos tem estruturas e esquemas semelhantes. De acordo com a lista de funcionalidades na tabela de comparação de cada modelo personalizado, a equipa conclui que o modelo de processamento de documentos estruturado é o modelo adequado a utilizar.

Configurar o Syntex

Em seguida, o departamento de TI tem de confirmar que o Power Platform e o AI Builder estão disponíveis em cada localização de satélite da Contoso Electronics. Depois de confirmar que todas as localizações de satélite têm o Power Platform e o AI Builder, o departamento de TI começa a configurar o Syntex. A Contoso Electronics configurou o ambiente do Microsoft 365 Multi-Geo. Isto significa que precisam de contactar o suporte da Microsoft porque querem utilizar o modelo de processamento de documentos estruturado em todas as suas localizações por satélite. Com base nas necessidades de processamento de documentos a partir de cada localização de satélite e sede, a equipa também decide um número inicial de licenças Syntex que precisam de obter.

A equipa também analisa o custo de execução do modelo. O processamento de documentos estruturados utiliza créditos do AI Builder. Cada licença da Syntex pode utilizar 3500 créditos por mês com uma alocação máxima de 1 milhão de créditos por mês por organização. Uma alocação de 1 milhão de créditos permite o processamento de 2000 páginas de ficheiros. Embora os créditos não utilizados não sejam revertidos de mês para mês, depois de calcular os créditos mensais estimados com a calculadora do AI Builder, a equipa decide que os créditos predefinidos devem ser suficientes. Em seguida, o departamento de TI cria um centro de conteúdos e adiciona processadores de documentos como outros administradores ao site do centro de conteúdos.

Criar e preparar o modelo

Na Contoso Electronics, os processadores de documentos podem agora criar os seus próprios modelos de processamento de documentos estruturados locais. Estes modelos são preparados para analisar documentos estruturados, como contratos de engenharia, e extrair identificadores-chave como nomes de clientes, números de projeto, números de documentos, estado e aprovadores. Para garantir que os documentos permanecem em conformidade e consistentes, os processadores de documentos podem preparar o modelo para etiquetar automaticamente documentos com etiquetas de retenção e confidencialidade (que chegarão mais tarde em 2023).

Depois de preparar o modelo e utilizá-lo em documentos, serão geradas novas colunas para o nome do fornecedor, o número do projeto e o número do documento de acordo com as informações que foram extraídas dos documentos. O modelo também etiquetará automaticamente documentos com etiquetas de retenção e confidencialidade à medida que são aplicados.

Na próxima unidade, vamos ver como um gestor de contratos na Contoso Electronics utiliza a consulta de conteúdo, regras e outras ferramentas para encontrar informações das colunas geradas. Também vamos ver como combinar o Syntex com outras ferramentas para automatizar o fluxo de trabalho.