Extrahering av dokumentfält – anpassad generativ AI-modell

Artikel
10/16/2024

Viktigt!

Versioner av den offentliga förhandsversionen av Document Intelligence ger tidig åtkomst till funktioner som är i aktiv utveckling. Funktioner, metoder och processer kan ändras, före allmän tillgänglighet (GA), baserat på användarfeedback.
Den offentliga förhandsversionen av Dokumentinformationsklientbibliotek är som standard REST API version 2024-07-31-preview och är för närvarande endast tillgänglig i följande Azure-regioner.
- USA, östra
- USA, norra centrala

Modellen för extrahering av dokumentfält (anpassad generativ AI) använder generativ AI för att extrahera användardefinierade fält från dokument i en mängd olika visuella mallar. Den anpassade generativa AI-modellen kombinerar kraften i dokumentförståelse med stora språkmodeller (LLM) och stränghet och schema från anpassade extraheringsfunktioner för att skapa en modell med hög noggrannhet på några minuter. Med den här generativa modelltypen kan du börja med ett enda dokument och gå igenom processen för schematillägg och modellskapande med minimal etikettering. Med den anpassade generativa modellen kan utvecklare och företag enkelt automatisera arbetsflöden för dataextrahering med större noggrannhet och hastighet för alla typer av dokument. Den anpassade generativa AI-modellen utmärker sig när det gäller att extrahera enkla fält från dokument utan märkta exempel. Att tillhandahålla några märkta exempel förbättrar dock extraheringsnoggrannheten för komplexa fält och användardefinierade fält som tabeller. Du kan använda REST-API:et eller klientbiblioteken för att skicka ett dokument för analys med en modellversion och använda den anpassade generativa processen.

Fördelar med anpassad generativ AI-modell

Automatisk etikettering. Använd stora språkmodeller (LLM) och extrahera användardefinierade fält för olika dokumenttyper och visuella mallar.
Förbättrad generalisering. Extrahera data från ostrukturerade data och varierande dokumentmallar med högre noggrannhet.
Jordade resultat. Lokalisera de data som extraheras i dokumenten. Anpassade generativa modeller maler resultaten där det är tillämpligt, vilket säkerställer att svaret genereras från innehållet och aktiverar arbetsflöden för mänsklig granskning.
Förtroendepoäng. Använd konfidenspoäng för varje extraherat fält till, filtrera extraherade data av hög kvalitet, maximera direkt genom bearbetning av dokument och minimera kostnaderna för mänsklig granskning.

Vanliga användningsfall

Livscykelhantering för kontrakt. Skapa en generativ modell och extrahera fält, satser och skyldigheter från en mängd olika kontraktstyper.
Låne- och inteckningsapplikationer. Automatisering av låne- och inteckningsapplikationsprocessen gör det möjligt för banker, långivare och statliga enheter att snabbt bearbeta låne- och inteckningsapplikationer.
Finansiella tjänster. Med den anpassade generativa AI-modellen analyserar du komplexa dokument som finansiella rapporter och tillgångshanteringsrapporter.
Kostnadshantering. Kvitton och fakturor från olika återförsäljare och företag måste parsas för att validera kostnaderna. Den anpassade generativa AI-modellen kan extrahera utgifter i olika format och dokument med olika mallar.

Hantera träningsdatauppsättningen

Med våra andra anpassade modeller måste du underhålla datamängden, lägga till nya exempel och träna modellen för noggrannhetsförbättringar. Med den anpassade generativa AI-modellen transformeras, krypteras och lagras de märkta dokumenten som en del av modellen. Den här processen säkerställer att modellen kontinuerligt kan använda de märkta exemplen för att förbättra extraheringskvaliteten. Precis som med andra anpassade modeller lagras modeller i Microsoft Storage och du kan ta bort dem när som helst.

Document Intelligence-tjänsten hanterar dina datauppsättningar, men dina dokument lagras krypterade och används bara för att förbättra modellresultatet för din specifika modell. En tjänsthanterad nyckel kan användas för att kryptera dina data eller så kan den krypteras med en kundhanterad nyckel. Ändringen i hantering och livscykel för datauppsättningen gäller endast anpassade generativa modeller.

Modellfunktioner

Den anpassade generativa modellen för fältextrahering stöder för närvarande dynamisk tabell med 2024-07-31-preview och följande fält:

Formulärfält	Markeringsmarkeringar	Tabellfält	Signatur	Regionetiketter	Överlappande fält
Stöds	Stöds	Stöds	Stöd saknas	Stöd saknas	Stöds

Byggläge

Åtgärden build custom model stöder anpassade mallar, neurala modeller och generativa modeller, segenereringsläge för anpassad modell. Här är skillnaderna mellan modelltyperna:

Anpassade generativa AI-modeller kan bearbeta komplexa dokument med olika format, olika mallar och ostrukturerade data.
Anpassade neurala modeller stöder komplex dokumentbearbetning och stöder även mer varians på sidor för strukturerade och halvstrukturerade dokument.
Anpassade mallmodeller förlitar sig på konsekventa visuella mallar, till exempel enkäter eller program, för att extrahera etiketterade data.

Språk och språkstöd

Fältextrahering av anpassad generativ modellversion 2024-07-31-preview stöder språkvarianten en-us . Mer information om språkstöd finns i Språkstöd – anpassade modeller.

Stöd för regioner

Fältextrahering av anpassad generativ modellversion 2024-07-31-preview är endast tillgänglig i "USA, östra" och North Central US.

Indatakrav

Filformat som stöds:

Modell	PDF	Bild: `JPEG/JPG`, `PNG`, `BMP`, , `TIFFHEIF`	Microsoft Office: Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Lästa	✔	✔	✔
Layout	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
Allmänt dokument	✔	✔
Inbyggda	✔	✔
Anpassad extrahering	✔	✔
Anpassad klassificering	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview)

För bästa resultat anger du ett tydligt foto eller en genomsökning av hög kvalitet per dokument.
För PDF och TIFF kan upp till 2 000 sidor bearbetas (med en prenumeration på den kostnadsfria nivån bearbetas endast de två första sidorna).
Filstorleken för att analysera dokument är 500 MB för betald (S0) nivå och 4 MB för den kostnadsfria nivån (F0).
Bilddimensioner måste vara mellan 50 bildpunkter x 50 bildpunkter och 10 000 bildpunkter x 10 000 bildpunkter.
Om dina PDF-filer är låsta med lösenord måste du ta bort låset innan du skickar filerna.
Den minsta höjden på texten som ska extraheras är 12 bildpunkter för en bild på 1 024 x 768 bildpunkter. Den här dimensionen motsvarar om 8 punkttext vid 150 punkter per tum (DPI).
För anpassad modellträning är det maximala antalet sidor för träningsdata 500 för den anpassade mallmodellen och 50 000 för den anpassade neurala modellen.
- För anpassad extraheringsmodellträning är den totala storleken på träningsdata 50 MB för mallmodellen och 1 GB för den neurala modellen.
- För anpassad klassificeringsmodellträning är 1 den totala storleken på träningsdata GB med högst 10 000 sidor. För förhandsversionen 2024-07-31 och senare är 2 den totala storleken på träningsdata GB med högst 10 000 sidor.

Metodtips

Representativa data. Använd representativa dokument som riktar sig mot faktisk datadistribution och träna en anpassad generativ modell av hög kvalitet. Om måldokumentet till exempel innehåller delvis fyllda tabellfält lägger du till träningsdokument som består av delvis fyllda tabeller. Om fältet heter datum bör värdena för det här fältet vara ett datum eftersom slumpmässiga strängar kan påverka modellens prestanda.
Fältnamngivning. Välj ett exakt fältnamn som representerar fältvärdena. För ett fältvärde som innehåller transaktionsdatumet kan du till exempel överväga att namnge fältet TransactionDate i stället för Date1.
Fältbeskrivning. Ange mer sammanhangsberoende information i beskrivningen för att förtydliga det fält som behöver extraheras. Exempel är plats i dokumentet, potentiella fältetiketter som det kan associeras med och sätt att särskilja med andra termer som kan vara tvetydiga.
Variant. Anpassade generativa modeller kan generalisera mellan olika dokumentmallar av samma dokumenttyp. Vi rekommenderar att du skapar en enskild modell för alla varianter av en dokumenttyp. Om du vill förbättra modellens noggrannhet och konsekvens vid generering eller bearbetning av dokument, inkluderar du en visuell mall för varje typ, särskilt de som kräver specifik formatering och/eller strukturella element.

Tjänstvägledning

Modellen för anpassad generativ förhandsversion stöder för närvarande inte extrahering av fasta tabeller och signaturer.
Slutsatsdragning av samma dokument kan ge något olika resultat mellan anrop och är en känd begränsning för aktuella GPT modeller.
Konfidenspoängen för varje fält kan variera. Vi rekommenderar att du testar med dina representativa data för att fastställa säkerhetströsklarna för ditt scenario.
Jordning, särskilt för tabellfält, är utmanande och kanske inte är perfekt i vissa fall.
Svarstiden för stora dokument är hög och en känd begränsning i förhandsversionen.
Sammansatta modeller stöder inte anpassad generativ extrahering.

Träna en modell

Anpassade generativa modeller är tillgängliga med 2024-07-31-preview version och senare modeller.

Att build operation träna modellen stöder egenskapen buildMode , för att träna en anpassad generativ modell anger du buildMode till generative.


https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "generative",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Nästa steg

Lär dig hur du skapar anpassade generativa modeller
Läs mer om anpassade modeller

Dela via