Anpassade modeller för Dokumentinformation

Artikel
10/16/2024

Viktigt!

Versioner av den offentliga förhandsversionen av Document Intelligence ger tidig åtkomst till funktioner som är i aktiv utveckling. Funktioner, metoder och processer kan ändras, före allmän tillgänglighet (GA), baserat på användarfeedback.
Den offentliga förhandsversionen av Dokumentinformationsklientbiblioteken är som standard REST API version 2024-07-31-preview.
Den offentliga förhandsversionen 2024-07-31-preview är för närvarande endast tillgänglig i följande Azure-regioner. Observera att modellen för anpassad generativ (extrahering av dokumentfält) i AI Studio endast är tillgänglig i regionen USA, norra centrala:
- USA, östra
- USA, västra 2
- Europa, västra
- USA, norra centrala

Det här innehållet gäller för: v4.0 (förhandsversion) | Tidigare versioner: v3.1 (GA) v3.0 (GA) v2.1 (GA)

Det här innehållet gäller för: v3.1 (GA) | Senaste version: v4.0 (förhandsversion) | Tidigare versioner: v3.0 v2.1

Det här innehållet gäller för: v3.0 (GA) | Senaste versioner: v4.0 (förhandsversion) v3.1 | Tidigare version: v2.1

Det här innehållet gäller för: v2.1 | Senaste version: v4.0 (förhandsversion)

Dokumentinformation använder avancerad maskininlärningsteknik för att identifiera dokument, identifiera och extrahera information från formulär och dokument och returnera extraherade data i en strukturerad JSON-utdata. Med Dokumentinformation kan du använda dokumentanalysmodeller, förbyggda/förtränade eller dina tränade fristående anpassade modeller.

Anpassade modeller innehåller nu anpassade klassificeringsmodeller för scenarier där du behöver identifiera dokumenttypen innan du anropar extraheringsmodellen. Klassificerarmodeller är tillgängliga från och med API:et 2023-07-31 (GA) . En klassificeringsmodell kan paras ihop med en anpassad extraheringsmodell för att analysera och extrahera fält från formulär och dokument som är specifika för ditt företag. Fristående anpassade extraheringsmodeller kan kombineras för att skapa sammansatta modeller.

Anpassade dokumentmodelltyper

Anpassade dokumentmodeller kan vara en av två typer, anpassad mall eller anpassat formulär och anpassade neurala eller anpassade dokumentmodeller. Märknings- och träningsprocessen för båda modellerna är identisk, men modellerna skiljer sig åt på följande sätt:

Anpassade extraheringsmodeller

Skapa en anpassad extraheringsmodell genom att märka en datamängd med dokument med de värden som du vill extrahera och träna modellen på den märkta datamängden. Du behöver bara fem exempel av samma formulär- eller dokumenttyp för att komma igång.

Anpassad neural modell

Viktigt!

Från och med version 4.0 (2024-02-29-preview) HAR anpassade neurala modeller nu stöd för överlappande fält och tabell- och rad- och cellnivåförtroende.

Den anpassade neurala modellen (anpassat dokument) använder djupinlärningsmodeller och basmodeller som tränats på en stor samling dokument. Den här modellen finjusteras eller anpassas sedan till dina data när du tränar modellen med en märkt datauppsättning. Anpassade neurala modeller stöder extrahering av nyckeldatafält från strukturerade, halvstrukturerade och ostrukturerade dokument. När du väljer mellan de två modelltyperna börjar du med en neural modell för att avgöra om den uppfyller dina funktionella behov. Mer information om anpassade dokumentmodeller finns i neurala modeller .

Anpassad mallmodell

Den anpassade mallen eller den anpassade formulärmodellen förlitar sig på en konsekvent visuell mall för att extrahera etiketterade data. Varianser i den visuella strukturen i dina dokument påverkar modellens noggrannhet. Strukturerade formulär som enkäter eller program är exempel på konsekventa visuella mallar.

Träningsuppsättningen består av strukturerade dokument där formateringen och layouten är statiska och konstanta från en dokumentinstans till en annan. Anpassade mallmodeller stöder nyckel/värde-par, markeringsmarkeringar, tabeller, signaturfält och regioner. Mallmodeller och kan tränas på dokument på något av de språk som stöds. Mer information finns i anpassade mallmodeller.

Om språket i dina dokument och extraheringsscenarier stöder anpassade neurala modeller rekommenderar vi att du använder anpassade neurala modeller över mallmodeller för högre noggrannhet.

Dricks

Om du vill bekräfta att träningsdokumenten innehåller en konsekvent mall för visuella objekt tar du bort alla användarangivna data från varje formulär i uppsättningen. Om de tomma formulären är identiska i utseende representerar de en konsekvent visuell mall.

Mer information finns i Tolka och förbättra noggrannheten och konfidensen för anpassade modeller.

Indatakrav

För bästa resultat anger du ett tydligt foto eller en genomsökning av hög kvalitet per dokument.

Filformat som stöds:

Modell	PDF	Bild: `jpeg/jpg`, `png`, `bmp`, , `tiffheif`	Microsoft Office: Word (docx), Excel (xlsx), PowerPoint (pptx)
Lästa	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview, 2023-10-31-preview och senare)
Allmänt dokument	✔	✔
Inbyggda	✔	✔
Anpassad extrahering	✔	✔
Anpassad klassificering	✔	✔	✔

✱ Microsoft Office-filer stöds för närvarande inte för andra modeller eller versioner.

För PDF och TIFF kan upp till 2 000 sidor bearbetas (med en prenumeration på den kostnadsfria nivån bearbetas endast de två första sidorna).
Filstorleken för att analysera dokument är 500 MB för den betalda nivån (S0) och 4 MB för den kostnadsfria nivån (F0).
Bilddimensionerna måste vara mellan 50 x 50 bildpunkter och 10 000 px x 10 000 bildpunkter.
Om dina PDF-filer är låsta med lösenord måste du ta bort låset innan du skickar filerna.
Den minsta höjden på texten som ska extraheras är 12 bildpunkter för en bild på 1 024 x 768 bildpunkter. Den här dimensionen motsvarar ungefär 8-punkttext vid 150 punkter per tum.
För anpassad modellträning är det maximala antalet sidor för träningsdata 500 för den anpassade mallmodellen och 50 000 för den anpassade neurala modellen.
För anpassad extraheringsmodellträning är den totala storleken på träningsdata 50 MB för mallmodellen och 1G-MB för den neurala modellen.
För anpassad klassificeringsmodellträning är 1GB den totala storleken på träningsdata med högst 10 000 sidor.

Optimala träningsdata

Träningsindata är grunden för alla maskininlärningsmodeller. Den avgör modellens kvalitet, noggrannhet och prestanda. Därför är det viktigt att skapa bästa möjliga träningsdata för ditt dokumentinformationsprojekt. När du använder den anpassade modellen För dokumentinformation anger du dina egna träningsdata. Här följer några tips som hjälper dig att träna dina modeller effektivt:

Använd textbaserade i stället för bildbaserade PDF-filer när det är möjligt. Ett sätt att identifiera en bild*baserad PDF är att prova att välja specifik text i dokumentet. Om du bara kan välja hela bilden av texten är dokumentet bildbaserat, inte textbaserat.
Organisera dina träningsdokument med hjälp av en undermapp för varje format (JPEG/JPG, PNG, BMP, PDF eller TIFF).
Använd formulär som har alla tillgängliga fält slutförda.
Använd formulär med olika värden i varje fält.
Använd en större datamängd (mer än fem träningsdokument) om dina bilder är av låg kvalitet.
Kontrollera om du behöver använda en enskild modell eller flera modeller som består av en enda modell.
Överväg att segmentera datamängden i mappar, där varje mapp är en unik mall. Träna en modell per mapp och skriv de resulterande modellerna till en enda slutpunkt. Modellens noggrannhet kan minska när du har olika format som analyserats med en enda modell.
Överväg att segmentera datamängden för att träna flera modeller om formuläret har variationer med format och sidbrytningar. Anpassade formulär förlitar sig på en konsekvent visuell mall.
Se till att du har en balanserad datauppsättning genom att redovisa format, dokumenttyper och struktur.

Byggläge

Åtgärden build custom model lägger till stöd för mallen och anpassade neurala modeller. Tidigare versioner av REST-API:et och klientbiblioteken har endast stöd för ett enda byggläge som nu kallas mallläge .

Mallmodeller accepterar endast dokument som har samma grundläggande sidstruktur – ett enhetligt visuellt utseende – eller samma relativa placering av element i dokumentet.
Neurala modeller stöder dokument som har samma information, men olika sidstrukturer. Exempel på dessa dokument är USA W2-formulär, som delar samma information, men varierar i utseende mellan företag.

Den här tabellen innehåller länkar till SDK-referenser för programmeringsspråket build mode och kodexempel på GitHub:

Programmeringsspråk	SDK-referens	Kodexempel
C#/.NET	DocumentBuildMode Struct	Sample_BuildCustomModelAsync.cs
Java	DocumentBuildMode-klass	BuildModel.java
JavaScript	DocumentBuildMode-typ	buildModel.js
Python	DocumentBuildMode Uppräkning	sample_build_model.py

Jämföra modellfunktioner

I följande tabell jämförs anpassade mallar och anpassade neurala funktioner:

Funktion	Anpassad mall (formulär)	Anpassad neural (dokument)
Dokumentstruktur	Mall, formulär och strukturerad	Strukturerad, halvstrukturerad och ostrukturerad
Träningstid	1 till 5 minuter	20 minuter till 1 timme
Extrahering av data	Nyckel/värde-par, tabeller, markeringsmarkeringar, koordinater och signaturer	Nyckel/värde-par, markeringsmarkeringar och tabeller
Överlappande fält	Stöds inte	Stöds
Dokumentvariationer	Kräver en modell per varje variant	Använder en enskild modell för alla varianter
Språkstöd	Anpassad mall för språkstöd	Språkstöd för anpassade neurala

Anpassad klassificeringsmodell

Dokumentklassificering är ett nytt scenario som stöds av Document Intelligence med API:et 2023-07-31 (v3.1 GA). API:et för dokumentklassificerare stöder klassificerings- och delningsscenarier. Träna en klassificeringsmodell för att identifiera de olika typer av dokument som programmet stöder. Indatafilen för klassificeringsmodellen kan innehålla flera dokument och klassificera varje dokument inom ett associerat sidintervall. Mer information finns i anpassade klassificeringsmodeller .

Kommentar

Från och med api-versionsdokumentklassificeringen 2024-02-29-preview stöder nu Office-dokumenttyper för klassificering. Den här API-versionen introducerar också inkrementell träning för klassificeringsmodellen.

Anpassade modellverktyg

Dokumentinformation v3.1 och senare modeller stöder följande verktyg, program och bibliotek, program och bibliotek:

Funktion	Resurser	Model ID
Anpassad modell	• Document Intelligence Studio • REST API • C# SDK • Python SDK	custom-model-id

Livscykel för anpassad modell

Livscykeln för en anpassad modell beror på vilken API-version som används för att träna den. Om API-versionen är en allmän tillgänglighetsversion (GA) har den anpassade modellen samma livscykel som den versionen. Den anpassade modellen är inte tillgänglig för slutsatsdragning när API-versionen är inaktuell. Om API-versionen är en förhandsversion har den anpassade modellen samma livscykel som förhandsversionen av API:et.

Document Intelligence v2.1 stöder följande verktyg, program och bibliotek:

Kommentar

Anpassade modelltyper anpassade neurala och anpassade mallar är tillgängliga med Document Intelligence version v3.1 och v3.0 API:er.

Funktion	Resurser
Anpassad modell	• Etikettverktyg för dokumentinformation• REST API • Klientbiblioteks-SDK • Docker-container för dokumentinformation

Skapa en anpassad modell

Extrahera data från specifika eller unika dokument med hjälp av anpassade modeller. Du behöver följande resurser:

En Azure-prenumeration Du kan skapa en kostnadsfritt.
En instans av dokumentinformation i Azure Portal. Du kan använda den kostnadsfria prisnivån (F0) för att prova tjänsten. När resursen har distribuerats väljer du Gå till resurs för att hämta din nyckel och slutpunkt.

Exempel på märkningsverktyg

Dricks

För en förbättrad upplevelse och avancerad modellkvalitet kan du prova Document Intelligence v3.0 Studio.
v3.0 Studio stöder alla modeller som tränats med v2.1-märkta data.
Du kan läsa api-migreringsguiden för detaljerad information om migrering från v2.1 till v3.0.
Se vårt REST API eller C#, Java, JavaScript eller Python SDK .. /snabbstarter för att komma igång med v3.0-versionen.

Exempeletikettverktyget för dokumentinformation är ett öppen källkod verktyg som gör att du kan testa de senaste funktionerna i funktionerna för dokumentinformation och optisk teckenigenkänning (OCR).
Prova snabbstarten för exempeletiketteringsverktyget för att komma igång med att skapa och använda en anpassad modell.

Document Intelligence Studio

Kommentar

Document Intelligence Studio är tillgängligt med v3.1- och v3.0-API:er.

På startsidan för Document Intelligence Studio väljer du Anpassade extraheringsmodeller.
Under Mina projekt väljer du Skapa ett projekt.
Fyll i fälten för projektinformation.
Konfigurera tjänstresursen genom att lägga till lagringskontot och blobcontainern för att ansluta din träningsdatakälla.
Granska och skapa projektet.
Lägg till exempeldokumenten för att märka, skapa och testa din anpassade modell.

Prova Document Intelligence Studio

En detaljerad genomgång för att skapa din första anpassade extraheringsmodell finns i Skapa en anpassad extraheringsmodell.

Sammanfattning av extrahering av anpassad modell

I den här tabellen jämförs de dataextraheringsområden som stöds:

Modell	Formulärfält	Markeringsmarkeringar	Strukturerade fält (tabeller)	Signatur	Regionetiketter	Överlappande fält
Anpassad mall	✔	✔	✔	✔	✔	n/a
Anpassad neural	✔	✔	✔	n/a	*	✔ (2024-02-29-preview)

Tabellsymboler:
✔ — Stöds
**n/a– För närvarande inte tillgänglig;
*-Beter sig olika beroende på modell. Med mallmodeller genereras syntetiska data vid träningstillfället. Med neurala modeller väljs utgående text som identifieras i regionen.

Dricks

När du väljer mellan de två modelltyperna börjar du med en anpassad neural modell om den uppfyller dina funktionella behov. Mer information om anpassade neurala modeller finns i Anpassade neurala modeller.

Utvecklingsalternativ för anpassad modell

I följande tabell beskrivs de funktioner som är tillgängliga med de associerade verktygen och klientbiblioteken. Som bästa praxis bör du se till att du använder de kompatibla verktyg som anges här.

Dokumenttyp	REST API	SDK	Etikett- och testmodeller
Anpassad mall v 4.0 v3.1 v3.0	Dokumentinformation 3.1	SDK för dokumentinformation	Document Intelligence Studio
Anpassad neural v4.0 v3.1 v3.0	Dokumentinformation 3.1	SDK för dokumentinformation	Document Intelligence Studio
Anpassat formulär v2.1	DOKUMENTINFORMATION 2.1 GA API	SDK för dokumentinformation	Exempeletikettverktyg

Kommentar

Anpassade mallmodeller som tränats med 3.0-API:et har några förbättringar jämfört med 2.1-API:et som härrör från förbättringar av OCR-motorn. Datauppsättningar som används för att träna en anpassad mallmodell med 2.1-API:et kan fortfarande användas för att träna en ny modell med hjälp av 3.0-API:et.

För bästa resultat anger du ett tydligt foto eller en genomsökning av hög kvalitet per dokument.
Filformat som stöds är JPEG/JPG, PNG, BMP, TIFF och PDF (textbäddas in eller genomsöks). PDF-filer med inbäddad text är bäst för att undvika fel vid extrahering och placering av tecken.
För PDF- och TIFF-filer kan upp till 2 000 sidor bearbetas. Med en prenumeration på den kostnadsfria nivån bearbetas endast de två första sidorna.
Filstorleken måste vara mindre än 500 MB för den betalda nivån (S0) och 4 MB för den kostnadsfria nivån (F0).
Bilddimensionerna måste vara mellan 50 × 50 bildpunkter och 10 000 × 10 000 bildpunkter.
PDF-måtten är upp till 17 x 17 tum, motsvarande pappersstorleken Juridisk eller A3 eller mindre.
Den totala storleken på träningsdata är 500 sidor eller mindre.
Om dina PDF-filer är låsta med lösenord måste du ta bort låset innan du skickar filerna.
Dricks

Träningsdata:
- Använd om möjligt textbaserade PDF-dokument i stället för bildbaserade dokument. Skannade PDF-filer hanteras som bilder.
- Ange endast en enskild instans av formuläret per dokument.
- För ifyllda formulär använder du exempel som har alla fält ifyllda.
- Använd formulär med olika värden i varje fält.
- Om dina formulärbilder är av lägre kvalitet använder du en större datauppsättning. Använd till exempel 10 till 15 bilder.

Språk och nationella inställningar som stöds

Se sidan Språkstöd – anpassade modeller för en fullständig lista över språk som stöds.

Nästa steg

Prova att bearbeta dina egna formulär och dokument med verktyget Exempeletiketter för dokumentinformation.
Slutför en snabbstart för dokumentinformation och kom igång med att skapa en app för dokumentbearbetning på valfritt utvecklingsspråk.

Prova att bearbeta dina egna formulär och dokument med Document Intelligence Studio.
Slutför en snabbstart för dokumentinformation och kom igång med att skapa en app för dokumentbearbetning på valfritt utvecklingsspråk.

Dela via

Anpassade modeller för Dokumentinformation

Anpassade dokumentmodelltyper

Anpassade extraheringsmodeller

Anpassad neural modell

Anpassad mallmodell

Indatakrav

Optimala träningsdata

Byggläge

Jämföra modellfunktioner

Anpassad klassificeringsmodell

Anpassade modellverktyg

Livscykel för anpassad modell

Skapa en anpassad modell

Exempel på märkningsverktyg

Document Intelligence Studio

Sammanfattning av extrahering av anpassad modell

Utvecklingsalternativ för anpassad modell

Språk och nationella inställningar som stöds

Nästa steg

Feedback

Ytterligare resurser