Skapa och träna en anpassad extraheringsmodell
Det här innehållet gäller för: v4.0 (förhandsversion) | Tidigare versioner: v3.1 (GA) v3.0 (GA) v2.1
Viktigt!
Träningsbeteendet för anpassad generativ modell skiljer sig från anpassad mall och neural modellträning. I följande dokument beskrivs endast träning för anpassade mallar och neurala modeller. Vägledning om anpassad generativ finns i anpassad generativ modell
Anpassade modeller för dokumentinformation kräver en handfull träningsdokument för att komma igång. Om du har minst fem dokument kan du komma igång med att träna en anpassad modell. Du kan träna antingen en anpassad mallmodell (anpassat formulär) eller en anpassad neural modell (anpassat dokument) eller en anpassad mallmodell (anpassat formulär).. Det här dokumentet beskriver hur du tränar de anpassade modellerna.
Krav för anpassad modellinmatning
Kontrollera först att din träningsdatauppsättning följer indatakraven för Dokumentinformation.
Filformat som stöds:
Modell PDF Bild: JPEG/JPG
,PNG
,BMP
, ,TIFF
HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLLästa ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Allmänt dokument ✔ ✔ Inbyggda ✔ ✔ Anpassad extrahering ✔ ✔ Anpassad klassificering ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) För bästa resultat anger du ett tydligt foto eller en genomsökning av hög kvalitet per dokument.
För PDF och TIFF kan upp till 2 000 sidor bearbetas (med en prenumeration på den kostnadsfria nivån bearbetas endast de två första sidorna).
Filstorleken för att analysera dokument är 500 MB för betald (S0) nivå och
4
MB för den kostnadsfria nivån (F0).Bilddimensioner måste vara mellan 50 bildpunkter x 50 bildpunkter och 10 000 bildpunkter x 10 000 bildpunkter.
Om dina PDF-filer är låsta med lösenord måste du ta bort låset innan du skickar filerna.
Den minsta höjden på texten som ska extraheras är 12 bildpunkter för en bild på 1 024 x 768 bildpunkter. Den här dimensionen motsvarar om
8
punkttext vid 150 punkter per tum (DPI).För anpassad modellträning är det maximala antalet sidor för träningsdata 500 för den anpassade mallmodellen och 50 000 för den anpassade neurala modellen.
För anpassad extraheringsmodellträning är den totala storleken på träningsdata 50 MB för mallmodellen och
1
GB för den neurala modellen.För anpassad klassificeringsmodellträning är
1
den totala storleken på träningsdata GB med högst 10 000 sidor. För förhandsversionen 2024-07-31 och senare är2
den totala storleken på träningsdata GB med högst 10 000 sidor.
Tips för träningsdata
Följ dessa tips för att ytterligare optimera din datauppsättning för träning:
- Använd textbaserade PDF-dokument i stället för bildbaserade dokument. Skannade PDF-filer hanteras som bilder.
- Använd exempel där alla fält har slutförts för formulär med indatafält.
- Använd formulär med olika värden i varje fält.
- Använd en större datamängd (10–15 bilder) om formulärbilderna har lägre kvalitet.
Ladda upp dina träningsdata
När du har samlat in en uppsättning formulär eller dokument för träning måste du ladda upp dem till en Azure Blob Storage-container. Om du inte vet hur du skapar ett Azure Storage-konto med en container följer du azure storage-snabbstarten för Azure Portal. Du kan använda den kostnadsfria prisnivån (F0) för att prova tjänsten och uppgradera senare till en betald nivå för produktion.
Video: Träna din anpassade modell
- När du har samlat in och laddat upp din träningsdatauppsättning är du redo att träna din anpassade modell. I följande video skapar vi ett projekt och utforskar några av grunderna för att framgångsrikt märka och träna en modell.
Skapa ett projekt i Document Intelligence Studio
Document Intelligence Studio tillhandahåller och samordnar alla API-anrop som krävs för att slutföra din datauppsättning och träna din modell.
Börja med att navigera till Document Intelligence Studio. Första gången du använder Studio måste du initiera din prenumeration, resursgrupp och resurs. Följ sedan kraven för anpassade projekt för att konfigurera Studio för åtkomst till din träningsdatauppsättning.
I Studio väljer du panelen Anpassad extraheringsmodell och väljer knappen Skapa ett projekt .
create project
I dialogrutan anger du ett namn för projektet, eventuellt en beskrivning, och väljer fortsätt.I nästa steg i arbetsflödet väljer eller skapar du en dokumentinformationsresurs innan du väljer Fortsätt.
Viktigt!
Anpassade neurala modeller är bara tillgängliga i ett fåtal regioner. Om du planerar att träna en neural modell väljer eller skapar du en resurs i någon av dessa regioner som stöds.
Välj sedan det lagringskonto som du använde för att ladda upp din anpassade modellträningsdatauppsättning. Mappsökvägen bör vara tom om träningsdokumenten finns i containerns rot. Om dokumenten finns i en undermapp anger du den relativa sökvägen från containerroten i fältet Mappsökväg . När lagringskontot har konfigurerats väljer du Fortsätt.
Granska slutligen projektinställningarna och välj Skapa projekt för att skapa ett nytt projekt. Du bör nu vara i etikettfönstret och se filerna i datauppsättningen i listan.
Märka dina data
I projektet är din första uppgift att märka datamängden med de fält som du vill extrahera.
Filerna som du laddade upp till lagring visas till vänster på skärmen, med den första filen redo att märkas.
Börja märka datauppsättningen och skapa ditt första fält genom att välja plusknappen (➕) längst upp till höger på skärmen.
Ange ett namn för fältet.
Tilldela ett värde till fältet genom att välja ett ord eller ord i dokumentet. Välj fältet i listrutan eller i fältlistan i det högra navigeringsfältet. Det märkta värdet ligger under fältnamnet i listan med fält.
Upprepa processen för alla fält som du vill märka för datauppsättningen.
Märk de återstående dokumenten i datauppsättningen genom att välja varje dokument och välja den text som ska märkas.
Nu har du alla dokument i datauppsättningen märkta. Filerna .labels.json och .ocr.json motsvarar varje dokument i din träningsdatauppsättning och en ny fields.json fil. Den här träningsdatauppsättningen skickas för att träna modellen.
Träna din modell
Med din datauppsättning märkt är du nu redo att träna din modell. Välj knappen Träna i det övre högra hörnet.
I dialogrutan träningsmodell anger du ett unikt modell-ID och, om du vill, en beskrivning. Modell-ID:t accepterar en strängdatatyp.
För byggläget väljer du den typ av modell som du vill träna. Läs mer om modelltyper och funktioner.
Välj Träna för att starta träningsprocessen.
Mallmodeller tränar på några minuter. Neurala modeller kan ta upp till 30 minuter att träna.
Gå till menyn Modeller för att visa status för tågåtgärden.
Testa modellen
När modellträningen är klar kan du testa din modell genom att välja modellen på sidan modelllista.
Välj modellen och välj på knappen Testa .
+ Add
Välj knappen för att välja en fil för att testa modellen.När du har valt en fil väljer du knappen Analysera för att testa modellen.
Modellresultatet visas i huvudfönstret och de fält som extraheras visas i det högra navigeringsfältet.
Verifiera din modell genom att utvärdera resultatet för varje fält.
Det högra navigeringsfältet har också exempelkoden för att anropa din modell och JSON-resultatet från API:et.
Grattis, du lärde dig att träna en anpassad modell i Document Intelligence Studio! Din modell är redo att användas med REST-API:et eller SDK:n för att analysera dokument.
Gäller för: v2.1. Andra versioner: v3.0
När du använder den anpassade modellen Dokumentinformation anger du dina egna träningsdata till åtgärden Träna anpassad modell så att modellen kan träna till dina branschspecifika formulär. Följ den här guiden om du vill lära dig hur du samlar in och förbereder data för att träna modellen effektivt.
Du behöver minst fem ifyllda formulär av samma typ.
Om du vill använda manuellt märkta träningsdata måste du börja med minst fem slutförda formulär av samma typ. Du kan fortfarande använda omärkta formulär utöver den datamängd som krävs.
Krav för anpassad modellinmatning
Kontrollera först att din träningsdatauppsättning följer indatakraven för Dokumentinformation.
Filformat som stöds:
Modell PDF Bild: JPEG/JPG
,PNG
,BMP
, ,TIFF
HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLLästa ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Allmänt dokument ✔ ✔ Inbyggda ✔ ✔ Anpassad extrahering ✔ ✔ Anpassad klassificering ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) För bästa resultat anger du ett tydligt foto eller en genomsökning av hög kvalitet per dokument.
För PDF och TIFF kan upp till 2 000 sidor bearbetas (med en prenumeration på den kostnadsfria nivån bearbetas endast de två första sidorna).
Filstorleken för att analysera dokument är 500 MB för betald (S0) nivå och
4
MB för den kostnadsfria nivån (F0).Bilddimensioner måste vara mellan 50 bildpunkter x 50 bildpunkter och 10 000 bildpunkter x 10 000 bildpunkter.
Om dina PDF-filer är låsta med lösenord måste du ta bort låset innan du skickar filerna.
Den minsta höjden på texten som ska extraheras är 12 bildpunkter för en bild på 1 024 x 768 bildpunkter. Den här dimensionen motsvarar om
8
punkttext vid 150 punkter per tum (DPI).För anpassad modellträning är det maximala antalet sidor för träningsdata 500 för den anpassade mallmodellen och 50 000 för den anpassade neurala modellen.
För anpassad extraheringsmodellträning är den totala storleken på träningsdata 50 MB för mallmodellen och
1
GB för den neurala modellen.För anpassad klassificeringsmodellträning är
1
den totala storleken på träningsdata GB med högst 10 000 sidor. För förhandsversionen 2024-07-31 och senare är2
den totala storleken på träningsdata GB med högst 10 000 sidor.
Tips för träningsdata
Följ dessa tips för att ytterligare optimera din datamängd för träning.
- Använd textbaserade PDF-dokument i stället för bildbaserade dokument. Skannade PDF-filer hanteras som bilder.
- Använd exempel som har alla fält ifyllda för ifyllda formulär.
- Använd formulär med olika värden i varje fält.
- Använd en större datamängd (10–15 bilder) för slutförda formulär.
Ladda upp dina träningsdata
När du har samlat in uppsättningen dokument för träning måste du ladda upp den till en Azure Blob Storage-container. Om du inte vet hur du skapar ett Azure Storage-konto med en container följer du snabbstarten för Azure Storage för Azure Portal. Använd standardprestandanivån.
Om du vill använda manuellt märkta data laddar du upp .labels.json och .ocr.json filer som motsvarar dina träningsdokument. Du kan använda verktyget Exempeletiketter (eller ditt eget användargränssnitt) för att generera dessa filer.
Organisera dina data i undermappar (valfritt)
Som standard använder API:et Träna anpassad modell endast dokument som finns i roten för din lagringscontainer. Du kan dock träna med data i undermappar om du anger dem i API-anropet. Normalt har brödtexten i anropet Träna anpassad modell följande format, där <SAS URL>
är url:en för signaturen för delad åtkomst för containern:
{
"source":"<SAS URL>"
}
Om du lägger till följande innehåll i begärandetexten tränar API:et med dokument som finns i undermappar. Fältet "prefix"
är valfritt och begränsar träningsdatauppsättningen till filer vars sökvägar börjar med den angivna strängen. Så ett värde på "Test"
, till exempel, gör att API:et bara tittar på de filer eller mappar som börjar med ordet Test.
{
"source": "<SAS URL>",
"sourceFilter": {
"prefix": "<prefix string>",
"includeSubFolders": true
},
"useLabelFile": false
}
Nästa steg
Nu när du har lärt dig hur du skapar en träningsdatauppsättning följer du en snabbstart för att träna en anpassad dokumentinformationsmodell och börja använda den i dina formulär.