Dokumentinformation består av anpassade modeller
Viktigt!
- Versioner av den offentliga förhandsversionen av Document Intelligence ger tidig åtkomst till funktioner som är i aktiv utveckling. Funktioner, metoder och processer kan ändras, före allmän tillgänglighet (GA), baserat på användarfeedback.
- Den offentliga förhandsversionen av Dokumentinformationsklientbiblioteken är som standard REST API version 2024-07-31-preview.
- Den offentliga förhandsversionen 2024-07-31-preview är för närvarande endast tillgänglig i följande Azure-regioner. Observera att modellen för anpassad generativ (extrahering av dokumentfält) i AI Studio endast är tillgänglig i regionen USA, norra centrala:
- USA, östra
- USA, västra 2
- Europa, västra
- USA, norra centrala
Det här innehållet gäller för: v4.0 (förhandsversion) | Tidigare versioner: v3.1 (GA) v3.0 (GA) v2.1 (GA)
Det här innehållet gäller för: v3.1 (GA) | Senaste version: v4.0 (förhandsversion) | Tidigare versioner: v3.0 v2.1
Det här innehållet gäller för: v3.0 (GA) | Senaste versioner: v4.0 (förhandsversion) v3.1 | Tidigare version: v2.1
Det här innehållet gäller för: v2.1 | Senaste version: v4.0 (förhandsversion)
Viktigt!
Åtgärdsbeteendet model compose
ändras från api-version=2024-07-31-preview. Åtgärden model compose
v4.0 och senare lägger till en explicit tränad klassificerare i stället för en implicit klassificerare för analys. Den tidigare sammansatta modellversionen finns i Skapa anpassade modeller v3.1. Om du använder sammansatta modeller kan du uppgradera till den senaste implementeringen.
Vad är en sammansatt modell?
Med sammansatta modeller kan du gruppera flera anpassade modeller i en sammansatt modell som heter med ett enda modell-ID. Din sammansatta modell kan till exempel innehålla anpassade modeller som tränats för att analysera din leverans, utrustning och inköpsorder för möbler. I stället för att manuellt försöka välja lämplig modell kan du använda en sammansatt modell för att fastställa lämplig anpassad modell för varje analys och extrahering.
Vissa scenarier kräver att dokumentet klassificeras först och sedan analyseras dokumentet med den modell som passar bäst för att extrahera fälten från modellen. Sådana scenarier kan omfatta sådana där en användare laddar upp ett dokument, men dokumenttypen inte uttryckligen är känd. Ett annat scenario kan vara när flera dokument genomsöks tillsammans till en enda fil och filen skickas för bearbetning. Programmet måste sedan identifiera komponentdokumenten och välja den bästa modellen för varje dokument.
I tidigare versioner model compose
utförde åtgärden en implicit klassificering för att avgöra vilken anpassad modell som bäst representerar det skickade dokumentet. Implementeringen 2024-07-31-preview
av model compose
åtgärden ersätter den implicita klassificeringen från de tidigare versionerna med ett explicit klassificeringssteg och lägger till villkorsstyrd routning.
Fördelar med den nya modellens sammansättningsåtgärd
Den nya model compose
åtgärden kräver att du tränar en explicit klassificerare och ger flera fördelar.
Kontinuerlig inkrementell förbättring. Du kan konsekvent förbättra klassificerarens kvalitet genom att lägga till fler exempel och stegvis förbättra klassificeringen. Den här finjusteringen säkerställer att dina dokument alltid dirigeras till rätt modell för extrahering.
Fullständig kontroll över routning. Genom att lägga till konfidensbaserad routning anger du ett förtroendetröskelvärde för dokumenttypen och klassificeringssvaret.
Ignorera dokumentspecifika dokumenttyper under åtgärden. Tidigare implementeringar av
model compose
åtgärden valde den bästa analysmodellen för extrahering baserat på konfidenspoängen även om de högsta konfidenspoängen var relativt låga. Genom att ange ett förtroendetröskelvärde eller uttryckligen inte mappa en känd dokumenttyp från klassificering till en extraheringsmodell kan du ignorera specifika dokumenttyper.Analysera flera instanser av samma dokumenttyp. När åtgärden är kopplad till
splitMode
alternativet klassificerare kan denmodel compose
identifiera flera instanser av samma dokument i en fil och dela upp filen för att bearbeta varje dokument separat. Genom att användasplitMode
kan du bearbeta flera instanser av ett dokument i en enda begäran.Stöd för att lägga till funktioner. Lägg till funktioner som frågefält eller streckkoder kan också anges som en del av analysmodellparametrarna.
Maximalt utökad tilldelad anpassad modell till 500. Med den
model compose
nya implementeringen av åtgärden kan du tilldela upp till 500 tränade anpassade modeller till en enda sammansatt modell.
Så här använder du modellsammanfattning
Börja med att samla in exempel på alla dokument som behövs, inklusive exempel med information som ska extraheras eller ignoreras.
Träna en klassificerare genom att organisera dokumenten i mappar där mappnamnen är den dokumenttyp som du tänker använda i din sammansatta modelldefinition.
Träna slutligen en extraheringsmodell för var och en av de dokumenttyper som du tänker använda.
När dina klassificerings- och extraheringsmodeller har tränats använder du Document Intelligence Studio, klientbibliotek eller REST-API:et för att skapa klassificerings- och extraheringsmodellerna i en sammansatt modell.
Använd parametern splitMode
för att styra fildelningsbeteendet:
- Inga. Hela filen behandlas som ett enda dokument.
- perPage. Varje sida i filen behandlas som ett separat dokument.
- auto. Filen delas automatiskt upp i dokument.
Fakturering och prissättning
Sammansatta modeller faktureras på samma sätt som enskilda anpassade modeller. Prissättningen baseras på antalet sidor som analyseras av den underordnade analysmodellen. Fakturering baseras på extraheringspriset för de sidor som dirigeras till en extraheringsmodell. Med tillägg av de explicita klassificeringsavgifterna uppstår för klassificeringen av alla sidor i indatafilen. Mer information finns på sidan med priser för dokumentinformation.
Använda modellens sammansättningsåtgärd
Börja med att skapa en lista över alla modell-ID:t som du vill skapa i en enda modell.
Skapa modellerna i ett enda modell-ID med hjälp av Studio-, REST-API:et eller klientbiblioteken.
Använd det sammansatta modell-ID:t för att analysera dokument.
Fakturering
Sammansatta modeller faktureras på samma sätt som enskilda anpassade modeller. Prissättningen baseras på antalet sidor som analyseras. Fakturering baseras på extraheringspriset för de sidor som dirigeras till en extraheringsmodell. Mer information finns på sidan med priser för dokumentinformation.
- Det finns ingen ändring i prissättningen för att analysera ett dokument med hjälp av en enskild anpassad modell eller en sammansatt anpassad modell.
Funktioner för sammansatta modeller
Custom template
ochcustom neural
modeller kan bestå tillsammans i en enda sammansatt modell i flera API-versioner.Svaret innehåller en
docType
egenskap som anger vilken av de sammansatta modellerna som användes för att analysera dokumentet.För
custom template
modeller kan den sammansatta modellen skapas med varianter av en anpassad mall eller olika formulärtyper. Den här åtgärden är användbar när inkommande formulär tillhör en av flera mallar.För
custom neural
modeller är bästa praxis att lägga till alla olika varianter av en enda dokumenttyp i en enda träningsdatauppsättning och träna på anpassad neural modell. Åtgärdenmodel compose
passar bäst för scenarier när du har dokument av olika typer som skickas för analys.
Skapa modellgränser
Med åtgärden
model compose
kan du tilldela upp till 500 modeller till ett enda modell-ID. Om antalet modeller som jag vill skapa överskrider den övre gränsen för en sammansatt modell kan du använda något av följande alternativ:Klassificera dokumenten innan du anropar den anpassade modellen. Du kan använda read-modellen och skapa en klassificering baserat på den extraherade texten från dokumenten och vissa fraser med hjälp av källor som kod, reguljära uttryck eller sökning.
Om du vill extrahera samma fält från olika strukturerade, halvstrukturerade och ostrukturerade dokument kan du överväga att använda den anpassade neurala modellen för djupinlärning. Läs mer om skillnaderna mellan den anpassade mallmodellen och den anpassade neurala modellen.
Att analysera ett dokument med hjälp av sammansatta modeller är identiskt med att analysera ett dokument med hjälp av en enda modell. Resultatet
Analyze Document
returnerar endocType
egenskap som anger vilken av de komponentmodeller som du valde för att analysera dokumentet.Åtgärden
model compose
är för närvarande endast tillgänglig för anpassade modeller som tränats med etiketter.
Kompatibilitet för sammansatt modell
Typ av anpassad modell | Modeller som tränats med v2.1 och v2.0 | Anpassade mallar och neurala modeller v3.1 och v3.0 | Förhandsversion av anpassade mallar och neurala modeller v4.0 | Förhandsversion av anpassade generativa modeller v4.0 |
---|---|---|---|---|
Modeller som tränats med version 2.1 och v2.0 | Stöds inte | Stöds inte | Stöds inte | Stöds inte |
Anpassade mallar och neurala modeller v3.0 och v3.1 | Stöds inte | Stöds | Stöds | Stöds inte |
Förhandsversion av anpassade mallar och neurala modeller v4.0 | Stöds inte | Stöds | Stöds | Stöds inte |
Förhandsversion av anpassade generativa modeller v4.0 | Stöds inte | Stöds inte | Stöds inte | Stöds inte |
Om du vill skapa en modell som tränats med en tidigare version av API:et (v2.1 eller tidigare) tränar du en modell med v3.0-API:et med samma märkta datauppsättning. Tillägget säkerställer att v2.1-modellen kan bestå av andra modeller.
Med modeller som består av v2.1 av API:et fortsätter att stödjas, vilket inte kräver några uppdateringar.
Utvecklingsalternativ
Document Intelligence v4.0:2024-07-31-preview stöder följande verktyg, program och bibliotek:
Funktion | Resurser |
---|---|
Anpassad modell | • Document Intelligence Studio • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK |
Sammansatt modell | • Document Intelligence Studio • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK |
Document Intelligence v3.1:2023-07-31 (GA) stöder följande verktyg, program och bibliotek:
Funktion | Resurser |
---|---|
Anpassad modell | • Document Intelligence Studio • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK |
Sammansatt modell | • Document Intelligence Studio • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK |
Document Intelligence v3.0:2022-08-31 (GA) stöder följande verktyg, program och bibliotek:
Funktion | Resurser |
---|---|
Anpassad modell | • Document Intelligence Studio • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK |
Sammansatt modell | • Document Intelligence Studio • REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK |
Document Intelligence v2.1 stöder följande resurser:
Funktion | Resurser |
---|---|
Anpassad modell | • Etikettverktyg för dokumentinformation• REST API • Klientbiblioteks-SDK • Docker-container för dokumentinformation |
Sammansatt modell | • Etikettverktyg för dokumentinformation• REST API • C# SDK • Java SDK • JavaScript SDK • Python SDK |
Nästa steg
Lär dig hur du skapar och skapar anpassade modeller: