Definitioner och termer för anpassad namngiven entitetsigenkänning
Använd den här artikeln om du vill veta mer om några av de definitioner och termer som du kan stöta på när du använder anpassad NER.
Enhet
En entitet är ett textintervall som anger en viss typ av information. Textintervallet kan bestå av ett eller flera ord. I omfånget för anpassad NER representerar entiteter den information som användaren vill extrahera från texten. Utvecklare taggar entiteter i sina data med de nödvändiga entiteterna innan de skickar dem till modellen för träning. Till exempel "Fakturanummer", "Startdatum", "Leveransnummer", "Födelseplats", "Ursprungsstad", "Leverantörsnamn" eller "Klientadress".
I meningen "John lånade 25 000 USD från Fred" kan entiteterna till exempel vara:
Entitetsnamn/typ | Enhet |
---|---|
Namn på låntagare | John |
Långivarens namn | Fred |
Lånebelopp | 25 000 USD |
F1-poäng
F1-poängen är en funktion av Precision och Recall. Det behövs när du söker en balans mellan precision och återkallande.
Modell
En modell är ett objekt som tränas att utföra en viss uppgift, i det här fallet anpassad entitetsigenkänning. Modeller tränas genom att tillhandahålla etiketterade data att lära av så att de senare kan användas för igenkänningsuppgifter.
- Modellträning är processen för att lära din modell vad du ska extrahera baserat på dina märkta data.
- Modellutvärdering är den process som sker direkt efter träningen för att veta hur väl modellen presterar.
- Distribution är processen att tilldela din modell till en distribution för att göra den tillgänglig för användning via förutsägelse-API:et.
Precision
Mäter hur exakt/exakt din modell är. Det är förhållandet mellan de korrekt identifierade positiva identifieringarna (sanna positiva identifieringar) och alla identifierade positiva identifieringar. Precisionsmåttet visar hur många av de förutsagda klasserna som är korrekt märkta.
Projekt
Ett projekt är ett arbetsområde för att skapa dina anpassade ML-modeller baserat på dina data. Ditt projekt kan bara nås av dig och andra som har åtkomst till den Azure-resurs som används.
Som en förutsättning för att skapa ett anpassat entitetsextraheringsprojekt måste du ansluta resursen till ett lagringskonto med din datauppsättning när du skapar ett nytt projekt. Projektet innehåller automatiskt alla filer som .txt
är tillgängliga i containern.
I projektet kan du utföra följande åtgärder:
- Märka dina data: Processen för att märka dina data så att när du tränar din modell lär den sig vad du vill extrahera.
- Skapa och träna din modell: Huvudsteget i projektet, där din modell börjar lära sig från dina märkta data.
- Visa information om modellutvärdering: Granska modellens prestanda för att avgöra om det finns utrymme för förbättringar, eller om du är nöjd med resultatet.
- Distribution: När du har granskat modellens prestanda och bestämt att den kan användas i din miljö måste du tilldela den till en distribution för att använda den. Genom att tilldela modellen till en distribution blir den tillgänglig för användning via förutsägelse-API:et.
- Testmodell: När du har distribuerat din modell testar du distributionen i Language Studio för att se hur den skulle fungera i produktion.
Återkalla
Mäter modellens förmåga att förutsäga faktiska positiva klasser. Det är förhållandet mellan de förutsagda sanna positiva och vad som faktiskt taggades. Återkallningsmåttet visar hur många av de förutsagda klasserna som är korrekta.