Förbereda data för anpassad attitydanalys

För att kunna skapa en anpassad attitydanalysmodell behöver du kvalitetsdata för att träna den. Den här artikeln beskriver hur du bör välja och förbereda dina data, tillsammans med att definiera ett schema. Att definiera schemat är det första steget i livscykeln för projektutveckling och definierar de klasser som du behöver din modell för att klassificera texten i vid körning.

Dataval

Kvaliteten på data som du tränar din modell med påverkar modellens prestanda avsevärt.

  • Använd verkliga data som återspeglar domänens problemutrymme för att effektivt träna din modell. Du kan använda syntetiska data för att påskynda den inledande modellträningsprocessen, men det kommer sannolikt att skilja sig från dina verkliga data och göra din modell mindre effektiv när den används.

  • Balansera din datadistribution så mycket som möjligt utan att avvika från fördelningen i verkligheten.

  • Använd olika data när det är möjligt för att undvika överanpassning av din modell. Mindre mångfald i träningsdata kan leda till att din modell lär sig falska korrelationer som kanske inte finns i verkliga data.

  • Undvik dubbletter av dokument i dina data. Duplicerade data har en negativ effekt på träningsprocessen, modellmått och modellprestanda.

  • Tänk på var dina data kommer ifrån. Om du samlar in data från en person, avdelning eller en del av ditt scenario saknar du förmodligen mångfald som kan vara viktig för din modell att lära sig om.

Kommentar

Om dokumenten finns på flera språk väljer du alternativet flera språk när projektet skapas och anger språkalternativet till språket för de flesta av dina dokument.

Dataförberedelse

Som en förutsättning för att skapa ett projekt för anpassad attitydanalys måste dina träningsdata laddas upp till en blobcontainer i ditt lagringskonto. Du kan skapa och ladda upp träningsdokument från Azure direkt eller via verktyget Azure Storage Explorer. Med verktyget Azure Storage Explorer kan du ladda upp mer data snabbt.

Du kan bara använda .txt. dokument för anpassad text. Om dina data är i annat format kan du använda CLUtils-parsningskommandot för att ändra filformatet.

Testuppsättning

När du definierar testuppsättningen måste du inkludera exempeldokument som inte finns i träningsuppsättningen. Att definiera testuppsättningen är ett viktigt steg för att beräkna modellens prestanda. Kontrollera också att testuppsättningen innehåller dokument som representerar alla klasser som används i projektet.

Nästa steg

Om du inte redan har gjort det skapar du ett projekt för anpassad attitydanalys. Om det är första gången du använder anpassad attitydanalys kan du överväga att följa snabbstarten för att skapa ett exempelprojekt. Du kan också se projektkraven för mer information om vad du behöver för att skapa ett projekt.