Språkstöd för anpassad textklassificering

Använd den här artikeln om du vill lära dig mer om de språk som för närvarande stöds av funktionen för anpassad textklassificering.

Flerspråkigt alternativ

Med anpassad textklassificering kan du träna en modell på ett språk och använda för att klassificera dokument på ett annat språk. Den här funktionen är användbar eftersom den hjälper till att spara tid och arbete. I stället för att skapa separata projekt för varje språk kan du hantera flerspråkig datauppsättning i ett projekt. Datamängden behöver inte vara helt på samma språk, men du bör aktivera flerspråkiga alternativ för projektet när du skapar eller senare i projektinställningarna. Om du märker att din modell presterar dåligt på vissa språk under utvärderingsprocessen kan du överväga att lägga till mer data på dessa språk i träningsuppsättningen.

Du kan träna projektet helt med engelska dokument och fråga det i: franska, tyska, mandarin, japanska, koreanska och andra. Med anpassad textklassificering kan du enkelt skala dina projekt till flera språk med hjälp av flerspråkig teknik för att träna dina modeller.

När du upptäcker att ett visst språk inte fungerar lika bra som andra språk kan du lägga till fler dokument för det språket i projektet. På sidan för dataetiketter i Language Studio kan du välja språket för dokumentet som du lägger till. När du introducerar fler dokument för det språket i modellen introduceras mer av syntaxen för det språket och lär dig att förutsäga det bättre.

Du förväntas inte lägga till samma antal dokument för varje språk. Du bör skapa större delen av projektet på ett språk och bara lägga till några dokument på språk som du ser inte fungerar bra. Om du skapar ett projekt som främst är på engelska och börjar testa det på franska, tyska och spanska kan du observera att tyska inte fungerar lika bra som de andra två språken. I så fall bör du överväga att lägga till 5 % av dina ursprungliga engelska dokument på tyska, träna en ny modell och testa på tyska igen. Du bör se bättre resultat för tyska frågor. Ju mer märkta dokument du lägger till, desto mer sannolikt blir resultatet bättre.

När du lägger till data på ett annat språk bör du inte förvänta dig att det påverkar andra språk negativt.

Språk som stöds av anpassad textklassificering

Anpassad textklassificering stöder .txt filer på följande språk:

Språk Språkkod
Afrikaans af
Amhariska am
Arabiska ar
Assamesiska as
Azerbajdzjanska az
Vitryska be
Bulgariska bg
Bengali bn
Bretonska br
Bosnian bs
Katalanska ca
Tjeckiska cs
Walesiska cy
Danska da
Tyska de
Grekiska el
English (US) en-us
Esperanto eo
Spanska es
Estniska et
Baskiska eu
Persiska fa
Finska fi
Franska fr
Västra frisiska fy
Iriska ga
Skotsk gäliska gd
Galiciska gl
Gujarati gu
Hausa ha
Hebreiska he
Hindi hi
Kroatiska hr
Ungerska hu
Armeniska hy
Indonesiska id
Italienska it
Japanska ja
Javanesiska jv
Georgiska ka
Kazakiska kk
Khmer km
Kannada kn
Koreanska ko
Kurdiska (Kurmanji) ku
Kirgisiska ky
Latin la
Laotiska lo
Litauiska lt
Lettiska lv
Malagassiska mg
Makedonska mk
Malayalam ml
Mongoliska mn
Marathi mr
Malajiska ms
Burmesiska my
Nepali ne
Nederländska nl
Norska (Bokmal) nb
Odia or
Punjabi pa
Polska pl
Pashto ps
Portugisiska (Brasilien) pt-br
Portugisiska (Portugal) pt-pt
Rumänska ro
Ryska ru
Sanskrit sa
Sindhi sd
Sinhala si
Slovakiska sk
Slovenska sl
Somali so
Albanska sq
Serbiska sr
Sundanese su
Svenska sv
Swahili sw
Tamilska ta
Telugu te
Thailändska th
Filipino tl
Turkiska tr
Uiguriska ug
Ukrainska uk
Urdu ur
Uzbekiska uz
Vietnamesiska vi
Xhosa xh
Jiddisch yi
Kinesiska (förenklad) zh-hans
Zulu zu

Nästa steg