Podpora jazyka pro vlastní klasifikaci textu
V tomto článku se dozvíte o jazycích, které aktuálně podporuje funkce vlastní klasifikace textu.
Vícejazyčná možnost
Pomocí vlastní klasifikace textu můžete vytrénovat model v jednom jazyce a použít ke klasifikaci dokumentů v jiném jazyce. Tato funkce je užitečná, protože pomáhá ušetřit čas a úsilí. Místo vytváření samostatných projektů pro každý jazyk můžete zpracovávat vícejazyčnou datovou sadu v jednom projektu. Vaše datová sada nemusí být úplně ve stejném jazyce, ale při vytváření nebo pozdějším vytváření projektu byste měli povolit vícejazyčnou možnost pro váš projekt. Pokud si během procesu vyhodnocení všimnete, že váš model funguje špatně v určitých jazycích, zvažte přidání dalších dat v těchto jazycích do trénovací sady.
Projekt můžete vytrénovat zcela s anglickými dokumenty a dotazovat se na něj v: francouzštině, němčině, mandarínštině, japonštině, korejštině a dalších. Vlastní klasifikace textu usnadňuje škálování projektů do více jazyků pomocí vícejazyčné technologie pro trénování modelů.
Kdykoli zjistíte, že konkrétní jazyk nefunguje ani jiné jazyky, můžete do projektu přidat další dokumenty pro daný jazyk. Na stránce popisků dat v sadě Language Studio můžete vybrat jazyk dokumentu, který přidáváte. Když do modelu představíte více dokumentů pro daný jazyk, seznámíte se s více syntaxí tohoto jazyka a naučíte se ho předpovědět lépe.
Neočekává se, že byste přidali stejný počet dokumentů pro každý jazyk. Většinu projektu byste měli sestavit v jednom jazyce a přidat jenom několik dokumentů v jazycích, které sledujete, nefungují dobře. Pokud vytvoříte projekt, který je primárně v angličtině, a začnete ho testovat ve francouzštině, němčině a španělštině, můžete vidět, že němčina nefunguje stejně jako ostatní dva jazyky. V takovém případě zvažte přidání 5 % původních anglických dokumentů v němčině, vytrénování nového modelu a testování v němčině znovu. Měli byste vidět lepší výsledky pro německé dotazy. Čím více dokumentů s popiskem přidáte, tím pravděpodobnější bude, že výsledky budou lepší.
Když přidáváte data v jiném jazyce, neměli byste očekávat, že budou mít negativní vliv na jiné jazyky.
Jazyky podporované vlastní klasifikací textu
Vlastní klasifikace textu podporuje .txt
soubory v následujících jazycích:
Jazyk | Kód jazyka |
---|---|
Afrikánština | af |
Amharština | am |
Arabština | ar |
Ásámština | as |
Ázerbájdžánština | az |
Běloruština | be |
Bulharština | bg |
Bengálština | bn |
Bretonština | br |
Bosenština | bs |
Katalánština | ca |
Čeština | cs |
Velština | cy |
Dánština | da |
Němčina | de |
Řečtina | el |
English (US) | en-us |
Esperanto | eo |
Španělština | es |
Estonština | et |
Baskičtina | eu |
Perština | fa |
Finština | fi |
Francouzština | fr |
Západní Frisian | fy |
Irština | ga |
Skotská gaelština | gd |
Galicijština | gl |
Gudžarátština | gu |
Hausa | ha |
Hebrejština | he |
Hindština | hi |
Chorvatština | hr |
Maďarština | hu |
Arménština | hy |
Indonéština | id |
Italština | it |
Japonština | ja |
Jávský | jv |
Gruzínština | ka |
Kazaština | kk |
Khmerština | km |
Kannadština | kn |
Korejština | ko |
Kurština (Kurmanji) | ku |
Kyrgyzština | ky |
Latina | la |
Laoština | lo |
Litevština | lt |
Lotyština | lv |
Malgaština | mg |
Makedonština | mk |
Malajalámština | ml |
Mongolština | mn |
Maráthština | mr |
Malajština | ms |
Barmština | my |
Nepálština | ne |
Nizozemština | nl |
Norština (Bokmal) | nb |
Udijština | or |
Paňdžábština | pa |
Polština | pl |
Pashto | ps |
Portugalština (Brazílie) | pt-br |
portugalština (Portugalsko) | pt-pt |
Rumunština | ro |
Ruština | ru |
Sanskrt | sa |
Sindhština | sd |
Sinhala | si |
Slovenština | sk |
Slovinština | sl |
Somálijsko | so |
Albánština | sq |
Srbština | sr |
Sundánština | su |
Švédština | sv |
Svahilština | sw |
Tamilština | ta |
Telugština | te |
Thajština | th |
Filipino | tl |
Turečtina | tr |
Ujgurština | ug |
Ukrajinština | uk |
Urdština | ur |
Uzbečtina | uz |
Vietnamština | vi |
Xhoština | xh |
Jidiš | yi |
Čínština (zjednodušená) | zh-hans |
Zulština | zu |