Supporto lingue per la classificazione personalizzata del testo

Questo articolo contiene informazioni sulle lingue attualmente supportate dalla funzione di classificazione personalizzata del testo.

Opzione multilingue

Con la classificazione personalizzata del testo, è possibile eseguire il training di un modello in una lingua e usarlo per classificare documenti in un'altra lingua. Questa funzionalità è utile perché consente di risparmiare tempo e lavoro. Anziché compilare progetti separati per ogni lingua, è possibile gestire un set di dati multilingue in un unico progetto. Il set di dati non deve essere interamente nella stessa lingua, ma è necessario abilitare l'opzione multilingue per il progetto durante la creazione o successivamente nelle impostazioni del progetto. Se si nota che le prestazioni del modello sono scarse in determinate lingue durante il processo di valutazione, valutare l’aggiunta di altri dati in queste lingue al set di training.

È possibile eseguire il training del progetto con documenti tutti in inglese ed eseguirne query in: francese, tedesco, mandarino, giapponese, coreano e altre lingue. La classificazione personalizzata del testo semplifica la scalabilità dei progetti in più lingue usando una tecnologia multilingue per il training dei modelli.

Ogni volta che si rileva che le prestazioni per una determinata lingua non sono soddisfacenti come per altre lingue, è possibile aggiungere altri documenti per tale lingua nel progetto. Nella pagina di etichettatura dati in Language Studio, è possibile selezionare la lingua del documento che viene aggiunto. Quando si introducono altri documenti per tale lingua nel modello, si introducono più elementi di sintassi di tale lingua e le stime saranno migliori.

Non è previsto che si aggiunga lo stesso numero di documenti per ogni lingua. È preferibile creare la maggior parte del progetto in un’unica lingua e aggiungere solo alcuni documenti nelle lingue le cui prestazioni sono insoddisfacenti. Se si crea un progetto principalmente in inglese e si inizia a testarlo in francese, tedesco e spagnolo, si potrebbe rilevare che le prestazioni per il tedesco non sono soddisfacenti come per le altre due lingue. In tal caso, valutare l’aggiunta del 5% dei documenti originali in inglese in tedesco, eseguire il training di un nuovo modello e ripetere i test per il tedesco. In tal modo, i risultati per le query in tedesco dovrebbero migliorare. Maggiore è il numero di documenti etichettati aggiunti, maggiori sono le probabilità di ottenere risultati migliori.

Quando si aggiungono dati in un'altra lingua, non è previsto un impatto negativo su altre lingue.

Lingue supportate nella classificazione personalizzata del testo

La classificazione personalizzata del testo supporta file .txt nelle lingue seguenti:

Lingua Codice lingua
Afrikaans af
Amharico am
arabo ar
Assamese as
Azero az
Bielorusso be
Bulgaro bg
Bengalese bn
Breton br
Bosniaco bs
Catalano ca
Ceco cs
Gallese cy
Danese da
Tedesco de
Greco el
Inglese (Stati Uniti) en-us
Esperanto eo
Spagnolo es
Estone et
Basco eu
Persiano fa
Finlandese fi
Francese fr
Frisone occidentale fy
Irlandese ga
Scozzese Gaelico gd
Galiziano gl
Gujarati gu
Hausa ha
Ebraico he
Hindi hi
Croato hr
Ungherese hu
Armeno hy
Indonesiano id
Italiano it
Giapponese ja
Giavanese jv
Georgiano ka
Kazako kk
Khmer km
Kannada kn
Coreano ko
Curdo (Kurmanji) ku
Kirghiso ky
Latino la
Lao lo
Lituano lt
Lettone lv
Malgascio mg
Macedone mk
Malayalam ml
Mongolo mn
Marathi mr
Malese ms
Birmano my
Nepalese ne
Olandese nl
Norvegese (Bokmål) nb
Odia or
Punjabi pa
Polacco pl
Pashto ps
Portoghese (Brasile) pt-br
Portoghese (Portogallo) pt-pt
Romeno ro
Russo ru
Sanskrit sa
Sindhi sd
Sinhala si
Slovacco sk
Sloveno sl
Somalo so
Albanese sq
Serbo sr
Sundanese su
Svedese sv
Swahili sw
Tamil ta
Telugu te
Thai th
Pilipino tl
Turco tr
Uiguro ug
Ucraino uk
Urdu ur
Uzbeco uz
Vietnamita vi
Xhosa xh
Yiddish yi
Cinese semplificato zh-hans
Zulu zu

Passaggi successivi