Suporte de idioma para reconhecimento personalizado de entidade nomeada

Use este artigo para saber mais sobre os idiomas atualmente suportados pelo recurso personalizado de reconhecimento de entidade nomeada.

Opção multilingue

Com o NER personalizado, você pode treinar um modelo em um idioma e usar para extrair entidades de documentos em outro idioma. Este recurso é poderoso porque ajuda a economizar tempo e esforço. Em vez de criar projetos separados para cada idioma, você pode lidar com conjuntos de dados multilíngues em um projeto. Seu conjunto de dados não precisa estar totalmente no mesmo idioma, mas você deve habilitar a opção multilíngue para seu projeto durante a criação ou posterior nas configurações do projeto. Se notar que o seu modelo tem um desempenho fraco em determinadas línguas durante o processo de avaliação, considere adicionar mais dados nessas línguas ao seu conjunto de formação.

Você pode treinar seu projeto inteiramente com documentos em inglês e consultá-lo em: francês, alemão, mandarim, japonês, coreano e outros. O reconhecimento personalizado de entidades nomeadas facilita o dimensionamento de seus projetos para vários idiomas usando tecnologia multilíngue para treinar seus modelos.

Sempre que identificar que uma determinada língua não está a funcionar tão bem como outras línguas, pode adicionar mais documentos para essa língua no seu projeto. Na página de rotulagem de dados no Language Studio, você pode selecionar o idioma do documento que está adicionando. Quando você introduz mais documentos para essa linguagem no modelo, ela é introduzida a mais sintaxe dessa linguagem e aprende a prevê-la melhor.

Não se espera que adicione o mesmo número de documentos para todos os idiomas. Você deve construir a maioria do seu projeto em um idioma e adicionar apenas alguns documentos em idiomas que você observa que não estão tendo um bom desempenho. Se você criar um projeto principalmente em inglês e começar a testá-lo em francês, alemão e espanhol, poderá observar que o alemão não funciona tão bem quanto os outros dois idiomas. Nesse caso, considere adicionar 5% dos seus documentos originais em inglês em alemão, treinar um novo modelo e testar novamente em alemão. Você deve ver melhores resultados para consultas alemãs. Quanto mais documentos rotulados você adicionar, maior a probabilidade de os resultados melhorarem.

Quando você adiciona dados em outro idioma, não deve esperar que isso afete negativamente outros idiomas.

Suporte de idiomas

O NER personalizado suporta .txt ficheiros nos seguintes idiomas:

Linguagem Código de idioma
Afrikaans af
Amárico am
Árabe ar
Assamês as
Azerbaijanês az
Bielorrusso be
Búlgaro bg
Bengalês bn
Bretão br
Bósnio bs
Catalão ca
Checo cs
Galês cy
Dinamarquês da
Alemão de
Grego el
English (US) en-us
Esperanto eo
Espanhol es
Estónio et
Basco eu
Persa fa
Finlandês fi
Francês fr
Frísio Ocidental fy
Irlandês ga
Gaélico escocês gd
Galego gl
Guzerate gu
Hausa ha
Hebraico he
Hindi hi
Croata hr
Húngaro hu
Arménio hy
Indonésio id
Italiano it
Japonês ja
Javanês jv
Georgiano ka
Cazaque kk
Khmer km
Canarês kn
Coreano ko
Curdo (Kurmanji) ku
Quirguize ky
Latim la
Laos lo
Lituano lt
Letão lv
Malgaxe mg
Macedónio mk
Malaiala ml
Mongol mn
Marata mr
Malaio ms
Birmanês my
Nepalês ne
Neerlandês nl
Norueguês (Bokmal) nb
Odia or
Punjabi pa
Polaco pl
Pashto ps
Português (Brasil) pt-br
Português (Portugal) pt-pt
Romeno ro
Russo ru
Sânscrito sa
Sindhi sd
Cingalês si
Eslovaco sk
Esloveno sl
Somali so
Albanês sq
Sérvio sr
Sundanês su
Sueco sv
Suaíli sw
Tâmil ta
Telugu te
Tailandês th
Filipino tl
Turco tr
Uigur ug
Ucraniano uk
Urdu ur
Usbeque uz
Vietnamita vi
Xhosa xh
Iídiche yi
Chinês (Simplificado) zh-hans
Zulu zu

Próximos passos