Suporte de idioma e região para LUIS
Importante
O LUIS será aposentado em 1º de outubro de 2025 e a partir de 1º de abril de 2023 você não poderá criar novos recursos do LUIS. Recomendamos migrar seus aplicativos LUIS para o entendimento de linguagem conversacional para se beneficiar do suporte contínuo ao produto e dos recursos multilíngues.
O LUIS tem uma variedade de funcionalidades dentro do serviço. Nem todas as funcionalidades estão na mesma paridade de idiomas. Confirme que as funcionalidades que lhe interessam são suportadas na cultura do idioma que está a segmentar. Um aplicativo LUIS é específico da cultura e não pode ser alterado depois de definido.
Aplicações LUIS multilingues
Se você precisa de um aplicativo cliente LUIS multilíngue, como um chatbot, você tem algumas opções. Se o LUIS suportar todos os idiomas, você desenvolve um aplicativo LUIS para cada idioma. Cada aplicativo LUIS tem um ID de aplicativo exclusivo e um log de ponto de extremidade. Se você precisar fornecer compreensão de idioma para um idioma que o LUIS não suporta, você pode usar o serviço Tradutor para traduzir o enunciado para um idioma suportado, enviar o enunciado para o ponto de extremidade LUIS e receber as pontuações resultantes.
Nota
Uma versão mais recente dos recursos de Compreensão de Idiomas agora está disponível como parte da Linguagem de IA do Azure. Para obter mais informações, consulte Documentação da Linguagem do Azure AI. Para obter recursos de compreensão de idiomas que oferecem suporte a vários idiomas no Serviço de Idiomas, consulte Compreensão de linguagem conversacional.
Idiomas suportados
O LUIS compreende enunciados nas seguintes línguas:
Idioma | Região | Domínio pré-construído | Entidade pré-construída | Recomendações da lista de frases | **Análise de sentimento e extração de frases-chave |
---|---|---|---|---|---|
Árabe (pré-visualização - árabe padrão moderno) | ar-AR |
- | - | - | - |
*Chinês | zh-CN |
✔ | ✔ | ✔ | - |
Neerlandês | nl-NL |
✔ | - | - | ✔ |
Inglês (Estados Unidos) | en-US |
✔ | ✔ | ✔ | ✔ |
English (UK) | en-GB |
✔ | ✔ | ✔ | ✔ |
Francês (Canadá) | fr-CA |
- | - | - | ✔ |
Francês (França) | fr-FR |
✔ | ✔ | ✔ | ✔ |
Alemão | de-DE |
✔ | ✔ | ✔ | ✔ |
Gujarati (pré-visualização) | gu-IN |
- | - | - | - |
Hindi (pré-visualização) | hi-IN |
- | ✔ | - | - |
Italiano | it-IT |
✔ | ✔ | ✔ | ✔ |
*Japonês | ja-JP |
✔ | ✔ | ✔ | Apenas frase-chave |
Coreano | ko-KR |
✔ | - | - | Apenas frase-chave |
Marathi (pré-visualização) | mr-IN |
- | - | - | - |
Português (Brasil) | pt-BR |
✔ | ✔ | ✔ | nem todas as subculturas |
Espanhol (México) | es-MX |
- | ✔ | ✔ | ✔ |
Espanhol (Espanha) | es-ES |
✔ | ✔ | ✔ | ✔ |
Tâmil (pré-visualização) | ta-IN |
- | - | - | - |
Telugu (pré-visualização) | te-IN |
- | - | - | - |
Turco | tr-TR |
✔ | ✔ | - | Apenas sentimento |
O suporte a idiomas varia para entidades e domínios pré-construídos.
*Notas de suporte em chinês
- Na cultura, o
zh-CN
LUIS espera o conjunto de caracteres chinês simplificado em vez do conjunto de caracteres tradicional. - Os nomes de intenções, entidades, características e expressões regulares podem estar em caracteres chineses ou romanos.
- Consulte a referência de domínios pré-construídos para obter informações sobre quais domínios pré-construídos são suportados
zh-CN
na cultura.
*Notas de suporte em japonês
- Como o LUIS não fornece análise sintática e não entenderá a diferença entre Keigo e japonês informal, você precisa incorporar os diferentes níveis de formalidade como exemplos de treinamento para suas aplicações.
- でございます não é o mesmo que です.
- です não é o mesmo que だ.
**Notas de suporte do serviço linguístico
O serviço Language inclui keyPhrase prebuilt entity e análise de sentimento. Apenas o português é suportado para subculturas: pt-PT
e pt-BR
. Todas as outras culturas são apoiadas ao nível da cultura primária.
Idiomas suportados pela API de fala
Consulte Idiomas suportados por fala para Idiomas do modo de ditado de fala.
Idiomas suportados pela Verificação Ortográfica do Bing
Consulte Verificação ortográfica do Bing: idiomas suportados para obter uma lista de idiomas e status suportados.
Palavras raras ou estrangeiras numa aplicação
Na cultura, LUIS aprende a distinguir a en-us
maioria das palavras em inglês, incluindo gírias. zh-cn
Na cultura, LUIS aprende a distinguir a maioria dos caracteres chineses. Se você usar uma palavra ou caractere raro no en-us
zh-cn
, e vir que o LUIS parece incapaz de distinguir essa palavra ou caractere, você pode adicionar essa palavra ou caractere a um recurso de lista de frases. Por exemplo, palavras fora da cultura do aplicativo - ou seja, palavras estrangeiras - devem ser adicionadas a um recurso de lista de frases.
Idiomas híbridos
As línguas híbridas combinam palavras de duas culturas, como o inglês e o chinês. Esses idiomas não são suportados no LUIS porque um aplicativo é baseado em uma única cultura.
Tokenização
Para executar o aprendizado de máquina, o LUIS divide um enunciado em tokens com base na cultura.
Idioma | cada espaço ou caractere especial | nível de personagem | palavras compostas |
---|---|---|---|
Árabe | ✔ | ||
Chinês | ✔ | ||
Neerlandês | ✔ | ✔ | |
Inglês (en-us) | ✔ | ||
Português (pt-BR) | ✔ | ||
Francês (fr-FR) | ✔ | ||
Francês (fr-CA) | ✔ | ||
Alemão | ✔ | ✔ | |
Guzerate | ✔ | ||
Hindi | ✔ | ||
Italiano | ✔ | ||
Japonês | ✔ | ||
Coreano | ✔ | ||
Marata | ✔ | ||
Português (Brasil) | ✔ | ||
Espanhol (es-ES) | ✔ | ||
Espanhol (es-MX) | ✔ | ||
Tâmil | ✔ | ||
Telugu | ✔ | ||
Turco | ✔ |
Versões personalizadas do tokenizador
As seguintes culturas têm versões personalizadas do tokenizador:
Cultura | Versão | Propósito |
---|---|---|
Alemãode-de |
1.0.0 | Tokeniza palavras dividindo-as usando um tokenizador baseado em aprendizado de máquina que tenta dividir palavras compostas em seus componentes únicos. Se um usuário entrar Ich fahre einen krankenwagen como um enunciado, ele será transformado em Ich fahre einen kranken wagen . Permitindo a marcação de kranken e wagen de forma independente como entidades diferentes. |
Alemãode-de |
1.0.2 | Tokeniza palavras dividindo-as em espaços. Se um usuário entrar Ich fahre einen krankenwagen como um enunciado, ele permanecerá um único token. Assim krankenwagen é marcado como uma entidade única. |
Neerlandêsnl-nl |
1.0.0 | Tokeniza palavras dividindo-as usando um tokenizador baseado em aprendizado de máquina que tenta dividir palavras compostas em seus componentes únicos. Se um usuário entrar Ik ga naar de kleuterschool como um enunciado, ele será transformado em Ik ga naar de kleuter school . Permitindo a marcação de kleuter e school de forma independente como entidades diferentes. |
Neerlandêsnl-nl |
1.0.1 | Tokeniza palavras dividindo-as em espaços. Se um usuário entrar Ik ga naar de kleuterschool como um enunciado, ele permanecerá um único token. Assim kleuterschool é marcado como uma entidade única. |
Migrando entre versões do tokenizador
A tokenização acontece no nível do aplicativo. Não há suporte para tokenização no nível da versão.
Importe o arquivo como um novo aplicativo, em vez de uma versão. Essa ação significa que o novo aplicativo tem um ID de aplicativo diferente, mas usa a versão do tokenizador especificada no arquivo.