Suporte de idioma e região para LUIS

Artigo
09/01/2024

Importante

O LUIS será aposentado em 1º de outubro de 2025 e a partir de 1º de abril de 2023 você não poderá criar novos recursos do LUIS. Recomendamos migrar seus aplicativos LUIS para o entendimento de linguagem conversacional para se beneficiar do suporte contínuo ao produto e dos recursos multilíngues.

O LUIS tem uma variedade de funcionalidades dentro do serviço. Nem todas as funcionalidades estão na mesma paridade de idiomas. Confirme que as funcionalidades que lhe interessam são suportadas na cultura do idioma que está a segmentar. Um aplicativo LUIS é específico da cultura e não pode ser alterado depois de definido.

Aplicações LUIS multilingues

Se você precisa de um aplicativo cliente LUIS multilíngue, como um chatbot, você tem algumas opções. Se o LUIS suportar todos os idiomas, você desenvolve um aplicativo LUIS para cada idioma. Cada aplicativo LUIS tem um ID de aplicativo exclusivo e um log de ponto de extremidade. Se você precisar fornecer compreensão de idioma para um idioma que o LUIS não suporta, você pode usar o serviço Tradutor para traduzir o enunciado para um idioma suportado, enviar o enunciado para o ponto de extremidade LUIS e receber as pontuações resultantes.

Nota

Uma versão mais recente dos recursos de Compreensão de Idiomas agora está disponível como parte da Linguagem de IA do Azure. Para obter mais informações, consulte Documentação da Linguagem do Azure AI. Para obter recursos de compreensão de idiomas que oferecem suporte a vários idiomas no Serviço de Idiomas, consulte Compreensão de linguagem conversacional.

Idiomas suportados

O LUIS compreende enunciados nas seguintes línguas:

Idioma	Região	Domínio pré-construído	Entidade pré-construída	Recomendações da lista de frases	**Análise de sentimento e extração de frases-chave
Árabe (pré-visualização - árabe padrão moderno)	`ar-AR`	-	-	-	-
*Chinês	`zh-CN`	✔	✔	✔	-
Neerlandês	`nl-NL`	✔	-	-	✔
Inglês (Estados Unidos)	`en-US`	✔	✔	✔	✔
English (UK)	`en-GB`	✔	✔	✔	✔
Francês (Canadá)	`fr-CA`	-	-	-	✔
Francês (França)	`fr-FR`	✔	✔	✔	✔
Alemão	`de-DE`	✔	✔	✔	✔
Gujarati (pré-visualização)	`gu-IN`	-	-	-	-
Hindi (pré-visualização)	`hi-IN`	-	✔	-	-
Italiano	`it-IT`	✔	✔	✔	✔
*Japonês	`ja-JP`	✔	✔	✔	Apenas frase-chave
Coreano	`ko-KR`	✔	-	-	Apenas frase-chave
Marathi (pré-visualização)	`mr-IN`	-	-	-	-
Português (Brasil)	`pt-BR`	✔	✔	✔	nem todas as subculturas
Espanhol (México)	`es-MX`	-	✔	✔	✔
Espanhol (Espanha)	`es-ES`	✔	✔	✔	✔
Tâmil (pré-visualização)	`ta-IN`	-	-	-	-
Telugu (pré-visualização)	`te-IN`	-	-	-	-
Turco	`tr-TR`	✔	✔	-	Apenas sentimento

O suporte a idiomas varia para entidades e domínios pré-construídos.

*Notas de suporte em chinês

Na cultura, o zh-CN LUIS espera o conjunto de caracteres chinês simplificado em vez do conjunto de caracteres tradicional.
Os nomes de intenções, entidades, características e expressões regulares podem estar em caracteres chineses ou romanos.
Consulte a referência de domínios pré-construídos para obter informações sobre quais domínios pré-construídos são suportados zh-CN na cultura.

*Notas de suporte em japonês

Como o LUIS não fornece análise sintática e não entenderá a diferença entre Keigo e japonês informal, você precisa incorporar os diferentes níveis de formalidade como exemplos de treinamento para suas aplicações.
- でございます não é o mesmo que です.
- です não é o mesmo que だ.

**Notas de suporte do serviço linguístico

O serviço Language inclui keyPhrase prebuilt entity e análise de sentimento. Apenas o português é suportado para subculturas: pt-PT e pt-BR. Todas as outras culturas são apoiadas ao nível da cultura primária.

Idiomas suportados pela API de fala

Consulte Idiomas suportados por fala para Idiomas do modo de ditado de fala.

Idiomas suportados pela Verificação Ortográfica do Bing

Consulte Verificação ortográfica do Bing: idiomas suportados para obter uma lista de idiomas e status suportados.

Palavras raras ou estrangeiras numa aplicação

Na cultura, LUIS aprende a distinguir a en-us maioria das palavras em inglês, incluindo gírias. zh-cn Na cultura, LUIS aprende a distinguir a maioria dos caracteres chineses. Se você usar uma palavra ou caractere raro no en-us zh-cn, e vir que o LUIS parece incapaz de distinguir essa palavra ou caractere, você pode adicionar essa palavra ou caractere a um recurso de lista de frases. Por exemplo, palavras fora da cultura do aplicativo - ou seja, palavras estrangeiras - devem ser adicionadas a um recurso de lista de frases.

Idiomas híbridos

As línguas híbridas combinam palavras de duas culturas, como o inglês e o chinês. Esses idiomas não são suportados no LUIS porque um aplicativo é baseado em uma única cultura.

Tokenização

Para executar o aprendizado de máquina, o LUIS divide um enunciado em tokens com base na cultura.

Idioma	cada espaço ou caractere especial	nível de personagem	palavras compostas
Árabe	✔
Chinês		✔
Neerlandês	✔		✔
Inglês (en-us)	✔
Português (pt-BR)	✔
Francês (fr-FR)	✔
Francês (fr-CA)	✔
Alemão	✔		✔
Guzerate	✔
Hindi	✔
Italiano	✔
Japonês			✔
Coreano		✔
Marata	✔
Português (Brasil)	✔
Espanhol (es-ES)	✔
Espanhol (es-MX)	✔
Tâmil	✔
Telugu	✔
Turco	✔

Versões personalizadas do tokenizador

As seguintes culturas têm versões personalizadas do tokenizador:

Cultura	Versão	Propósito
Alemão `de-de`	1.0.0	Tokeniza palavras dividindo-as usando um tokenizador baseado em aprendizado de máquina que tenta dividir palavras compostas em seus componentes únicos. Se um usuário entrar `Ich fahre einen krankenwagen` como um enunciado, ele será transformado em `Ich fahre einen kranken wagen`. Permitindo a marcação de `kranken` e `wagen` de forma independente como entidades diferentes.
Alemão `de-de`	1.0.2	Tokeniza palavras dividindo-as em espaços. Se um usuário entrar `Ich fahre einen krankenwagen` como um enunciado, ele permanecerá um único token. Assim `krankenwagen` é marcado como uma entidade única.
Neerlandês `nl-nl`	1.0.0	Tokeniza palavras dividindo-as usando um tokenizador baseado em aprendizado de máquina que tenta dividir palavras compostas em seus componentes únicos. Se um usuário entrar `Ik ga naar de kleuterschool` como um enunciado, ele será transformado em `Ik ga naar de kleuter school`. Permitindo a marcação de `kleuter` e `school` de forma independente como entidades diferentes.
Neerlandês `nl-nl`	1.0.1	Tokeniza palavras dividindo-as em espaços. Se um usuário entrar `Ik ga naar de kleuterschool` como um enunciado, ele permanecerá um único token. Assim `kleuterschool` é marcado como uma entidade única.

Migrando entre versões do tokenizador

A tokenização acontece no nível do aplicativo. Não há suporte para tokenização no nível da versão.

Importe o arquivo como um novo aplicativo, em vez de uma versão. Essa ação significa que o novo aplicativo tem um ID de aplicativo diferente, mas usa a versão do tokenizador especificada no arquivo.

Partilhar via