Supporto di lingua e area geografica per LUIS

Articolo
09/01/2024

Importante

LUIS verrà ritirato il 1 ottobre 2025 e a partire dal 1 aprile 2023 non è più possibile creare nuove risorse LUIS. Si consiglia di eseguire la migrazione delle applicazioni LUIS a comprensione del linguaggio di conversazione per sfruttare appieno un supporto costante per i prodotti e le funzionalità multilingue.

LUIS ha un'ampia gamma di funzionalità all'interno del servizio. Non tutte le funzionalità hanno la stessa parità di linguaggio. Assicurarsi che le funzionalità a cui si è interessati siano supportate nella lingua di destinazione. Un'applicazione LUIS è specifica per la cultura e non può essere modificata una volta impostata.

App LUIS multilingue

Se è necessaria un'applicazione client LUIS multilingue, ad esempio un chatbot, sono disponibili alcune opzioni. Se LUIS supporta tutte le lingue, viene sviluppata un'app LUIS per ogni lingua. Ogni app LUIS ha un ID univoco dell'app e un registro di endpoint. Se è necessario fornire la comprensione della lingua per una lingua che LUIS non supporta, è possibile usare il servizio Traduttore per tradurre l'espressione in una lingua supportata, inviare l'espressione all'endpoint LUIS e ricevere i punteggi risultanti.

Nota

Una versione più recente delle funzionalità di Language Understanding è ora disponibile come parte del linguaggio di intelligenza artificiale di Azure. Per altre informazioni, vedere Documentazione del linguaggio di intelligenza artificiale di Azure. Per le funzionalità di comprensione del linguaggio che supportano più lingue all'interno del servizio di linguaggio, vedere Language Understanding per conversazioni.

Lingue supportate

LUIS riconosce espressioni nelle lingue seguenti:

Lingua	Impostazioni locali	Dominio predefinito	Entità predefinita	Raccomandazioni di elenchi di frasi	**Analisi valutazione ed estrazione di frasi chiave
Arabo (anteprima - arabo standard moderno)	`ar-AR`	-	-	-	-
*Cinese	`zh-CN`	✔	✔	✔	-
Olandese	`nl-NL`	✔	-	-	✔
Inglese (Stati Uniti)	`en-US`	✔	✔	✔	✔
Inglese (Regno Unito)	`en-GB`	✔	✔	✔	✔
Francese (Canada)	`fr-CA`	-	-	-	✔
Francese (Francia)	`fr-FR`	✔	✔	✔	✔
Tedesco	`de-DE`	✔	✔	✔	✔
Gujarati (anteprima)	`gu-IN`	-	-	-	-
Hindi (anteprima)	`hi-IN`	-	✔	-	-
Italiano	`it-IT`	✔	✔	✔	✔
*Giapponese	`ja-JP`	✔	✔	✔	Solo frase chiave
Coreano	`ko-KR`	✔	-	-	Solo frase chiave
Marathi (anteprima)	`mr-IN`	-	-	-	-
Portoghese (Brasile)	`pt-BR`	✔	✔	✔	non tutte le impostazioni cultura secondarie
Spagnolo (Messico)	`es-MX`	-	✔	✔	✔
Spagnolo (Spagna)	`es-ES`	✔	✔	✔	✔
Tamil (anteprima)	`ta-IN`	-	-	-	-
Telugu (anteprima)	`te-IN`	-	-	-	-
Turco	`tr-TR`	✔	✔	-	Solo valutazione

Le lingue supportate variano per entità predefinite e domini predefiniti.

*Note sul supporto cinese

Nella cultura zh-CN, LUIS prevede il set di caratteri semplificato cinese al posto del set di caratteri tradizionale.
I nomi di finalità, entità, funzioni ed espressioni regolari possono essere in caratteri cinesi o romani.
Per informazioni sui domini predefiniti supportati nella cultura zh-CN, vedere il riferimento ai domini predefiniti .

*Note sul supporto giapponese

Poiché LUIS non fornisce analisi sintattiche e non riconosce la differenza tra il Keigo e il giapponese informale, è necessario incorporare i diversi livelli di formalità come esempi di training per le proprie applicazioni.
- でございます non è uguale a です.
- です non è uguale a だ.

**Note sul supporto del servizio Lingua

Il servizio Lingua include l'entità predefinita keyPhrase e l'analisi valutazione. Solo il portoghese è supportato per le impostazioni cultura secondarie: pt-PT e pt-BR. Tutte le altre lingue sono supportate a livello di impostazioni di cultura primarie.

Lingue supportate per Speech API

Vedere Lingue supportate dal servizio Voce per le lingue della modalità di dettatura vocale.

Lingue supportate per il Controllo ortografico Bing

Per un elenco delle lingue e dello stato supportati, vedere Lingue supportate per il Controllo ortografico Bing.

Parole rare o in lingua straniera in un'applicazione

Nelle impostazioni cultura en-us, LUIS impara a distinguere la maggior parte delle parole inglesi, compreso lo slang. Nelle impostazioni cultura zh-cn, LUIS impara a distinguere la maggior parte dei caratteri cinesi. Se si utilizza una parola rara in en-us o un carattere in zh-cn, e si nota che LUIS non sembra in grado di distinguere tale parola o carattere, è possibile aggiungere tale parola o carattere a una funzione dell'elenco di frasi. Ad esempio, le parole al di fuori della cultura dell'applicazione, ovvero le parole straniere, dovrebbero essere aggiunte a una funzione dell'elenco di frasi.

Lingue ibride

Le lingue ibride combinano parole di due culture come l'inglese e il cinese. Queste lingue non sono supportate in LUIS perché un'applicazione è basata su un'unica cultura.

Tokenizzazione

Per eseguire l'apprendimento automatico, LUIS suddivide un’espressione in token basati sulla cultura.

Lingua	ogni spazio o carattere speciale	livello di caratteri	parole composte
arabo	✔
Cinese		✔
Olandese	✔		✔
Inglese (en-us)	✔
Inglese (en-GB)	✔
Francese (fr-FR)	✔
Francese (fr-CA)	✔
Tedesco	✔		✔
Gujarati	✔
Hindi	✔
Italiano	✔
Giapponese			✔
Coreano		✔
Marathi	✔
Portoghese (Brasile)	✔
Spagnolo (es-ES)	✔
Spagnolo (es-MX)	✔
Tamil	✔
Telugu	✔
Turco	✔

Versioni del tokenizer personalizzato

Le impostazioni cultura seguenti hanno versioni di tokenizer personalizzate:

Cultura	Versione	Scopo
Tedesco `de-de`	1.0.0	Tokenzza le parole suddividendole usando un tokenizer basato su Machine Learning che tenta di suddividere le parole composite nei singoli componenti. Se un utente immette `Ich fahre einen krankenwagen` come espressione, viene impostato su `Ich fahre einen kranken wagen`. Consentire il contrassegno di `kranken` e `wagen` in modo indipendente come entità diverse.
Tedesco `de-de`	1.0.2	Tokenzza le parole suddividendole in spazi. Se un utente immette `Ich fahre einen krankenwagen` come espressione, rimane un singolo token. Di conseguenza `krankenwagen` , viene contrassegnata come una singola entità.
Olandese `nl-nl`	1.0.0	Tokenzza le parole suddividendole usando un tokenizer basato su Machine Learning che tenta di suddividere le parole composite nei singoli componenti. Se un utente immette `Ik ga naar de kleuterschool` come espressione, viene impostato su `Ik ga naar de kleuter school`. Consentire il contrassegno di `kleuter` e `school` in modo indipendente come entità diverse.
Olandese `nl-nl`	1.0.1	Tokenzza le parole suddividendole in spazi. Se un utente immette `Ik ga naar de kleuterschool` come espressione, rimane un singolo token. Di conseguenza `kleuterschool` , viene contrassegnata come una singola entità.

Migrazione tra versioni del tokenizer

La tokenizzazione avviene a livello di app. Non è disponibile alcun supporto per la tokenizzazione a livello di versione.

Importare il file come nuova app invece di una versione. Questa azione indica che la nuova app ha un ID app diverso, ma usa la versione del tokenizer specificata nel file.

Condividi tramite