Rilevare le lingue
Importante
Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.
A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).
- Vedere leinformazioni sullo spostamento di progetti di Machine Learning da ML Studio (versione classica) ad Azure Machine Learning.
- Altre informazioni sulle Azure Machine Learning.
La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.
Rileva la lingua di ogni riga nel file di input
Categoria: Analisi del testo
Nota
Si applica a: Machine Learning Studio (versione classica)
Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.
Panoramica del modulo
Questo articolo descrive come usare il modulo Rileva lingue in Machine Learning Studio (versione classica) per analizzare l'input di testo e identificare la lingua associata a ogni record nell'input.
L'algoritmo di rilevamento della lingua può identificare molte lingue diverse. È sufficiente specificare la colonna stringa da analizzare e il numero totale di lingue da rilevare. L'algoritmo analizza ogni riga di testo e assegna un punteggio di probabilità per ogni lingua. La lingua nella prima colonna dei risultati è la lingua che ha ottenuto il punteggio più alto.
Come configurare Rileva lingue
Aggiungere il set di dati contenente il testo da analizzare a un esperimento in Machine Learning Studio (versione classica). La colonna con il testo da analizzare deve essere di tipo stringa.
Il datset non deve contenere una colonna etichetta. L'algoritmo di rilevamento della lingua funziona esclusivamente sulle funzionalità linguistiche delle lingue supportate.
Se si importano nuovi dati, assicurarsi che i dati siano salvati nel formato UTF-8. Altri formati Unicode non sono supportati.
Aggiungere il modulo Detect Languages (Rileva lingue) all'esperimento e connettere il set di dati con il testo per il rilevamento della lingua.
Per Colonna di testo scegliere la colonna da analizzare.
Per Limite superiore per il numero di lingue da rilevare, indicare il numero massimo di lingue da rilevare.
L'impostazione di un limite superiore per il numero di lingue può migliorare le prestazioni.
Eseguire l'esperimento.
Risultati
Il modulo Detect Languages restituisce un identificatore di lingua e un punteggio per ogni riga.
Ad esempio, la tabella seguente contiene un'analisi di esempio sui dati di test.
Le prime due colonne col1 e language label sono colonne passate dal set di dati di input. In questo esempio, poiché il set di dati di input è stato progettato per testare il modulo, la lingua prevista era già nota e viene specificata nella colonna label.
Le colonne rimanenti vengono generate dal modulo Rileva lingue. Se sono presenti corrispondenze di lingua equi-probabili, potrebbero essere elencate diverse lingue, con un punteggio per ognuna. In questo caso, il modulo stima una sola lingua per ogni riga, insieme al punteggio di probabilità per tale lingua.
Se il modulo non riesce a rilevare una lingua con un punteggio sufficientemente elevato, viene restituito un risultato di (Sconosciuto) con un punteggio pari a 0. Tuttavia, i linguaggi supportati dal modulo possono cambiare nel tempo quando l'API viene aggiornata.
Col1 | Etichetta lingua | Lingua Col1 | Lingua Iso6391 di Col1 | Col1 Iso6391 Language Score |
---|---|---|---|---|
È stato un hotel straordinario con un personale descrittivo e un buon servizio | Inglese | Inglese | en | 100 |
Es war ein wunderbares Hotel mit freundlichem Personal und guter service | Tedesco | Tedesco | de | 100 |
C'est un lentezza hétel avec un personnel e un service de qualité | Francese | Francese | fr | 100 |
Det var et dejligt hotel med et venligt personale ogberg service | Danese | Danese | nl | 100 |
Va ser un magnòfic hotel amb un personal amable i bon servei | Catalano | Catalano | ca | 92.30769348 |
とても素敵なホテルで、スタッフは親切で、サービスもよかった | Giapponese | (Sconosciuto) | 0 | |
qu mebpa'mey naQ friendly QaQ chavmoH je | Klingon | Francese | fr | 77.5 |
Esempio
Per esempi di come viene usato il modulo Detect Languages in un esperimento, vedere il Azure AI Gallery:
- Filtra i titoli dei film in base alla lingua: rileva la lingua usata nei nomi dei film e quindi usa l'identificatore della lingua per suddividere il set di dati in film in inglese e non in inglese.
Note tecniche
Per un'idea generale delle lingue che potenzialmente possono essere rilevate, vedere Bing Translator.
È possibile che siano rilevate molte più lingue Machine Learning attualmente supportate per l'analisi avanzata del testo. È consigliabile usare i risultati di Rileva lingue per filtrare i risultati inviati ad altri moduli che richiedono l'elaborazione specifica della lingua.
I servizi linguistici sottostanti vengono usati anche dal servizio Analisi del testo in Servizi cognitivi di Azure.
Input previsti
Nome | Tipo | Descrizione |
---|---|---|
Set di dati | Tabella dati | di input |
Parametri del modulo
Nome | Tipo | Intervallo | Facoltativo | Predefinito | Descrizione |
---|---|---|---|---|---|
Limite superiore per il numero di lingue da rilevare | Integer | [1;184] | Necessario | 1 | Limite superiore per il numero di lingue da rilevare. |
Colonna di testo | ColumnSelection | Necessario | Nome o indice in base uno della colonna di testo. |
Output
Nome | Tipo | Descrizione |
---|---|---|
Set di dati di risultati | Tabella dati | Risultato |
Eccezioni
Eccezione | Descrizione |
---|---|
Errore 0003 | L'eccezione si verifica se uno o più input sono null o vuoti. |
Errore 0010 | L'eccezione si verifica se i nomi di colonna nei set di dati di input non corrispondono, mentre dovrebbero essere corrispondenti. |
Errore 0016 | L'eccezione si verifica se i tipi di colonna dei set di dati di input passati al modulo dovrebbero essere compatibili ma non lo sono. |
Errore 0008 | L'eccezione si verifica se il parametro non rientra nell'intervallo. |
Per un elenco di errori specifici dei moduli di Studio (versione classica), vedere l'Machine Learning codici di errore.
Per un elenco delle eccezioni API, vedere l'Machine Learning di errore dell'API REST.