Che cos'è la traduzione vocale?

Articolo
09/04/2024

Questo articolo illustra i vantaggi e le funzionalità della traduzione con Riconoscimento vocale di Intelligenza artificiale di Azure. Il servizio Voce supporta la traduzione in tempo reale e in più lingue della sintesi vocale e della sintesi vocale dei flussi audio

Usando Speech SDK o l'interfaccia della riga di comando di Voce è possibile consentire ad applicazioni, strumenti e dispositivi di accedere alle trascrizioni di origine e agli output di traduzione per l'audio fornito. I risultati della trascrizione e della traduzione provvisorie vengono restituiti quando viene rilevato il parlato e i risultati finali possono essere convertiti in sintesi vocale.

Per un elenco delle lingue supportate per la traduzione vocale, vedere Lingue e voci supportate.

Suggerimento

Passare a Traduzione vocale: testare e tradurre rapidamente il parlato in altre lingue con bassa latenza.

Funzionalità di base

Le funzionalità principali della traduzione vocale includono:

Traduzione da voce in testo scritto
Traduzione vocale
Traduzione vocale multilingue automatica
Traduzione vocale multilingue automatica

Traduzione da voce in testo scritto

La funzionalità standard offerta dal servizio Voce è la possibilità di inserire un flusso audio di input nella lingua di origine specificata e di convertirla e restituire come testo nella lingua di destinazione specificata.

Traduzione vocale

Come supplemento alla funzionalità precedente, il servizio Voce offre anche la possibilità di leggere ad alta voce il testo tradotto usando il nostro grande database di voci con training preliminare, consentendo un output naturale della voce di input.

Traduzione vocale multilingue automatica (anteprima)

La traduzione vocale multilingue implementa un nuovo livello di tecnologia di traduzione vocale che sblocca varie funzionalità, tra cui la mancata lingua di input specificata e la gestione delle opzioni della lingua all'interno della stessa session e il supporto di traduzioni in streaming live in inglese. Queste funzionalità consentono un nuovo livello di poteri di traduzione vocale che possono essere implementati nei prodotti.

Lingua di input non specificata. La traduzione vocale multilingue può ricevere audio in un'ampia gamma di lingue e non è necessario specificare la lingua di input prevista.
Cambio di lingua. La traduzione vocale multilingue consente di parlare in più lingue durante la stessa sessione e di tradurle tutte nella stessa lingua di destinazione. Non è necessario riavviare una sessione quando cambia la lingua di input o l’utente intraprende una qualsiasi altra azione.
Trascrizione. Il servizio restituisce una trascrizione nella lingua di destinazione specificata. La trascrizione della lingua di origine non è ancora disponibile.

I casi d'uso della traduzione vocale in più lingue includono:

Interprete di viaggio. Quando si viaggia all'estero, la traduzione vocale multilingue offre la possibilità di creare una soluzione che consente ai clienti di tradurre qualsiasi audio di input da e verso la lingua locale. Ciò consente loro di comunicare con la gente del posto e di comprendere meglio i loro dintorni.
Riunione aziendale. In un incontro con persone che parlano lingue diverse, la traduzione vocale multilingue consente ai membri della riunione di comunicare tra loro naturalmente come se non vi fosse alcuna barriera linguistica.

Per la traduzione vocale multilingue, queste sono le lingue che il servizio Voce può rilevare e passare automaticamente dall'input: arabo (ar), basco (eu), bosniaco (bs), bulgaro (bg), cinese semplificato (zh), cinese tradizionale (zhh), ceco (cs), danese (da), olandese (nl), inglese (en), estone (et), finlandese (fi), francese (fr), galiziano (gl), tedesco (de), greco (el), hindi (hi), ungherese (hu), indonesiano (id), italiano (it), giapponese (ja), coreano (ko), lettone (lv), lituano (lt), macedone (mk), norvegese (nb), polacco (pl), portoghese (pt), romeno (ro), russo (ru), serbo (sr), slovacco (sk), sloveno (sl), spagnolo (es), svedese (sv), thai (th), turco (tr), ucraino (uk), vietnamita (vi) e gallese (cy).

Per un elenco delle lingue di output (destinazione) supportate, vedere la tabella Tradurre in lingua di testo nella documentazione relativa alla lingua e al supporto vocale.

Per altre informazioni sulla traduzione vocale multilingue, vedere la traduzione vocale come guidare e esempi di traduzione vocale in GitHub.

Traduzione vocale multilingue automatica

Negli scenari in cui si vuole ottenere l'output in più lingue, il servizio Voce offre direttamente la possibilità di tradurre la lingua di input in due lingue di destinazione. In questo modo è possibile ricevere due output e condividere queste traduzioni a un pubblico più ampio con una singola chiamata API. Se sono necessarie più lingue di output, è possibile creare una risorsa multiservizio o usare servizi di traduzione separati.

Se è necessaria la traduzione in più di due lingue di destinazione, è necessario Creare una risorsa dei servizi di intelligenza artificiale di Azure o usare servizi di traduzione separati per più lingue oltre il secondo. Se si sceglie di chiamare il servizio di traduzione vocale con una risorsa multiservizio, le tariffe di traduzione si applicano per ogni lingua oltre il secondo, in base al numero di caratteri della traduzione.

Per calcolare la tariffa di traduzione applicata, vedere prezzi di Traduttore per Azure AI.

Prezzi per traduzione vocale multilingue automatica

È importante notare che il servizio di traduzione vocale opera in tempo reale e i risultati vocali intermedi vengono convertiti per generare risultati di traduzione intermedia. Di conseguenza, l'effettiva quantità di traduzione è maggiore dei token dell'audio di input. Vengono addebitati i costi per il riconoscimento vocale e la traduzione testuale per ogni lingua di destinazione.

Supponiamo, ad esempio, di voler eseguire traduzioni di testo da un file audio di un'ora a tre lingue di destinazione. Se la trascrizione vocale iniziale contiene 10.000 caratteri, potrebbero essere addebitati 2,80 $.

Avviso

Questi esempi vengono forniti esclusivamente a scopo illustrativo. Per informazioni aggiornate sui prezzi, vedere Voce di Azure AI e prezzi di Traduttore per Azure AI.

Il prezzo di esempio precedente di 2,80 $ è stato calcolato combinando il parlato alla trascrizione del testo e i costi di traduzione testuale. Ecco come è stato eseguito il calcolo:

Il prezzo di listino della traduzione vocale è di 2,50 $ all'ora, coprendo fino a 2 lingue di destinazione. Il prezzo viene usato come esempio di calcolo dei costi. Per informazioni aggiornate sui prezzi, vedere Pagamento a consumo>Traduzione vocale>Standard nella tabella dei prezzi di Voce di Azure AI.
Il costo per la terza traduzione in lingua è 30 centesimi in questo esempio. Il prezzo del listino traduzioni è di 10 $ per milione di caratteri. Poiché il file audio contiene 10.000 caratteri, il costo della traduzione è 10 $ * 10.000 / 1.000.000 * 3 = 0,3 $. Il numero "3" in questa equazione rappresenta un coefficiente di ponderazione del traffico intermedio, che può variare a seconda delle lingue coinvolte. Il prezzo viene usato come esempio di calcolo dei costi. Per informazioni aggiornate sui prezzi, vedere Pagamento a consumo>Traduzione standard>Traduzione testo nella tabella dei prezzi di Traduzione di Azure AI.

Operazioni preliminari

Per iniziare, provare la Guida di avvio rapido sulla traduzione vocale. Il servizio di traduzione vocale è disponibile tramite Speech SDK e l'interfaccia della riga di comando di Voce.

Su GitHub sono disponibili esempi di riconoscimento vocale e traduzione di Speech SDK. Questi esempi esaminano scenari comuni come la lettura di audio da un file o un flusso, la traduzione e il riconoscimento continuo e singolo e l'uso di modelli personalizzati.

Passaggi successivi

Provare la Guida di avvio rapido sulla traduzione vocale
Installare Speech SDK
Installare l'l'interfaccia della riga di comando per Voce

Condividi tramite