Che cosa sono le voci sintesi vocale di OpenAI?
Analogamente alle voci di Voce di Azure AI, le voci di sintesi vocale di OpenAI offrono alta qualità per convertire testo scritto in audio vocale naturale. Questo consente di sfruttare un'ampia gamma di possibilità per esperienze utente immersive e interattive.
Le voci di sintesi vocale OpenAI sono disponibili tramite due varianti di modello: Neural
e NeuralHD
.
Neural
: ottimizzato per i casi d'uso in tempo reale con la latenza più bassa, ma con una qualità inferiore rispetto aNeuralHD
.NeuralHD
: ottimizzato per la qualità.
Voci di sintesi vocale disponibili nei servizi di intelligenza artificiale di Azure
Ci si potrebbe chiedere: se si vuole usare una voce di sintesi vocale OpenAI, è consigliabile usarlo tramite il servizio Azure OpenAI o tramite Riconoscimento vocale di Azure per intelligenza artificiale? Quali sono gli scenari che mi guidano a usare uno o l'altro?
Ogni modello vocale offre funzionalità e caratteristiche distinte, consentendo di scegliere quella più adatta alle proprie esigenze specifiche. Si vogliono comprendere le opzioni e le differenze tra le voci di sintesi vocale disponibili nei servizi di intelligenza artificiale di Azure.
È possibile scegliere tra le seguenti voci di sintesi vocale disponibili nei servizi di intelligenza artificiale di Azure:
- Voci di sintesi vocale OpenAI nel servizio OpenAI di Azure. Disponibile nelle aree seguenti: Stati Uniti centro-settentrionali e Svezia centrale.
- Voci di sintesi vocale OpenAI in Riconoscimento vocale di Azure per intelligenza artificiale. Disponibile nelle aree seguenti: Stati Uniti centro-settentrionali e Svezia centrale.
- Voci di sintesi vocale del servizio Voce di Azure AI. Disponibile in decine di aree. Vedere l'elenco delle aree.
Voci di sintesi vocale OpenAI tramite Servizio OpenAI di Azure o tramite Voce di Azure AI?
Se si vogliono usare le voci di sintesi vocale OpenAI, è possibile scegliere se usarle tramite Azure OpenAI o tramite Voce di Azure AI. È possibile visitare la galleria Voce per ascoltare campioni vocali o di sintesi vocale di Azure OpenAI con il proprio testo usando la Creazione di contenuto audio. L'output audio è identico in entrambi i casi, con alcune piccole differenze di funzionalità tra i due servizi. Vedere la tabella di seguito per ulteriori dettagli.
Ecco un confronto delle funzionalità tra voci di sintesi vocale OpenAI nel servizio OpenAI di Azure e voci di sintesi vocale OpenAI alle voci vocali in Voce di Azure AI.
Funzionalità | Servizio OpenAI di Azure (voci OpenAI) | Voce di Azure AI (voci OpenAI) | Voci di Voce di Azure AI |
---|---|---|---|
Area | Stati Uniti centro-settentrionali, Svezia centrale | Stati Uniti centro-settentrionali, Svezia centrale | Disponibile in decine di aree. Vedere l'elenco delle aree. |
Varietà voce | 6 | 12 | Più di 500 |
Numero di voce multilingue | 6 | 12 | 49 |
Copertura massima del linguaggio multilingue | 57 | 57 | 77 |
Supporto di SSML (Speech Synthesis Markup Language) | Non supportato | Supporto per un subset di elementi SSML. | Supporto per il set completo di SSML in Voce di Azure AI. |
Opzioni di sviluppo | REST API | Speech SDK, interfaccia della riga di comando di Voce, API REST | Speech SDK, interfaccia della riga di comando di Voce, API REST |
Opzioni di distribuzione | Solo nel cloud | Solo nel cloud | Cloud, embedded, ibrido e contenitori. |
Sintesi in tempo reale o batch | In tempo reale | Sintesi batch e in tempo reale | Sintesi batch e in tempo reale |
Latenza | maggiore di 500 ms | maggiore di 500 ms | minori di 300 ms |
Frequenza di campionamento dell'audio sintetizzato | 24 kHz | 8, 16, 24 e 48 kHz | 8, 16, 24 e 48 kHz |
Formato audio di output vocale | opus, mp3, aac, flac | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Sono disponibili funzionalità e caratteristiche aggiuntive in Voce di Azure AI che non sono accessibili con le voci OpenAI. Ad esempio:
- Le voci di sintesi vocale OpenAI in Voce di Azure AI supportano solo un sottoinsieme di elementi SSML. Le voci di Voce di Azure AI supportano l'insieme completo di elementi SSML.
- Voce di Azure AI supporta gli eventi di confine di parola. Le voci OpenAI non supportano gli eventi di confine di parola.
Elementi SSML supportati da voci di sintesi vocale OpenAI in Voce di Azure AI
Il Linguaggio markup di sintesi vocale (SSML) con testo di input determina la struttura, il contenuto e altre caratteristiche dell'output vocale. Ad esempio, è possibile usare SSML per definire un paragrafo, una frase, un'interruzione o una pausa, o il silenzio. È possibile racchiudere il testo fra tag di evento, ad esempio segnalibro o visema, che possono essere elaborati in un secondo momento dall'applicazione.
La tabella seguente descrive gli elementi SSML (Speech Synthesis Markup Language) supportati da voci di sintesi vocale OpenAI in Voce di Azure AI. Per le voci OpenAI è supportato solo il sottoinsieme di tag SSML seguente. Per altre informazioni, vedere Struttura ed eventi di documenti SSML.
Nome dell'elemento SSML | Descrizione |
---|---|
<speak> |
Racchiude l'intero contenuto da pronunciare. È l’elemento radice di un documento SSML. |
<voice> |
Specifica una voce utilizzata per l'output di sintesi vocale. |
<sub> |
Indica che il valore di testo dell'attributo alias deve essere pronunciato al posto del testo racchiuso dell'elemento. |
<say-as> |
Indica il tipo di contenuto, ad esempio numero o data, del testo dell'elemento. Tutti i valori della proprietà interpret-as sono supportati per questo elemento ad eccezione di interpret-as="name" . Ad esempio, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> è supportato, ma <say-as interpret-as="name">ED</say-as> non lo è. Per altre informazioni, vedere Pronuncia con SSML. |
<s> |
Indica frasi. |
<lang> |
Indica le impostazioni locali predefinite per la lingua che si vuole che la voce neurale parli. |
<break> |
Utilizzare per eseguire l'override del comportamento predefinito di interruzioni o pause tra le parole. |