Che cosa sono le voci sintesi vocale di OpenAI?

Analogamente alle voci di Voce di Azure AI, le voci di sintesi vocale di OpenAI offrono alta qualità per convertire testo scritto in audio vocale naturale. Questo consente di sfruttare un'ampia gamma di possibilità per esperienze utente immersive e interattive.

Le voci di sintesi vocale OpenAI sono disponibili tramite due varianti di modello: Neural e NeuralHD.

  • Neural: ottimizzato per i casi d'uso in tempo reale con la latenza più bassa, ma con una qualità inferiore rispetto a NeuralHD.
  • NeuralHD: ottimizzato per la qualità.

Voci di sintesi vocale disponibili nei servizi di intelligenza artificiale di Azure

Ci si potrebbe chiedere: se si vuole usare una voce di sintesi vocale OpenAI, è consigliabile usarlo tramite il servizio Azure OpenAI o tramite Riconoscimento vocale di Azure per intelligenza artificiale? Quali sono gli scenari che mi guidano a usare uno o l'altro?

Ogni modello vocale offre funzionalità e caratteristiche distinte, consentendo di scegliere quella più adatta alle proprie esigenze specifiche. Si vogliono comprendere le opzioni e le differenze tra le voci di sintesi vocale disponibili nei servizi di intelligenza artificiale di Azure.

È possibile scegliere tra le seguenti voci di sintesi vocale disponibili nei servizi di intelligenza artificiale di Azure:

Voci di sintesi vocale OpenAI tramite Servizio OpenAI di Azure o tramite Voce di Azure AI?

Se si vogliono usare le voci di sintesi vocale OpenAI, è possibile scegliere se usarle tramite Azure OpenAI o tramite Voce di Azure AI. È possibile visitare la galleria Voce per ascoltare campioni vocali o di sintesi vocale di Azure OpenAI con il proprio testo usando la Creazione di contenuto audio. L'output audio è identico in entrambi i casi, con alcune piccole differenze di funzionalità tra i due servizi. Vedere la tabella di seguito per ulteriori dettagli.

Ecco un confronto delle funzionalità tra voci di sintesi vocale OpenAI nel servizio OpenAI di Azure e voci di sintesi vocale OpenAI alle voci vocali in Voce di Azure AI.

Funzionalità Servizio OpenAI di Azure (voci OpenAI) Voce di Azure AI (voci OpenAI) Voci di Voce di Azure AI
Area Stati Uniti centro-settentrionali, Svezia centrale Stati Uniti centro-settentrionali, Svezia centrale Disponibile in decine di aree. Vedere l'elenco delle aree.
Varietà voce 6 12 Più di 500
Numero di voce multilingue 6 12 49
Copertura massima del linguaggio multilingue 57 57 77
Supporto di SSML (Speech Synthesis Markup Language) Non supportato Supporto per un subset di elementi SSML. Supporto per il set completo di SSML in Voce di Azure AI.
Opzioni di sviluppo REST API Speech SDK, interfaccia della riga di comando di Voce, API REST Speech SDK, interfaccia della riga di comando di Voce, API REST
Opzioni di distribuzione Solo nel cloud Solo nel cloud Cloud, embedded, ibrido e contenitori.
Sintesi in tempo reale o batch In tempo reale Sintesi batch e in tempo reale Sintesi batch e in tempo reale
Latenza maggiore di 500 ms maggiore di 500 ms minori di 300 ms
Frequenza di campionamento dell'audio sintetizzato 24 kHz 8, 16, 24 e 48 kHz 8, 16, 24 e 48 kHz
Formato audio di output vocale opus, mp3, aac, flac opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Sono disponibili funzionalità e caratteristiche aggiuntive in Voce di Azure AI che non sono accessibili con le voci OpenAI. Ad esempio:

Elementi SSML supportati da voci di sintesi vocale OpenAI in Voce di Azure AI

Il Linguaggio markup di sintesi vocale (SSML) con testo di input determina la struttura, il contenuto e altre caratteristiche dell'output vocale. Ad esempio, è possibile usare SSML per definire un paragrafo, una frase, un'interruzione o una pausa, o il silenzio. È possibile racchiudere il testo fra tag di evento, ad esempio segnalibro o visema, che possono essere elaborati in un secondo momento dall'applicazione.

La tabella seguente descrive gli elementi SSML (Speech Synthesis Markup Language) supportati da voci di sintesi vocale OpenAI in Voce di Azure AI. Per le voci OpenAI è supportato solo il sottoinsieme di tag SSML seguente. Per altre informazioni, vedere Struttura ed eventi di documenti SSML.

Nome dell'elemento SSML Descrizione
<speak> Racchiude l'intero contenuto da pronunciare. È l’elemento radice di un documento SSML.
<voice> Specifica una voce utilizzata per l'output di sintesi vocale.
<sub> Indica che il valore di testo dell'attributo alias deve essere pronunciato al posto del testo racchiuso dell'elemento.
<say-as> Indica il tipo di contenuto, ad esempio numero o data, del testo dell'elemento.

Tutti i valori della proprietà interpret-as sono supportati per questo elemento ad eccezione di interpret-as="name". Ad esempio, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> è supportato, ma <say-as interpret-as="name">ED</say-as> non lo è. Per altre informazioni, vedere Pronuncia con SSML.
<s> Indica frasi.
<lang> Indica le impostazioni locali predefinite per la lingua che si vuole che la voce neurale parli.
<break> Utilizzare per eseguire l'override del comportamento predefinito di interruzioni o pause tra le parole.