Che cosa sono le voci sintesi vocale di OpenAI?

Articolo
10/16/2024

Analogamente alle voci di Voce di Azure AI, le voci di sintesi vocale di OpenAI offrono alta qualità per convertire testo scritto in audio vocale naturale. Questo consente di sfruttare un'ampia gamma di possibilità per esperienze utente immersive e interattive.

Le voci di sintesi vocale OpenAI sono disponibili tramite due varianti di modello: Neural e NeuralHD.

Neural: ottimizzato per i casi d'uso in tempo reale con la latenza più bassa, ma con una qualità inferiore rispetto a NeuralHD.
NeuralHD: ottimizzato per la qualità.

Voci di sintesi vocale disponibili nei servizi di intelligenza artificiale di Azure

Ci si potrebbe chiedere: se si vuole usare una voce di sintesi vocale OpenAI, è consigliabile usarlo tramite il servizio Azure OpenAI o tramite Riconoscimento vocale di Azure per intelligenza artificiale? Quali sono gli scenari che mi guidano a usare uno o l'altro?

Ogni modello vocale offre funzionalità e caratteristiche distinte, consentendo di scegliere quella più adatta alle proprie esigenze specifiche. Si vogliono comprendere le opzioni e le differenze tra le voci di sintesi vocale disponibili nei servizi di intelligenza artificiale di Azure.

È possibile scegliere tra le seguenti voci di sintesi vocale disponibili nei servizi di intelligenza artificiale di Azure:

Voci di sintesi vocale OpenAI nel servizio OpenAI di Azure. Disponibile nelle aree seguenti: Stati Uniti centro-settentrionali e Svezia centrale.
Voci di sintesi vocale OpenAI in Riconoscimento vocale di Azure per intelligenza artificiale. Disponibile nelle aree seguenti: Stati Uniti centro-settentrionali e Svezia centrale.
Voci di sintesi vocale del servizio Voce di Azure AI. Disponibile in decine di aree. Vedere l'elenco delle aree.

Voci di sintesi vocale OpenAI tramite Servizio OpenAI di Azure o tramite Voce di Azure AI?

Se si vogliono usare le voci di sintesi vocale OpenAI, è possibile scegliere se usarle tramite Azure OpenAI o tramite Voce di Azure AI. È possibile visitare la galleria Voce per ascoltare campioni vocali o di sintesi vocale di Azure OpenAI con il proprio testo usando la Creazione di contenuto audio. L'output audio è identico in entrambi i casi, con alcune piccole differenze di funzionalità tra i due servizi. Vedere la tabella di seguito per ulteriori dettagli.

Ecco un confronto delle funzionalità tra voci di sintesi vocale OpenAI nel servizio OpenAI di Azure e voci di sintesi vocale OpenAI alle voci vocali in Voce di Azure AI.

Funzionalità	Servizio OpenAI di Azure (voci OpenAI)	Voce di Azure AI (voci OpenAI)	Voci di Voce di Azure AI
Area	Stati Uniti centro-settentrionali, Svezia centrale	Stati Uniti centro-settentrionali, Svezia centrale	Disponibile in decine di aree. Vedere l'elenco delle aree.
Varietà voce	6	12	Più di 500
Numero di voce multilingue	6	12	49
Copertura massima del linguaggio multilingue	57	57	77
Supporto di SSML (Speech Synthesis Markup Language)	Non supportato	Supporto per un subset di elementi SSML.	Supporto per il set completo di SSML in Voce di Azure AI.
Opzioni di sviluppo	REST API	Speech SDK, interfaccia della riga di comando di Voce, API REST	Speech SDK, interfaccia della riga di comando di Voce, API REST
Opzioni di distribuzione	Solo nel cloud	Solo nel cloud	Cloud, embedded, ibrido e contenitori.
Sintesi in tempo reale o batch	In tempo reale	Sintesi batch e in tempo reale	Sintesi batch e in tempo reale
Latenza	maggiore di 500 ms	maggiore di 500 ms	minori di 300 ms
Frequenza di campionamento dell'audio sintetizzato	24 kHz	8, 16, 24 e 48 kHz	8, 16, 24 e 48 kHz
Formato audio di output vocale	opus, mp3, aac, flac	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Sono disponibili funzionalità e caratteristiche aggiuntive in Voce di Azure AI che non sono accessibili con le voci OpenAI. Ad esempio:

Le voci di sintesi vocale OpenAI in Voce di Azure AI supportano solo un sottoinsieme di elementi SSML. Le voci di Voce di Azure AI supportano l'insieme completo di elementi SSML.
Voce di Azure AI supporta gli eventi di confine di parola. Le voci OpenAI non supportano gli eventi di confine di parola.

Elementi SSML supportati da voci di sintesi vocale OpenAI in Voce di Azure AI

Il Linguaggio markup di sintesi vocale (SSML) con testo di input determina la struttura, il contenuto e altre caratteristiche dell'output vocale. Ad esempio, è possibile usare SSML per definire un paragrafo, una frase, un'interruzione o una pausa, o il silenzio. È possibile racchiudere il testo fra tag di evento, ad esempio segnalibro o visema, che possono essere elaborati in un secondo momento dall'applicazione.

La tabella seguente descrive gli elementi SSML (Speech Synthesis Markup Language) supportati da voci di sintesi vocale OpenAI in Voce di Azure AI. Per le voci OpenAI è supportato solo il sottoinsieme di tag SSML seguente. Per altre informazioni, vedere Struttura ed eventi di documenti SSML.

Nome dell'elemento SSML	Descrizione
`<speak>`	Racchiude l'intero contenuto da pronunciare. È l’elemento radice di un documento SSML.
`<voice>`	Specifica una voce utilizzata per l'output di sintesi vocale.
`<sub>`	Indica che il valore di testo dell'attributo alias deve essere pronunciato al posto del testo racchiuso dell'elemento.
`<say-as>`	Indica il tipo di contenuto, ad esempio numero o data, del testo dell'elemento. Tutti i valori della proprietà `interpret-as` sono supportati per questo elemento ad eccezione di `interpret-as="name"`. Ad esempio, `<say-as interpret-as="date" format="dmy">10-12-2016</say-as>` è supportato, ma `<say-as interpret-as="name">ED</say-as>` non lo è. Per altre informazioni, vedere Pronuncia con SSML.
`<s>`	Indica frasi.
`<lang>`	Indica le impostazioni locali predefinite per la lingua che si vuole che la voce neurale parli.
`<break>`	Utilizzare per eseguire l'override del comportamento predefinito di interruzioni o pause tra le parole.

Condividi tramite

Che cosa sono le voci sintesi vocale di OpenAI?

Voci di sintesi vocale disponibili nei servizi di intelligenza artificiale di Azure

Voci di sintesi vocale OpenAI tramite Servizio OpenAI di Azure o tramite Voce di Azure AI?

Elementi SSML supportati da voci di sintesi vocale OpenAI in Voce di Azure AI

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Che cosa sono le voci sintesi vocale di OpenAI?

Voci di sintesi vocale disponibili nei servizi di intelligenza artificiale di Azure

Voci di sintesi vocale OpenAI tramite Servizio OpenAI di Azure o tramite Voce di Azure AI?

Elementi SSML supportati da voci di sintesi vocale OpenAI in Voce di Azure AI

Contenuto correlato

Commenti e suggerimenti

Risorse aggiuntive