Panoramica dell'avatar di sintesi vocale

Articolo
09/11/2024

L'avatar di sintesi vocale converte il testo in un video digitale di un umano fotorealistico (un avatar predefinito o un avatar di sintesi vocale personalizzato) che parla con una voce audio naturale. Il video dell'avatar di sintesi vocale può essere sintetizzato in modo asincrono o in tempo reale. Gli sviluppatori possono creare applicazioni integrate con avatar di sintesi vocale tramite un'API, oppure usare uno strumento di creazione di contenuto in Speech Studio per creare contenuto video senza bisogno di scrivere codice.

Con i modelli avanzati di rete neurale dell'avatar di sintesi vocale, la funzionalità consente agli utenti di creare video avatar con parlato sintetico realistico e di alta qualità per varie applicazioni, rispettando al tempo stesso le procedure per l’uso responsabile dell’IA.

Le abilità della funzionalità avatar per la sintesi vocale di Azure per intelligenza artificiale includono:

Converte il testo in un video digitale di un essere umano fotorealistico capace di parlare con voci dal suono naturale basate sulla sintesi vocale di Azure per intelligenza artificiale.
Fornisce una raccolta di avatar predefiniti.
La voce dell'avatar viene generata dalla sintesi vocale di Azure per intelligenza artificiale. Per ulteriori informazioni, consultare Voce e lingua avatar.
Effettua la sintesi vocale del testo in un video avatar in modo asincrono tramite l'API di sintesi batch o in tempo reale.
Fornisce uno strumento per la creazione di contenuto in Speech Studio volto a creare contenuto video senza bisogno di usare codice.
Abilita le conversazioni con l'avatar in tempo reale usando lo strumento della live chat con l'avatar in Speech Studio.

Grazie ai modelli avanzati di rete neurale dell'avatar di sintesi vocale, la funzionalità consente di creare video avatar con parlato sintetico realistico e di alta qualità per varie applicazioni, rispettando al tempo stesso le procedure per l’uso responsabile delI’IA.

Suggerimento

Per eseguire la sintesi vocale con un approccio che non preveda l’uso di codice, provare lo Strumento avatar di sintesi vocale in Speech Studio.

Voce e lingua avatar

È possibile scegliere tra una gamma di voci predefinite per l'avatar. Il supporto linguistico per l'avatar di sintesi vocale è lo stesso del supporto linguistico per la sintesi vocale. Per informazioni dettagliate, consultare Lingue e voci supportate per il servizio cognitivo di Azure per la voce. È possibile accedere agli avatar di sintesi vocale tramite il portale di Speech Studio o tramite l'API.

La voce nel video sintetico potrebbe essere una voce neurale predefinita disponibile in Voce di Azure AI o la voce neurale personalizzata del talento vocale selezionato dall'utente.

Output di video avatar

Sia per la sintesi batch che per la sintesi in tempo reale, la risoluzione è di 1920 x 1080 e i fotogrammi al secondo (FPS) sono 25. Il codec di sintesi batch può essere h264 o h265 se il formato è mp4 e può impostare codec come vp9 se il formato è webm; solo webm può contenere un canale alfa. Il codec di sintesi in tempo reale è h264. La velocità in bit del video può essere configurata nella richiesta sia per la sintesi batch che per la sintesi in tempo reale; il valore predefinito è 2000000; configurazioni più dettagliate sono disponibili nel codice campione.

	Sintesi batch	Sintesi in tempo reale
Risoluzione	1920 x 1080	1920 x 1080
FPS	25	25
Codec	h264/h265/vp9	h264

Avatar personalizzato per la sintesi vocale

È possibile creare avatar personalizzati per la sintesi vocale unici per il proprio prodotto o marchio. Per iniziare, bastano 10 minuti di registrazioni video. Se si sta anche creando una voce neurale personalizzata per l'attore, l'avatar può essere altamente realistico. Per ulteriori informazioni, consultare Che cos'è l’avatar personalizzato per la sintesi vocale.

La voce neurale personalizzata e l'avatar personalizzato per la sintesi vocale sono due funzionalità diverse. È possibile usarle indipendentemente o insieme. Se si prevede di usare anche la voce neurale personalizzata con un avatar di sintesi vocale, è necessario distribuire o copiare il modello di voce neurale personalizzata in una delle aree supportate dell'avatar.

Codice di esempio

Il codice di esempio per l'avatar di sintesi vocale è disponibile in GitHub. Questi esempi illustrano gli scenari più diffusi:

Sintesi batch (REST)
Sintesi in tempo reale (SDK)
Live chat basata su Azure OpenAI (SDK)
Per creare una live chat APP con On Your Data di Azure OpenAI, è possibile fare riferimento a questo codice di esempio (cercare "On Your Data")

Prezzi

Durante una sessione in tempo reale dell'avatar o la creazione di contenuti in batch, il servizio di sintesi vocale, riconoscimento vocale, Azure OpenAI o altri servizi Azure vengono addebitati separatamente.
Per informazioni sul funzionamento della fatturazione per la funzionalità avatar di sintesi vocale, vedere la nota sui prezzi dell'avatar di sintesi vocale.
Per informazioni dettagliate sui prezzi, vedere Prezzi del servizio Voce. Si noti che i prezzi degli avatar saranno visibili solo per le aree del servizio in cui è disponibile la funzionalità, tra cui Asia sud-orientale, Europa settentrionale, Europa occidentale, Stati Uniti centro-meridionali e Stati Uniti occidentali 2.

Posizioni disponibili

La funzionalità dell'avatar di sintesi vocale è disponibile solo nelle seguenti aree di servizio: Asia sud-orientale, Europa settentrionale, Europa occidentale, Svezia centrale, Stati Uniti centro-meridionali e Stati Uniti occidentali 2.

Intelligenza artificiale responsabile

Abbiamo a cuore gli interessi delle persone che usano l’intelligenza artificiale quanto abbiamo a cuore la tecnologia. Per ulteriori informazioni, consultare le note sulla trasparenza e l’informativa relativa al talento vocale e di avatar per l’uso responsabile dell’IA.

Condividi tramite