Custom neural voice lite (anteprima)

Articolo
10/16/2024

Voce di Azure AI offre due tipi di progetto Sintesi vocale neurale (CNV): CNV Lite e CNV Professional.

Sintesi vocale neurale (CNV) Professional consente di caricare i dati di training raccolti tramite studi di registrazione professionali e creare una voce di qualità superiore, quasi indistinguibile dai campioni umani. L'accesso a CNV Professional è limitato in base ai criteri di idoneità e utilizzo. È necessario richiedere l'accesso tramite il modulo di accettazione.
Sintesi vocale neurale (CNV) Lite è un tipo di progetto in anteprima pubblica. È possibile valutare e provare in demo Sintesi vocale neurale (CNV) prima di investire in registrazioni professionali per creare una voce di qualità superiore. Non è richiesta alcuna applicazione ai fini di dimostrazione e valutazione. Tuttavia, Microsoft limita e seleziona i campioni di registrazione e test da usare con CNV Lite. È necessario richiedere l'accesso completo a CNV Professional per distribuire e usare il modello CNV Lite a scopi aziendali. In tal caso, richiedere l'accesso tramite il modulo di accettazione.

Con un progetto CNV Lite, è possibile registrare la propria voce online leggendo 20-50 script predefiniti forniti da Microsoft. Dopo aver registrato almeno 20 campioni, è possibile iniziare a eseguire il training di un modello. Dopo aver completato il training del modello, è possibile rivederlo ed esaminare 20 esempi di output prodotti con un altro set di script predefiniti.

Vedere le lingue supportate da Sintesi vocale neurale.

Confrontare i tipi di progetto

La tabella seguente riassume le differenze principali tra i tipi di progetto CNV Lite e CNV Professional.

Articoli	Lite (anteprima)	Pro
Scenari di destinazione	Dimostrazione o valutazione	Scenari professionali, come voci del marchio o di personaggi per chatbot, o lettura di contenuti audio.
Dati di training	Registrare online con Speech Studio	Usare i dati personali. È consigliabile registrare in uno studio professionale.
Script per la registrazione	Fornito in Speech Studio	Usare i propri script adeguati allo scenario del caso d'uso. Microsoft fornisce script di esempio a cui fare riferimento.
Dimensioni dei dati necessarie	20-50 espressioni	300-2000 espressioni
Tempo di addestramento	Meno di un'ora di calcolo	Circa 20-40 ore di calcolo
Qualità della voce	Qualità moderata	Qualità elevata
Disponibilità	Chiunque può registrare campioni online ed eseguire il training di un modello a scopo di demo e di valutazione. Se si vuole distribuire il modello CNV Lite per uso aziendale è necessario l'accesso completo a Sintesi vocale neurale.	Il caricamento dei dati non è limitato, ma è possibile eseguire il training e distribuire un modello CNV Professional solo dopo l'approvazione dell'accesso. L'accesso a CNV Professional è limitato in base ai criteri di idoneità e utilizzo. È necessario richiedere l'accesso tramite il modulo di accettazione.
Prezzi	I prezzi per unità si applicano allo stesso modo per i progetti CNV Lite e CNV Professional. Consultare i dettagli dei prezzi qui.	I prezzi per unità si applicano allo stesso modo per i progetti CNV Lite e CNV Professional. Consultare i dettagli dei prezzi qui.

Creare un progetto Sintesi vocale neurale Lite

Per creare un progetto Sintesi vocale neurale Lite, seguire questa procedura:

Accedere a Speech Studio.
Selezionare la sottoscrizione e la risorsa Voce da usare.
Selezionare Voce personalizzata>Creare un progetto.
Selezionare Sintesi vocale neurale Lite>Avanti. Per creare un progetto Sintesi vocale neurale professionale personalizzato, vedere Creare un progetto di Sintesi vocale neurale.
Seguire le istruzioni fornite dalla procedura guidata per creare il progetto.

Importante

Il progetto CNV Lite scade dopo 90 giorni a meno che venga inviata la dichiarazione del talento registrata dal talento vocale.
Selezionare il nuovo progetto in base al nome o selezionare Vai al progetto. Queste voci di menu verranno visualizzate nel pannello sinistro: Registra e compila, Rivedi modelloe Distribuisci modello.

Registrare e compilare un modello CNV Lite

Registrare almeno 20 campioni vocali (fino a 50) con script forniti online. Gli esempi vocali registrati qui vengono usati per creare una versione sintetica della voce.

Nota

Il training di Sintesi vocale neurale è attualmente disponibile solo in alcune aree. Per altre informazioni, vedere note a piè di pagina nella tabella delle aree.

Ecco alcuni suggerimenti utili per registrare gli esempi vocali:

Usare un microfono di buona qualità. Aumentare la chiarezza dei campioni usando un microfono di alta qualità. Stare a circa 20 centimetri di distanza dal microfono quando si parla per evitare di registrare rumori muovendo la bocca.
Evitare i rumori di fondo. Effettuare la registrazione in una stanza silenziosa senza rumori di fondo o eco.
Parlare in modo naturale e rilassato. Non esitare a esprimere le proprie emozioni mentre si leggono le frasi.
Registrare in un'unica volta. Per mantenere un livello di energia uniforme, registrare tutte le frasi in una sessione.
Pronunciare ogni parola correttamente e parlare chiaramente.

Per registrare e creare un modello CNV Lite, seguire questa procedura:

Selezionare Voce personalizzata> Il nome del progetto>Registra e compila.
Seleziona Inizia.
Leggere attentamente le condizioni di utilizzo per i talenti vocali. Selezionare la casella di controllo per confermare le condizioni per l'utilizzo.
Selezionare Accetto
Premere l'icona del microfono per avviare il controllo del rumore. Questo controllo del rumore richiede solo pochi secondi e non è necessario parlare.
Se sono stati rilevati rumori, è possibile selezionare Controlla di nuovo per ripetere il controllo del rumore. Se non è stato rilevato alcun rumore, è possibile selezionare Fine per procedere al passaggio successivo.
Esaminare i suggerimenti per la registrazione e selezionare Ho capito. Per ottenere risultati ottimali, passare a un'area tranquilla senza rumore di fondo prima di registrare i campioni vocali.
Premere l'icona del microfono per avviare la registrazione.
Premere l'icona di arresto per arrestare la registrazione.
Esaminare le metriche della qualità. Dopo aver registrato ogni esempio, controllare la metrica di qualità prima di continuare con quello successivo.
Registrare altri campioni. Anche se è possibile creare un modello con solo 20 campioni, è consigliabile registrarne fino a 50 per ottenere una qualità migliore.
Selezionare Esegui training modello per avviare il processo di training.

Il processo di training richiede circa un'ora di calcolo. È possibile controllare lo stato del processo di training nella pagina Rivedi modello.

Rivedi modello

Per esaminare il modello CNV Lite e ascoltare la propria voce sintetizzata, seguire questa procedura:

Selezionare Voce personalizzata> Il nome del progetto>Rivedi modello. Qui è possibile esaminare il nome e la lingua del modello vocale, le dimensioni dei dati di esempio e lo stato del training. Il nome della voce è composto dalla parola "Neural" aggiunta al nome del progetto.
Selezionare il nome del modello vocale per esaminare i dettagli del modello e ascoltare i risultati del riconoscimento vocale di esempio.
Selezionare l'icona di riproduzione per ascoltare la voce leggere ogni script.

Inviare la dichiarazione del talento vocale

Prima di poter distribuire il modello per l'uso commerciale, è necessario inviare una dichiarazione verbale registrata dal talento vocale.

Per inviare la dichiarazione del talento vocale, seguire questa procedura:

Selezionare Voce personalizzata> Nome progetto >Distribuisci modello>Gestisci talento vocale.
Seleziona il modello.
Immettere il nome del talento vocale e il nome dell’azienda.
Leggere e registrare la dichiarazione. Selezionare l'icona del microfono per avviare la registrazione. Selezionare l'icona di arresto per arrestare la registrazione.
Selezionare Invia per inviare la dichiarazione.
Controllare lo stato dell’elaborazione nello script per tabella nella parte inferiore della dashboard. Quando lo stato diventa Completato, è possibile distribuire il modello.

Distribuire un modello

Per distribuire il modello vocale e usarlo nelle applicazioni, è necessario ottenere l'accesso completo a Sintesi vocale neurale. È necessario richiedere l'accesso tramite il modulo di accettazione. Entro circa 10 giorni lavorativi, si riceve un messaggio di posta elettronica con lo stato di approvazione. Prima di poter distribuire il modello per l'uso commerciale, è necessario inviare anche una dichiarazione verbale registrata dal talento vocale.

Per distribuire un modello CNV Lite, seguire questa procedura:

Selezionare Voce personalizzata> Nome progetto >Distribuisci modello>Distribuisci modello.
Selezionare un nome per il modello vocale, quindi selezionare Avanti.
Immettere un nome e una descrizione per l’endpoint, quindi selezionare Avanti.
Selezionare la casella di controllo per accettare le condizioni per l'utilizzo e selezionare Avanti.
Selezionare Distribuisci per distribuire il modello.

Da qui è possibile usare il modello vocale CNV Lite in modo analogo a quello usato da un modello vocale CNV Professional. Ad esempio, è possibile sospendere o riprendere un endpoint dopo la creazione per limitare le spese e risparmiare risorse non in uso. È anche possibile accedere alla voce nello strumento Creazione di contenuto audio in Speech Studio.

Condividi tramite