Dati di training per la Sintesi vocale neurale

Quando si è pronti per creare una voce di sintesi vocale personalizzata per l'applicazione, il primo passaggio consiste nel raccogliere le registrazioni audio e gli script associati per avviare il training del modello vocale. Il Servizio voce usa questi dati per creare un'intonazione vocale unica che corrisponda alla voce nelle registrazioni. Dopo aver eseguito il training della voce, è possibile iniziare a sintetizzare il parlato nelle applicazioni.

Suggerimento

Per creare una voce per l'uso in produzione, è consigliabile avvalersi di uno studio di registrazione e uno speaker professionali. Per altre informazioni, vedere Registrare esempi vocali per creare una sintesi vocale neurale.

Tipi di dati per il training

Un set di dati di training vocale include registrazioni audio e un file di testo con le trascrizioni associate. Ogni file audio deve contenere una singola espressione (una singola frase o un singolo ciclo per un sistema di dialogo) e avere una durata inferiore a 15 secondi.

In alcuni casi, potrebbe non essere disponibile il set di dati corretto. È possibile testare il training vocale neurale personalizzato con file audio disponibili, brevi o lunghi, con o senza trascrizioni.

Questa tabella elenca i tipi di dati e il modo in cui ciascuno di essi viene usato per creare un modello di sintesi vocale personalizzato.

Tipo di dati Descrizione Quando utilizzarlo Elaborazione aggiuntiva necessaria
Singole espressioni e trascrizione corrispondente Raccolta (.zip) di file audio (.wav) come singole espressioni. Ogni file audio deve avere una durata massima di 15 secondi, ed essere abbinato a una trascrizione formattata (.txt). Registrazioni professionali con trascrizioni corrispondenti Pronti per il training.
Audio lungo e trascrizione Raccolta (.zip) di file audio lunghi, non segmentati (.wav o .mp3, più lunghi di 20 secondi, massimo 1.000 file audio), associati a una raccolta (.zip) di trascrizioni che contiene tutto il testo parlato. Sono presenti file audio e trascrizioni corrispondenti, ma non vengono segmentati in espressioni. Segmentazione (utilizzando la trascrizione del batch).
Trasformazione del formato audio laddove necessario.
Solo audio (anteprima) Raccolta (.zip) di file audio (.wav o .mp3, al massimo 1.000 file audio) senza trascrizione. Sono disponibili solo file audio, senza trascrizioni. Segmentazione e generazione di trascrizioni (utilizzando la trascrizione del batch).
Trasformazione del formato audio laddove necessario.

I file devono essere raggruppati per tipo in un set di dati e caricati come file ZIP. Ogni set di dati può contenere solo un singolo tipo di dati.

Nota

Il numero massimo di set di dati che è consentito importare per ogni sottoscrizione è di 500 file .zip per gli utenti della sottoscrizione standard (S0).

Singole espressioni e trascrizione corrispondente

Ci sono due modi per preparare le registrazioni di singole espressioni e la trascrizione corrispondente. Scrivere uno script e farlo leggere a uno speaker oppure usare audio disponibili pubblicamente e trascriverli in testo. Nel secondo caso, modificare le disfluenze dai file audio, ad esempio "um" e altri suoni riempitivi, balbettii, parole mormorate o errori di pronuncia.

Per produrre un carattere voce modello, eseguire le registrazioni in un ambiente silenzioso con un microfono di alta qualità. Volume coerente, velocità di pronuncia, intonazione del discorso e manierismi espressivi del parlato sono elementi fondamentali.

Per alcuni esempi di formato dati, vedere il set di training campione in GitHub. Il set di training di esempio include lo script di esempio e l'audio associato.

Dati audio per singole espressioni e trascrizioni corrispondenti

Ogni file audio deve contenere una singola espressione (una singola frase o un singolo ciclo di un sistema di dialogo) e avere una durata inferiore a 15 secondi. Tutti i file devono essere nella stessa lingua parlata. Le voci di sintesi vocale personalizzate in più lingue non sono supportate, ad eccezione del linguaggio bilingue cinese. Ogni file audio deve avere un nome file univoco con l'estensione del nome file .wav.

Seguire queste linee guida per la preparazione dell'audio.

Proprietà valore
File format RIFF (.wav), raggruppati in un file .zip
File name I caratteri del nome file supportati dal sistema operativo Windows, con estensione .wav.
I caratteri \ / : * ? " < > \| non sono consentiti.
Non può iniziare o terminare con uno spazio e non può iniziare con un punto.
Non è consentito nessun nome di file duplicato.
Frequenza di campionamento Quando si crea una voce neurale personalizzata, sono necessari 24.000 Hz.
Formato del campione PCM, almeno a 16 bit
Durata audio Più breve di 15 secondi
Formato di archiviazione .zip
Dimensione massima dell'archivio 2048 MB

Nota

La frequenza di campionamento predefinita per una sintesi neurale vocale è di 24.000 Hz. I file audio con una frequenza di campionamento inferiore a 16.000 Hz vengono rifiutati. Se un file ZIP contiene file .wav onde con diverse frequenze di campionamento, solo quelle uguali o superiori a 16.000 Hz sono supportate. I file audio con una frequenza di campionamento superiore a 16.000 Hz e inferiori a 24.000 Hz verranno campionati fino a 24.000 Hz per eseguire il training di una voce neurale. È consigliabile usare una frequenza di campionamento di 24.000 Hz per i dati di training.

Dati di trascrizione per singole espressioni e trascrizioni corrispondenti

Il file di trascrizione è un file di testo normale. Usare queste linee guida per preparare le trascrizioni.

Proprietà valore
File format Testo normale (.txt)
Formato di codifica. ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE or UTF-16-BE. Per la codifica zh-CN, ANSI e ASCII non sono supportati.
N. di espressioni per riga Uno - Ogni riga del file delle trascrizioni deve contenere il nome di uno dei file audio ed essere seguita dalla trascrizione corrispondente. È necessario usare una tabulazione (\t) per separare il nome e la trascrizione del file.
Dimensione massima dei file 2048 MB

Di seguito è riportato un esempio del modo in cui le trascrizioni sono organizzate in base all'espressione in un file .txt:

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

È importante che le trascrizioni riflettano in modo accurato al 100% agli audio corrispondenti. Gli errori nelle trascrizioni introducono una perdita di qualità durante il training.

Audio di lunga durata e trascrizione (anteprima)

Nota

Per Audio di lunga durata e trascrizione (anteprima), sono supportate solo le seguenti lingue: cinese (Mandarino, semplificato), inglese (India), inglese (Regno Unito), inglese (Stati Uniti), francese (Francia), tedesco (Germania), italiano (Italia), giapponese (Giappone), portoghese (Brasile) e spagnolo (Messico).

In alcuni casi, potrebbe non essere disponibile l’audio segmentato. Speech Studio consente di segmentare file audio di lunga durata e di creare trascrizioni. Il servizio di segmentazione per gli audio di lunga durata utilizza la funzionalità API trascrizione batch del riconoscimento vocale.

Durante l'elaborazione della segmentazione, anche i file audio e le trascrizioni verranno inviati al servizio Riconoscimento vocale personalizzato per perfezionare il modello di riconoscimento in modo che possa essere migliorata l'accuratezza dei dati. Durante questo processo non vengono conservati dati. Al termine della segmentazione, verranno archiviate solo le espressioni segmentate e le relative trascrizioni di mapping per il download e il training.

Nota

Questo servizio verrà addebitato in base all'utilizzo dell’abbonamento per il riconoscimento vocale. Il servizio di segmentazione per audio di lunga durata è supportato solo con le risorse voce standard (S0).

Dati audio per audio di lunga durata e trascrizione

Seguire queste linee guida in fase di preparazione dell'audio per la segmentazione.

Proprietà valore
File format RIFF (.wav) o .mp3, raggruppati in un file di .zip
File name I caratteri del nome file supportati dal sistema operativo Windows, con estensione .wav.
I caratteri \ / : * ? " < > \| non sono consentiti.
Non può iniziare o terminare con uno spazio e non può iniziare con un punto.
Non è consentito nessun nome di file duplicato.
Frequenza di campionamento Quando si crea una voce neurale personalizzata, sono necessari 24.000 Hz.
Formato del campione RIFF(.wav): PCM, almeno a 16 bit.

mp3: almeno 256 KBp di velocità in bit.
Durata audio Più di 20 secondi
Formato di archiviazione .zip
Dimensione massima dell'archivio 2048 MB, al massimo 1.000 file audio inclusi

Nota

La frequenza di campionamento predefinita per una sintesi neurale vocale è di 24.000 Hz. I file audio con una frequenza di campionamento inferiore a 16.000 Hz vengono rifiutati. I file audio con una frequenza di campionamento superiore a 16.000 Hz e inferiori a 24.000 Hz verranno campionati fino a 24.000 Hz per eseguire il training di una voce neurale. È consigliabile usare una frequenza di campionamento di 24.000 Hz per i dati di training.

Tutti i file audio devono essere raggruppati in un file ZIP. È possibile inserire file .wav e .mp3 nello stesso file ZIP. Ad esempio, è possibile caricare un file audio di 45 secondi denominato "kingstory.wav" e un file audio lungo di 200 secondi denominato "queenstory.mp3" nello stesso file .zip. Tutti i file .mp3 verranno trasformati in formato .wav dopo l'elaborazione.

Dati di trascrizione per audio di lunga durata e trascrizione

Le trascrizioni devono essere preparate secondo le specifiche elencate in questa tabella. Ogni file audio deve essere associato a una trascrizione.

Proprietà valore
File format Testo normale (.txt), raggruppato in un .zip
File name Usare lo stesso nome del file audio corrispondente
Formato di codifica. ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE or UTF-16-BE. Per la codifica zh-CN, ANSI e ASCII non sono supportati.
N. di espressioni per riga Nessun limite
Dimensione massima dei file 2048 MB

Tutti i file di trascrizioni in questo tipo di dati devono essere raggruppati in un file ZIP. Ad esempio, è possibile caricare un file audio di 45 secondi denominato ‘kingstory.wav’ e un file audio lungo di 200 secondi denominato ‘queenstory.mp3’ nello stesso file .zip. È necessario caricare un altro file ZIP contenente le due trascrizioni corrispondenti, ovvero "kingstory.txt" e l'altro denominato "queenstory.txt". All'interno di ogni file di testo normale si fornisce la trascrizione completa corretta per l'audio corrispondente.

Dopo il caricamento del set di dati, sarà possibile segmentare il file audio in espressioni in base alla trascrizione fornita. È possibile controllare le espressioni segmentate e le trascrizioni corrispondenti scaricando il set di dati. Gli ID univoci vengono assegnati automaticamente alle espressioni segmentate. È importante assicurarsi che le trascrizioni fornite siano accurate al 100%. Gli errori nelle trascrizioni possono ridurre l'accuratezza durante la fase di segmentazione audio e introdurre ulteriore perdita di qualità nella fase di training successiva.

Solo audio (anteprima)

Nota

Per Solo audio (anteprima), sono supportate solo le seguenti lingue: cinese (Mandarino, semplificato), inglese (India), inglese (Regno Unito), inglese (Stati Uniti), francese (Francia), tedesco (Germania), italiano (Italia), giapponese (Giappone), portoghese (Brasile) e spagnolo (Messico).

Se non sono presenti trascrizioni per le registrazioni audio, usare l'opzione Solo audio per caricare i dati. Il nostro sistema può aiutare a segmentare e trascrivere i file audio. Tenere presente che questo servizio viene addebitato sull’abbonamento conversione della voce in testo scritto in base all’utilizzo.

Seguire queste linee guida per la preparazione dell'audio.

Nota

Il servizio di segmentazione audio di lunga durata sfrutta la funzionalità di trascrizione batch della conversione della voce in testo scritto, che supporta solo gli utenti della sottoscrizione standard (S0).

Proprietà valore
File format RIFF (.wav) o .mp3, raggruppati in un file di .zip
File name I caratteri del nome file supportati dal sistema operativo Windows, con estensione .wav.
I caratteri \ / : * ? " < > \| non sono consentiti.
Non può iniziare o terminare con uno spazio e non può iniziare con un punto.
Non è consentito nessun nome di file duplicato.
Frequenza di campionamento Quando si crea una voce neurale personalizzata, sono necessari 24.000 Hz.
Formato del campione RIFF(.wav): PCM, almeno a 16 bit
mp3: almeno 256 KBp di velocità in bit.
Durata audio Nessun limite
Formato di archiviazione .zip
Dimensione massima dell'archivio 2048 MB, al massimo 1.000 file audio inclusi

Nota

La frequenza di campionamento predefinita per una sintesi neurale vocale è di 24.000 Hz. I file audio con una frequenza di campionamento superiore a 16.000 Hz e inferiori a 24.000 Hz verranno campionati fino a 24.000 Hz per eseguire il training di una voce neurale. È consigliabile usare una frequenza di campionamento di 24.000 Hz per i dati di training.

Tutti i file audio devono essere raggruppati in un file ZIP. Dopo il caricamento del set di dati, il servizio Voce aiuterà a segmentare il file audio in espressioni basato sul nostro servizio di trascrizione vocale in batch. Gli ID univoci vengono assegnati automaticamente alle espressioni segmentate. Le trascrizioni corrispondenti vengono generate tramite il riconoscimento vocale. Tutti i file .mp3 verranno trasformati in formato .wav dopo l'elaborazione. È possibile controllare le espressioni segmentate e le trascrizioni corrispondenti scaricando il set di dati.

Passaggi successivi