Come creare le trascrizioni letterali

Articolo
09/19/2024

Le trascrizioni letterali sono trascrizioni parola per parola di un file audio. Le trascrizioni con etichetta umana vengono usate per valutare l'accuratezza del modello e per migliorare l’accuratezza del riconoscimento, soprattutto quando le parole vengono eliminate o sostituite in modo non corretto. Questa guida consente di creare trascrizioni di alta qualità.

Per valutare l'accuratezza del modello, è consigliabile usare un campione rappresentativo di dati di trascrizione. I dati devono essere riferiti a voci ed espressioni diverse, rappresentative di ciò che gli utenti dicono all'applicazione. Per i dati di test, la durata massima di ogni singolo file audio è di 2 ore.

Per migliorare il riconoscimento, occorre un campione ampio di dati. È consigliabile fornire da 1 a 100 ore di dati audio. Il servizio Voce usa fino a 100 ore di audio per il training (fino a 20 ore per i modelli meno recenti per i quali non è previsto alcun addebito per il training). Ogni singolo file audio non deve superare i 40 secondi (fino a 30 secondi per la personalizzazione di Whisper).

Questa guida include sezioni con le impostazioni locali per inglese, cinese mandarino e tedesco.

Le trascrizioni per tutti i file WAV sono contenute in un unico file di testo normale (TXT o TSV). Ogni riga del file di trascrizione contiene il nome di uno dei file audio seguito dalla trascrizione corrispondente. Il nome del file è separato dalla trascrizione mediante un carattere di tabulazione (\t).

Ad esempio:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

Alle trascrizioni viene applicata la normalizzazione del testo in modo che il sistema possa elaborarle. Tuttavia, è necessario eseguire alcune importanti normalizzazioni prima di caricare il set di dati.

Le trascrizioni letterali per lingue diverse dall'inglese e dal cinese mandarino devono essere codificate con codifica UTF-8 con un marcatore dell'ordine dei byte. Per altri requisiti di trascrizione delle impostazioni locali, vedere le sezioni seguenti.

en-US

Le trascrizioni letterali per l'audio in inglese devono essere fornite come testo normale, usando solo caratteri ASCII. Evitare l'uso di caratteri di punteggiatura (Latin-1) o Unicode. Questi caratteri vengono spesso aggiunti inavvertitamente durante la copia del testo da un'applicazione di elaborazione del testo o lo scorporo di dati dalle pagine Web. Se questi caratteri sono presenti, assicurarsi di aggiornarli con i caratteri ASCII appropriati.

Ecco alcuni esempi:

Caratteri da evitare	Sostituzione	Note
"Hello world"	"Hello world"	Le virgolette di apertura e chiusura vengono sostituite con caratteri ASCII appropriati.
John’s day	John's day	L'apostrofo viene sostituito con il carattere ASCII appropriato.
It was good—no, it was great!	it was good--no, it was great!	Il trattino lungo viene sostituito con due trattini.

Normalizzazione del testo per l'inglese degli Stati Uniti

La normalizzazione del testo è la trasformazione delle parole in un formato coerente usato per il training di un modello. Alcune regole di normalizzazione vengono applicate automaticamente al testo, tuttavia, è consigliabile usare queste linee guida durante la preparazione dei dati di trascrizione letterale:

Non abbreviare le parole.
Scrivere stringhe numeriche non standard in parole (ad esempio, termini contabili).
I caratteri non alfabetici o i caratteri alfanumerici misti devono essere trascritti come si pronunciano.
Le abbreviazioni pronunciate come parole non devono essere modificate (ad esempio "radar", "laser", "RAM" o "NATO").
Scrivere le abbreviazioni pronunciate come lettere separate con lettere separate da uno spazio.
Se si usa l'audio, trascrivere i numeri come parole che corrispondono all'audio (ad esempio "101" potrebbe essere pronunciato come "uno zero uno" o "cento e uno").
Evitare di ripetere più di tre volte caratteri, parole o gruppi di parole, ad esempio "sì, sì, sì, sì". Il servizio Voce potrebbe eliminare le righe con troppe ripetizioni.

Ecco alcuni esempi di normalizzazione da eseguire nella trascrizione:

Original text	Testo la normalizzazione (umano)
Dr. Bruce Banner	Doctor Bruce Banner
James Bond, 007	James Bond, double oh seven
Ke$ha	Ke$ha
How long is the 2x4	How long is the two by four
The meeting goes from 1-3pm	The meeting goes from one to three pm
My blood type is O+	My blood type is O positive
Water is H20	Water is H 2 O
Play OU812 by Van Halen	Play O U 8 1 2 by Van Halen
UTF-8 con BOM	U T F 8 with BOM
It costs $3.14	It costs three fourteen

Le regole di normalizzazione seguenti vengono applicate automaticamente alle trascrizioni:

Usare lettere minuscole.
Rimuovere tutti i segni di punteggiatura tranne gli apostrofi all'interno delle parole.
Espandere i numeri in forma di parole/parlato, ad esempio importi in dollari.

Ecco alcuni esempi di normalizzazione eseguita automaticamente nella trascrizione:

Original text	Testo dopo la normalizzazione (automatico)
"Holy cow!" said Batman.	holy cow said batman
"What?" said Batman's sidekick, Robin.	what said batman's sidekick robin
Go get -em!	go get em
I'm double-jointed	I'm double jointed
104 Elm Street	one oh four Elm street
Tune to 102.7	tune to one oh two point seven
Pi is about 3.14	pi is about three point one four

de-DE

Le trascrizioni letterali per l'audio in tedesco devono essere codificate con codifica UTF-8 con un marcatore dell'ordine dei byte.

Regole di normalizzazione per il tedesco

Scrivere i punti decimali come "," e non ".".
Scrivere separatori di tempo come ":" e non "." (ad esempio: 12:00 Uhr).
Le abbreviazioni, ad esempio 'ca.' non vengono sostituite. È consigliabile usare la forma estesa parlata.
I quattro operatori matematici principali (+, -, * e /) vengono rimossi. È consigliabile sostituirli con la rispettiva forma scritta: "plus", "minus", "mal" e "geteilt".
Gli operatori di confronto vengono rimossi (=, < e >). È consigliabile sostituirli con "gleich", "kleiner als" e "grösser als".
Usare le frazioni, ad esempio 3/4, nella forma scritta ("drei viertel" anziché ¾).
Sostituire il simbolo "€" con la forma scritta "Euro".

Ecco alcuni esempi di normalizzazione da eseguire nella trascrizione:

Original text	Testo dopo la normalizzazione utente	Testo dopo la normalizzazione del sistema
Es ist 12.23 Uhr	Es ist 12:23 Uhr	es ist zwölf uhr drei und zwanzig uhr
{12.45}	{12,45}	zwölf komma vier fünf
2 + 3 - 4	2 plus 3 minus 4	zwei plus drei minus vier

Le regole di normalizzazione seguenti vengono applicate automaticamente alle trascrizioni:

Usare le lettere minuscole per tutto il testo.
Rimuovere di tutti i segni di punteggiatura, inclusi i vari tipi di virgolette ("prova", 'prova', "prova„ e «prova» sono accettati).
Rimuovere le righe con caratteri speciali seguenti:¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² µ × ÿ Ø¬¬.
Espandere i numeri in forma parlata, inclusi gli importi in dollari o in euro.
Accettare umlaut solo per a, o e u. Altri vengono sostituiti da "th" o scartati.

Ecco alcuni esempi di normalizzazione eseguita automaticamente nella trascrizione:

Original text	Testo dopo la normalizzazione
Frankfurter Ring	frankfurter ring
¡Eine Frage!	eine frage
Wir, haben	wir haben

ja-JP

In giapponese (ja-JP), è prevista una lunghezza massima di 90 caratteri per ogni frase. Le righe con frasi più lunghe vengono eliminate. Per aggiungere testo più lungo, inserire un punto in mezzo.

zh-CN

Le trascrizioni letterali per l'audio in cinese mandarino devono essere codificate con codifica UTF-8 con un marcatore dell'ordine dei byte. Evitare l'uso di caratteri di punteggiatura a mezza larghezza. Questi caratteri possono essere inseriti inavvertitamente durante la preparazione dei dati in un programma di elaborazione di testo o durante l'eliminazione di dati da pagine Web. Se sono presenti questi caratteri, assicurarsi di aggiornarli con i caratteri a larghezza intera appropriati.

Ecco alcuni esempi:

Caratteri da evitare	Sostituzione	Note
"你好"	"你好"	Le virgolette di apertura e chiusura vengono sostituite con caratteri appropriati.
需要什么帮助?	需要什么帮助？	Il punto interrogativo viene sostituito con il carattere appropriato.

Normalizzazione del testo per il cinese mandarino

Non abbreviare le parole.
Scrivere stringhe numeriche in forma parlata.

Ecco alcuni esempi di normalizzazione da eseguire nella trascrizione:

Original text	Testo dopo la normalizzazione
我今年 21	我今年二十一
3 号楼 504	三号楼五零四

Le regole di normalizzazione seguenti vengono applicate automaticamente alle trascrizioni:

Rimuovere tutti i segni di punteggiatura.
Scrittura dei numeri nella forma parlata.
Conversione di lettere a tutta larghezza in lettere a mezza larghezza
Uso delle lettere maiuscole per tutte le parole in inglese.

Ecco alcuni esempi di normalizzazione automatica della trascrizione:

Original text	Testo dopo la normalizzazione
3.1415	三点一四一五
￥ 3.5	三元五角
w f y z	w f y z
1992 年 8 月 8 日	一九九二年八月八日
你吃饭了吗?	你吃饭了吗
下午 5:00 的航班	下午五点的航班
我今年 21 岁	我今年二十一岁

Condividi tramite

Come creare le trascrizioni letterali

en-US

Normalizzazione del testo per l'inglese degli Stati Uniti

de-DE

Regole di normalizzazione per il tedesco

ja-JP

zh-CN

Normalizzazione del testo per il cinese mandarino

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive