Come creare le trascrizioni letterali
Le trascrizioni letterali sono trascrizioni parola per parola di un file audio. Le trascrizioni con etichetta umana vengono usate per valutare l'accuratezza del modello e per migliorare l’accuratezza del riconoscimento, soprattutto quando le parole vengono eliminate o sostituite in modo non corretto. Questa guida consente di creare trascrizioni di alta qualità.
Per valutare l'accuratezza del modello, è consigliabile usare un campione rappresentativo di dati di trascrizione. I dati devono essere riferiti a voci ed espressioni diverse, rappresentative di ciò che gli utenti dicono all'applicazione. Per i dati di test, la durata massima di ogni singolo file audio è di 2 ore.
Per migliorare il riconoscimento, occorre un campione ampio di dati. È consigliabile fornire da 1 a 100 ore di dati audio. Il servizio Voce usa fino a 100 ore di audio per il training (fino a 20 ore per i modelli meno recenti per i quali non è previsto alcun addebito per il training). Ogni singolo file audio non deve superare i 40 secondi (fino a 30 secondi per la personalizzazione di Whisper).
Questa guida include sezioni con le impostazioni locali per inglese, cinese mandarino e tedesco.
Le trascrizioni per tutti i file WAV sono contenute in un unico file di testo normale (TXT o TSV). Ogni riga del file di trascrizione contiene il nome di uno dei file audio seguito dalla trascrizione corrispondente. Il nome del file è separato dalla trascrizione mediante un carattere di tabulazione (\t
).
Ad esempio:
speech01.wav speech recognition is awesome
speech02.wav the quick brown fox jumped all over the place
speech03.wav the lazy dog was not amused
Alle trascrizioni viene applicata la normalizzazione del testo in modo che il sistema possa elaborarle. Tuttavia, è necessario eseguire alcune importanti normalizzazioni prima di caricare il set di dati.
Le trascrizioni letterali per lingue diverse dall'inglese e dal cinese mandarino devono essere codificate con codifica UTF-8 con un marcatore dell'ordine dei byte. Per altri requisiti di trascrizione delle impostazioni locali, vedere le sezioni seguenti.
en-US
Le trascrizioni letterali per l'audio in inglese devono essere fornite come testo normale, usando solo caratteri ASCII. Evitare l'uso di caratteri di punteggiatura (Latin-1) o Unicode. Questi caratteri vengono spesso aggiunti inavvertitamente durante la copia del testo da un'applicazione di elaborazione del testo o lo scorporo di dati dalle pagine Web. Se questi caratteri sono presenti, assicurarsi di aggiornarli con i caratteri ASCII appropriati.
Ecco alcuni esempi:
Caratteri da evitare | Sostituzione | Note |
---|---|---|
"Hello world" | "Hello world" | Le virgolette di apertura e chiusura vengono sostituite con caratteri ASCII appropriati. |
John’s day | John's day | L'apostrofo viene sostituito con il carattere ASCII appropriato. |
It was good—no, it was great! | it was good--no, it was great! | Il trattino lungo viene sostituito con due trattini. |
Normalizzazione del testo per l'inglese degli Stati Uniti
La normalizzazione del testo è la trasformazione delle parole in un formato coerente usato per il training di un modello. Alcune regole di normalizzazione vengono applicate automaticamente al testo, tuttavia, è consigliabile usare queste linee guida durante la preparazione dei dati di trascrizione letterale:
- Non abbreviare le parole.
- Scrivere stringhe numeriche non standard in parole (ad esempio, termini contabili).
- I caratteri non alfabetici o i caratteri alfanumerici misti devono essere trascritti come si pronunciano.
- Le abbreviazioni pronunciate come parole non devono essere modificate (ad esempio "radar", "laser", "RAM" o "NATO").
- Scrivere le abbreviazioni pronunciate come lettere separate con lettere separate da uno spazio.
- Se si usa l'audio, trascrivere i numeri come parole che corrispondono all'audio (ad esempio "101" potrebbe essere pronunciato come "uno zero uno" o "cento e uno").
- Evitare di ripetere più di tre volte caratteri, parole o gruppi di parole, ad esempio "sì, sì, sì, sì". Il servizio Voce potrebbe eliminare le righe con troppe ripetizioni.
Ecco alcuni esempi di normalizzazione da eseguire nella trascrizione:
Original text | Testo la normalizzazione (umano) |
---|---|
Dr. Bruce Banner | Doctor Bruce Banner |
James Bond, 007 | James Bond, double oh seven |
Ke$ha | Ke$ha |
How long is the 2x4 | How long is the two by four |
The meeting goes from 1-3pm | The meeting goes from one to three pm |
My blood type is O+ | My blood type is O positive |
Water is H20 | Water is H 2 O |
Play OU812 by Van Halen | Play O U 8 1 2 by Van Halen |
UTF-8 con BOM | U T F 8 with BOM |
It costs $3.14 | It costs three fourteen |
Le regole di normalizzazione seguenti vengono applicate automaticamente alle trascrizioni:
- Usare lettere minuscole.
- Rimuovere tutti i segni di punteggiatura tranne gli apostrofi all'interno delle parole.
- Espandere i numeri in forma di parole/parlato, ad esempio importi in dollari.
Ecco alcuni esempi di normalizzazione eseguita automaticamente nella trascrizione:
Original text | Testo dopo la normalizzazione (automatico) |
---|---|
"Holy cow!" said Batman. | holy cow said batman |
"What?" said Batman's sidekick, Robin. | what said batman's sidekick robin |
Go get -em! | go get em |
I'm double-jointed | I'm double jointed |
104 Elm Street | one oh four Elm street |
Tune to 102.7 | tune to one oh two point seven |
Pi is about 3.14 | pi is about three point one four |
de-DE
Le trascrizioni letterali per l'audio in tedesco devono essere codificate con codifica UTF-8 con un marcatore dell'ordine dei byte.
Regole di normalizzazione per il tedesco
La normalizzazione del testo è la trasformazione delle parole in un formato coerente usato per il training di un modello. Alcune regole di normalizzazione vengono applicate automaticamente al testo, tuttavia, è consigliabile usare queste linee guida durante la preparazione dei dati di trascrizione letterale:
- Scrivere i punti decimali come "," e non ".".
- Scrivere separatori di tempo come ":" e non "." (ad esempio: 12:00 Uhr).
- Le abbreviazioni, ad esempio 'ca.' non vengono sostituite. È consigliabile usare la forma estesa parlata.
- I quattro operatori matematici principali (+, -, * e /) vengono rimossi. È consigliabile sostituirli con la rispettiva forma scritta: "plus", "minus", "mal" e "geteilt".
- Gli operatori di confronto vengono rimossi (=, < e >). È consigliabile sostituirli con "gleich", "kleiner als" e "grösser als".
- Usare le frazioni, ad esempio 3/4, nella forma scritta ("drei viertel" anziché ¾).
- Sostituire il simbolo "€" con la forma scritta "Euro".
Ecco alcuni esempi di normalizzazione da eseguire nella trascrizione:
Original text | Testo dopo la normalizzazione utente | Testo dopo la normalizzazione del sistema |
---|---|---|
Es ist 12.23 Uhr | Es ist 12:23 Uhr | es ist zwölf uhr drei und zwanzig uhr |
{12.45} | {12,45} | zwölf komma vier fünf |
2 + 3 - 4 | 2 plus 3 minus 4 | zwei plus drei minus vier |
Le regole di normalizzazione seguenti vengono applicate automaticamente alle trascrizioni:
- Usare le lettere minuscole per tutto il testo.
- Rimuovere di tutti i segni di punteggiatura, inclusi i vari tipi di virgolette ("prova", 'prova', "prova„ e «prova» sono accettati).
- Rimuovere le righe con caratteri speciali seguenti:¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² µ × ÿ ج¬.
- Espandere i numeri in forma parlata, inclusi gli importi in dollari o in euro.
- Accettare umlaut solo per a, o e u. Altri vengono sostituiti da "th" o scartati.
Ecco alcuni esempi di normalizzazione eseguita automaticamente nella trascrizione:
Original text | Testo dopo la normalizzazione |
---|---|
Frankfurter Ring | frankfurter ring |
¡Eine Frage! | eine frage |
Wir, haben | wir haben |
ja-JP
In giapponese (ja-JP), è prevista una lunghezza massima di 90 caratteri per ogni frase. Le righe con frasi più lunghe vengono eliminate. Per aggiungere testo più lungo, inserire un punto in mezzo.
zh-CN
Le trascrizioni letterali per l'audio in cinese mandarino devono essere codificate con codifica UTF-8 con un marcatore dell'ordine dei byte. Evitare l'uso di caratteri di punteggiatura a mezza larghezza. Questi caratteri possono essere inseriti inavvertitamente durante la preparazione dei dati in un programma di elaborazione di testo o durante l'eliminazione di dati da pagine Web. Se sono presenti questi caratteri, assicurarsi di aggiornarli con i caratteri a larghezza intera appropriati.
Ecco alcuni esempi:
Caratteri da evitare | Sostituzione | Note |
---|---|---|
"你好" | "你好" | Le virgolette di apertura e chiusura vengono sostituite con caratteri appropriati. |
需要什么帮助? | 需要什么帮助? | Il punto interrogativo viene sostituito con il carattere appropriato. |
Normalizzazione del testo per il cinese mandarino
La normalizzazione del testo è la trasformazione delle parole in un formato coerente usato per il training di un modello. Alcune regole di normalizzazione vengono applicate automaticamente al testo, tuttavia, è consigliabile usare queste linee guida durante la preparazione dei dati di trascrizione letterale:
- Non abbreviare le parole.
- Scrivere stringhe numeriche in forma parlata.
Ecco alcuni esempi di normalizzazione da eseguire nella trascrizione:
Original text | Testo dopo la normalizzazione |
---|---|
我今年 21 | 我今年二十一 |
3 号楼 504 | 三号 楼 五 零 四 |
Le regole di normalizzazione seguenti vengono applicate automaticamente alle trascrizioni:
- Rimuovere tutti i segni di punteggiatura.
- Scrittura dei numeri nella forma parlata.
- Conversione di lettere a tutta larghezza in lettere a mezza larghezza
- Uso delle lettere maiuscole per tutte le parole in inglese.
Ecco alcuni esempi di normalizzazione automatica della trascrizione:
Original text | Testo dopo la normalizzazione |
---|---|
3.1415 | 三 点 一 四 一 五 |
¥ 3.5 | 三 元 五 角 |
w f y z | w f y z |
1992 年 8 月 8 日 | 一 九 九 二 年 八 月 八 日 |
你吃饭了吗? | 你 吃饭 了 吗 |
下午 5:00 的航班 | 下午 五点 的 航班 |
我今年 21 岁 | 我 今年 二十 一 岁 |