Guia para criar transcrições literais

Artigo
09/19/2024

As transcrições literais são transcrições palavra por palavra do conteúdo de um arquivo de áudio. Você usa transcrições rotuladas por humanos para avaliar a precisão do modelo e melhorar a precisão do reconhecimento, especialmente quando as palavras são excluídas ou substituídas incorretamente. Este guia pode ajudar você a criar transcrições de alta qualidade.

É recomendável um exemplo representativo de dados de transcrição para avaliar a precisão do modelo. Os dados devem abranger vários alto-falantes e enunciados que são representativos do que os usuários dizem ao aplicativo. Para dados de teste, a duração máxima de cada arquivo de áudio individual é de 2 horas.

Uma grande amostra de dados de transcrição é necessária para melhorar o reconhecimento. Sugerimos fornecer entre 1 e 100 horas de dados de áudio. O serviço de Fala usa até 100 horas de áudio para treinamento (até 20 horas para modelos mais antigos que não cobram por treinamento). Cada arquivo de áudio individual não deve ter mais de 40 segundos (até 30 segundos para personalização do Whisper).

Este guia tem seções para localidades de inglês americano, mandarim chinês e alemão.

As transcrições para todos os arquivos WAV se encontram em um único arquivo de texto sem formatação (.txt ou .tsv). Cada linha do arquivo de transcrição contém o nome de um dos arquivos de áudio, seguido da transcrição correspondente. O nome do arquivo e transcrição são separados por uma tabulação (\t).

Por exemplo:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

As transcrições são normalizadas por texto para que o sistema possa processá-las. No entanto, você deve fazer algumas normalizações importantes antes de carregar o conjunto de dados.

As transcrições literais para idiomas diferentes de inglês e mandarim chinês devem ser codificadas em UTF-8 com marcador de ordem de bytes. Para outros requisitos de transcrição de localidades, confira as seções a seguir.

en-US

As transcrições literais de áudio em inglês devem ser fornecidas como texto sem formatação, usando apenas caracteres ASCII. Evite o uso de caracteres de pontuação Latin-1 ou Unicode. Com frequência esses caracteres são adicionados acidentalmente ao copiar textos de aplicativos de processamento de textos ou ao extrair dados de páginas da Web. Se esses caracteres estiverem presentes, substitua-os pelos caracteres ASCII equivalentes.

Veja alguns exemplos:

Caracteres a evitar	Substituição	Observações
"Olá, Mundo"	"Olá, Mundo"	Os caracteres de aspas de abertura e fechamento são substituídos pelos caracteres ASCII equivalentes.
McDonald’s	McDonald's	O apóstrofo é substituído pelo caractere ASCII equivalente.
It was good--no, it was great!	it was good--no, it was great!	O travessão é substituído por dois hifens.

Normalização de texto para o inglês dos EUA

A normalização de texto é a transformação de palavras em um formato consistente usado ao treinar um modelo. Algumas regras de normalização são aplicadas ao texto automaticamente. No entanto, é recomendável usar estas diretrizes ao preparar seus dados de transcrição literal:

Escreva as abreviações por extenso.
Escreva cadeias de caracteres numéricas não padrão por extenso (por exemplo, termos de contabilidade).
Caracteres não alfanuméricos ou caracteres alfanuméricos mistos devem ser transcritos conforme pronunciado.
Abreviações pronunciadas como palavras não devem ser editadas (como "radar", "laser", "ANVISA" ou "OTAN").
Escreva as abreviações que são pronunciadas como letras separadas com cada letra separada por um espaço.
Se você usar áudio, transcreva os números como palavras que correspondam ao áudio (por exemplo, "101" poderia ser pronunciado como "um zero um" ou "cento e um").
Evite repetir caracteres, palavras ou grupos de palavras mais de três vezes, como "ok, ok, ok, ok". O serviço de Fala pode ignorar as linhas com essas repetições.

Aqui estão alguns exemplos de normalização que você deve realizar na transcrição:

Texto original	Texto após a normalização (humana)
Dr. Bruce Banner	Doctor Bruce Banner
James Bond, 007	James Bond, double oh seven
Ke$ha	Kesha
How long is the 2x4	How long is the two by four
The meeting goes from 1-3pm	The meeting goes from one to three pm
Meu tipo sanguíneo é O+	My blood type is O positive
A fórmula da água é H20	A fórmula da água é H 2 O
Reproduzir OU812, de Van Halen	Reproduzir O U 8 1 2, de Van Halen
UTF-8 with BOM	U T F 8 with BOM
It costs $3.14	It costs three fourteen

As seguintes regras de normalização são aplicadas automaticamente às transcrições:

Usar letras minúsculas.
Remover toda a pontuação, exceto apóstrofos dentro das palavras.
Expandir os números em palavras/forma falada (por exemplo, valores em dólar).

Aqui estão alguns exemplos de normalização realizadas automaticamente na transcrição:

Texto original	Texto após a normalização (automática)
"Holy cow!" said Batman.	holy cow said batman
"What?" said Batman's sidekick, Robin.	what said batman's sidekick robin
Go get -em!	go get em
I'm double-jointed	I'm double jointed
104 Elm Street	one oh four Elm street
Tune to 102.7	tune to one oh two point seven
Pi is about 3.14	pi is about three point one four

de-DE

As transcrições literais para áudios em alemão devem ser codificadas em UTF-8 com um marcador de ordem de bytes.

Normalização de texto para o alemão

Escreva os separadores decimais como "," e não ".".
Escreva os separadores de hora como ":" e não "." (por exemplo, 12:00 Uhr).
Abreviações como "ca." não são substituídas. É recomendável que você use a forma falada completa.
Os quatro operadores matemáticos principais (+, -, * e /) são removidos. É recomendável substituí-los pela forma escrita: "plus", "minus", "mal" e "geteilt".
Os operadores de comparação são removidos (=, < e >). É recomendável substituí-los por "gleich", "kleiner als," e "als grösser".
Use frações, como 3/4, em sua forma escrita (por exemplo, "drei viertel" em vez de 3/4).
Substitua o símbolo "€" pelo formato escrito "Euro".

Aqui estão alguns exemplos de normalização que você deve realizar na transcrição:

Texto original	Texto após a normalização do usuário	Após a normalização do sistema
Es ist 12.23 Uhr	Es ist 12:23 Uhr	es ist zwölf uhr drei und zwanzig uhr
{12.45}	{12,45}	zwölf komma vier fünf
2 + 3 - 4	2 plus 3 minus 4	zwei plus drei minus vier

As seguintes regras de normalização são aplicadas automaticamente às transcrições:

Usar letras minúsculas para todo o texto.
Remover toda a pontuação, incluindo os diversos tipos de aspas ("teste", 'teste', "teste„ e «teste» estão corretos).
Descartar as linhas que contenham qualquer um dos seguintes caracteres especiais: ¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² µ × ÿ Ø¬¬.
Expandir os números para sua forma falada, inclusive valores em dólar ou Euro.
Aceitar o trema apenas para a, o e u. As outras são substituídas por "th" ou descartadas.

Aqui estão alguns exemplos de normalização realizadas automaticamente na transcrição:

Texto original	Texto após a normalização
Frankfurter Ring	frankfurter ring
¡Eine Frage!	eine frage
Wir, haben	wir haben

ja-JP

Em japonês (ja-JP), há um comprimento máximo de 90 caracteres para cada sentença. Linhas com sentenças mais longas são descartadas. Para adicionar textos mais longos, insira um ponto entre as sentenças.

zh-CN

As transcrições literais para áudios no mandarim chinês devem ser codificadas em UTF-8, com um marcador da ordem do byte. Evite o uso de caracteres de pontuação de meia largura. Esses caracteres podem ser incluídos inadvertidamente quando você prepara os dados em um programa de processamento de texto ou quando extrai dados de páginas da Web. Se esses caracteres estiverem presentes, substitua-os pelos caracteres de largura inteira equivalentes.

Veja alguns exemplos:

Caracteres a evitar	Substituição	Observações
"你好"	"你好"	Os caracteres de aspas de abertura e fechamento são substituídos pelos caracteres adequados.
需要什么帮助?	需要什么帮助？	O ponto de interrogação é substituído pelo caractere apropriado.

Normalização de texto para o mandarim chinês

Escreva as abreviações por extenso.
Grave cadeia de caracteres numéricas na forma falada.

Aqui estão alguns exemplos de normalização que você deve realizar na transcrição:

Texto original	Texto após a normalização
我今年 21	我今年二十一
3 号楼 504	三号楼五零四

As seguintes regras de normalização são aplicadas automaticamente às transcrições:

Remova toda a pontuação.
Expanda os números para a forma falada.
Converter letras de largura total para letras de meia largura.
Usando letras maiúsculas para todas as palavras em inglês.

Aqui estão alguns exemplos de normalização automática de transcrição:

Texto original	Texto após a normalização
3.1415	三点一四一五
￥ 3.5	三元五角
w f y z	w f y z
1992 年 8 月 8 日	一九九二年八月八日
你吃饭了吗?	你吃饭了吗
下午 5:00 的航班	下午五点的航班
我今年 21 岁	我今年二十一岁

Compartilhar via

Guia para criar transcrições literais

en-US

Normalização de texto para o inglês dos EUA

de-DE

Normalização de texto para o alemão

ja-JP

zh-CN

Normalização de texto para o mandarim chinês

Próximas etapas

Comentários

Recursos adicionais