Guia para criar transcrições literais
As transcrições literais são transcrições palavra por palavra do conteúdo de um arquivo de áudio. Você usa transcrições rotuladas por humanos para avaliar a precisão do modelo e melhorar a precisão do reconhecimento, especialmente quando as palavras são excluídas ou substituídas incorretamente. Este guia pode ajudar você a criar transcrições de alta qualidade.
É recomendável um exemplo representativo de dados de transcrição para avaliar a precisão do modelo. Os dados devem abranger vários alto-falantes e enunciados que são representativos do que os usuários dizem ao aplicativo. Para dados de teste, a duração máxima de cada arquivo de áudio individual é de 2 horas.
Uma grande amostra de dados de transcrição é necessária para melhorar o reconhecimento. Sugerimos fornecer entre 1 e 100 horas de dados de áudio. O serviço de Fala usa até 100 horas de áudio para treinamento (até 20 horas para modelos mais antigos que não cobram por treinamento). Cada arquivo de áudio individual não deve ter mais de 40 segundos (até 30 segundos para personalização do Whisper).
Este guia tem seções para localidades de inglês americano, mandarim chinês e alemão.
As transcrições para todos os arquivos WAV se encontram em um único arquivo de texto sem formatação (.txt ou .tsv). Cada linha do arquivo de transcrição contém o nome de um dos arquivos de áudio, seguido da transcrição correspondente. O nome do arquivo e transcrição são separados por uma tabulação (\t
).
Por exemplo:
speech01.wav speech recognition is awesome
speech02.wav the quick brown fox jumped all over the place
speech03.wav the lazy dog was not amused
As transcrições são normalizadas por texto para que o sistema possa processá-las. No entanto, você deve fazer algumas normalizações importantes antes de carregar o conjunto de dados.
As transcrições literais para idiomas diferentes de inglês e mandarim chinês devem ser codificadas em UTF-8 com marcador de ordem de bytes. Para outros requisitos de transcrição de localidades, confira as seções a seguir.
en-US
As transcrições literais de áudio em inglês devem ser fornecidas como texto sem formatação, usando apenas caracteres ASCII. Evite o uso de caracteres de pontuação Latin-1 ou Unicode. Com frequência esses caracteres são adicionados acidentalmente ao copiar textos de aplicativos de processamento de textos ou ao extrair dados de páginas da Web. Se esses caracteres estiverem presentes, substitua-os pelos caracteres ASCII equivalentes.
Veja alguns exemplos:
Caracteres a evitar | Substituição | Observações |
---|---|---|
"Olá, Mundo" | "Olá, Mundo" | Os caracteres de aspas de abertura e fechamento são substituídos pelos caracteres ASCII equivalentes. |
McDonald’s | McDonald's | O apóstrofo é substituído pelo caractere ASCII equivalente. |
It was good--no, it was great! | it was good--no, it was great! | O travessão é substituído por dois hifens. |
Normalização de texto para o inglês dos EUA
A normalização de texto é a transformação de palavras em um formato consistente usado ao treinar um modelo. Algumas regras de normalização são aplicadas ao texto automaticamente. No entanto, é recomendável usar estas diretrizes ao preparar seus dados de transcrição literal:
- Escreva as abreviações por extenso.
- Escreva cadeias de caracteres numéricas não padrão por extenso (por exemplo, termos de contabilidade).
- Caracteres não alfanuméricos ou caracteres alfanuméricos mistos devem ser transcritos conforme pronunciado.
- Abreviações pronunciadas como palavras não devem ser editadas (como "radar", "laser", "ANVISA" ou "OTAN").
- Escreva as abreviações que são pronunciadas como letras separadas com cada letra separada por um espaço.
- Se você usar áudio, transcreva os números como palavras que correspondam ao áudio (por exemplo, "101" poderia ser pronunciado como "um zero um" ou "cento e um").
- Evite repetir caracteres, palavras ou grupos de palavras mais de três vezes, como "ok, ok, ok, ok". O serviço de Fala pode ignorar as linhas com essas repetições.
Aqui estão alguns exemplos de normalização que você deve realizar na transcrição:
Texto original | Texto após a normalização (humana) |
---|---|
Dr. Bruce Banner | Doctor Bruce Banner |
James Bond, 007 | James Bond, double oh seven |
Ke$ha | Kesha |
How long is the 2x4 | How long is the two by four |
The meeting goes from 1-3pm | The meeting goes from one to three pm |
Meu tipo sanguíneo é O+ | My blood type is O positive |
A fórmula da água é H20 | A fórmula da água é H 2 O |
Reproduzir OU812, de Van Halen | Reproduzir O U 8 1 2, de Van Halen |
UTF-8 with BOM | U T F 8 with BOM |
It costs $3.14 | It costs three fourteen |
As seguintes regras de normalização são aplicadas automaticamente às transcrições:
- Usar letras minúsculas.
- Remover toda a pontuação, exceto apóstrofos dentro das palavras.
- Expandir os números em palavras/forma falada (por exemplo, valores em dólar).
Aqui estão alguns exemplos de normalização realizadas automaticamente na transcrição:
Texto original | Texto após a normalização (automática) |
---|---|
"Holy cow!" said Batman. | holy cow said batman |
"What?" said Batman's sidekick, Robin. | what said batman's sidekick robin |
Go get -em! | go get em |
I'm double-jointed | I'm double jointed |
104 Elm Street | one oh four Elm street |
Tune to 102.7 | tune to one oh two point seven |
Pi is about 3.14 | pi is about three point one four |
de-DE
As transcrições literais para áudios em alemão devem ser codificadas em UTF-8 com um marcador de ordem de bytes.
Normalização de texto para o alemão
A normalização de texto é a transformação de palavras em um formato consistente usado ao treinar um modelo. Algumas regras de normalização são aplicadas ao texto automaticamente. No entanto, é recomendável usar estas diretrizes ao preparar seus dados de transcrição literal:
- Escreva os separadores decimais como "," e não ".".
- Escreva os separadores de hora como ":" e não "." (por exemplo, 12:00 Uhr).
- Abreviações como "ca." não são substituídas. É recomendável que você use a forma falada completa.
- Os quatro operadores matemáticos principais (+, -, * e /) são removidos. É recomendável substituí-los pela forma escrita: "plus", "minus", "mal" e "geteilt".
- Os operadores de comparação são removidos (=, < e >). É recomendável substituí-los por "gleich", "kleiner als," e "als grösser".
- Use frações, como 3/4, em sua forma escrita (por exemplo, "drei viertel" em vez de 3/4).
- Substitua o símbolo "€" pelo formato escrito "Euro".
Aqui estão alguns exemplos de normalização que você deve realizar na transcrição:
Texto original | Texto após a normalização do usuário | Após a normalização do sistema |
---|---|---|
Es ist 12.23 Uhr | Es ist 12:23 Uhr | es ist zwölf uhr drei und zwanzig uhr |
{12.45} | {12,45} | zwölf komma vier fünf |
2 + 3 - 4 | 2 plus 3 minus 4 | zwei plus drei minus vier |
As seguintes regras de normalização são aplicadas automaticamente às transcrições:
- Usar letras minúsculas para todo o texto.
- Remover toda a pontuação, incluindo os diversos tipos de aspas ("teste", 'teste', "teste„ e «teste» estão corretos).
- Descartar as linhas que contenham qualquer um dos seguintes caracteres especiais: ¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² µ × ÿ ج¬.
- Expandir os números para sua forma falada, inclusive valores em dólar ou Euro.
- Aceitar o trema apenas para a, o e u. As outras são substituídas por "th" ou descartadas.
Aqui estão alguns exemplos de normalização realizadas automaticamente na transcrição:
Texto original | Texto após a normalização |
---|---|
Frankfurter Ring | frankfurter ring |
¡Eine Frage! | eine frage |
Wir, haben | wir haben |
ja-JP
Em japonês (ja-JP), há um comprimento máximo de 90 caracteres para cada sentença. Linhas com sentenças mais longas são descartadas. Para adicionar textos mais longos, insira um ponto entre as sentenças.
zh-CN
As transcrições literais para áudios no mandarim chinês devem ser codificadas em UTF-8, com um marcador da ordem do byte. Evite o uso de caracteres de pontuação de meia largura. Esses caracteres podem ser incluídos inadvertidamente quando você prepara os dados em um programa de processamento de texto ou quando extrai dados de páginas da Web. Se esses caracteres estiverem presentes, substitua-os pelos caracteres de largura inteira equivalentes.
Veja alguns exemplos:
Caracteres a evitar | Substituição | Observações |
---|---|---|
"你好" | "你好" | Os caracteres de aspas de abertura e fechamento são substituídos pelos caracteres adequados. |
需要什么帮助? | 需要什么帮助? | O ponto de interrogação é substituído pelo caractere apropriado. |
Normalização de texto para o mandarim chinês
A normalização de texto é a transformação de palavras em um formato consistente usado ao treinar um modelo. Algumas regras de normalização são aplicadas ao texto automaticamente. No entanto, é recomendável usar estas diretrizes ao preparar seus dados de transcrição literal:
- Escreva as abreviações por extenso.
- Grave cadeia de caracteres numéricas na forma falada.
Aqui estão alguns exemplos de normalização que você deve realizar na transcrição:
Texto original | Texto após a normalização |
---|---|
我今年 21 | 我今年二十一 |
3 号楼 504 | 三号 楼 五 零 四 |
As seguintes regras de normalização são aplicadas automaticamente às transcrições:
- Remova toda a pontuação.
- Expanda os números para a forma falada.
- Converter letras de largura total para letras de meia largura.
- Usando letras maiúsculas para todas as palavras em inglês.
Aqui estão alguns exemplos de normalização automática de transcrição:
Texto original | Texto após a normalização |
---|---|
3.1415 | 三 点 一 四 一 五 |
¥ 3.5 | 三 元 五 角 |
w f y z | w f y z |
1992 年 8 月 8 日 | 一 九 九 二 年 八 月 八 日 |
你吃饭了吗? | 你 吃饭 了 吗 |
下午 5:00 的航班 | 下午 五点 的 航班 |
我今年 21 岁 | 我 今年 二十 一 岁 |