Создание транскрибирования от человека

Статья
10/16/2024

Транскрибирование от человека — это пословная транскрипция звукового файла. Вы используете транскрибирование с метками человека для оценки точности модели и повышения точности распознавания, особенно при удалении или неправильном замене слов. Это руководство поможет вам создать высококачественные операции транскрибирования.

Рекомендуется оценить точность модели в репрезентативном примере данных транскрибирования. Данные должны охватывать различные докладчики и речевые фрагменты, которые являются представительными тем, что пользователи говорят приложению. Для тестовых данных максимальная длительность каждого отдельного звукового файла составляет 2 часа.

Чтобы распознавание было более точным, необходимы крупные фрагменты транскрибированного текста. Мы предлагаем предоставить от 1 до 100 часов звуковых данных. Служба "Речь" использует до 100 часов звука для обучения (до 20 часов для старых моделей, которые не взимается за обучение). Каждый отдельный звуковой файл не должен превышать 40 секунд (до 30 секунд для настройки Whisper).

В этом руководстве содержатся разделы для английского языка США, мандарина китайского языка и немецких языков.

Транскрибирование для всех WAV-файлов содержится в одном текстовом файле (.txt или TSV). Каждая строка файла транскрибирования содержит имя аудиофайла и соответствующую ему расшифровку. Для разделения имени файла и расшифровки необходимо использовать символ табуляции (\t).

Например:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

Расшифровки нормализованы по тексту, поэтому система может их обрабатывать. Однако перед отправкой набора данных необходимо выполнить некоторые важные нормализации.

Транскрибирование от человека аудиофайлов а любых языках, кроме английского и мандаринского диалекта китайского языка, должно быть в кодировке UTF-8 с меткой порядка байтов. Дополнительные сведения о требованиях к транскрибированию языковых стандартов см. в следующих разделах.

en-US

Транскрибирование от человека для аудиофайлов на английском языке должно быть представлено в виде обычного текста, использующего только символы ASCII. Избегайте использования кодировки (Latin-1) или знаков препинания Юникода. Эти символы часто непреднамеренно добавляются при копировании текста из текстового редактора или при считывании данных с веб-страниц. Если эти символы присутствуют, обязательно обновите их с помощью соответствующей замены на ASCII.

Вот несколько таких случаев.

Нерекомендуемые символы	Замена	Примечания.
"Hello world"	"Hello world"	Кавычки открытия и закрытия заменяются соответствующими символами ASCII.
День Джона	День Джона	Апостроф заменен соответствующим символом ASCII.
It was good—no, it was great!	it was good--no, it was great!	Дефис em заменен двумя дефисами.

Нормализация текста для английского языка (США)

Нормализация текста — это преобразование слов в единообразный формат, используемый при обучении модели. Некоторые правила нормализации применяются к тексту автоматически, однако мы рекомендуем использовать эти рекомендации при подготовке данных транскрибирования от человека.

Выпишите аббревиатуры в словах.
Выпишите нестандартные числовые строки словами (например, термины учета).
Неальфабетические символы или смешанные буквенно-цифровые символы должны быть транскрибированы как выраженные.
Аббревиатуры, которые произносятся как слова, не должны изменяться (например, "радар", "лазер", "НАТО").
Выпишите аббревиатуры, которые произносятся побуквенно, отделив каждую букву в них пробелом.
Если вы используете звук, расшифровывайте числа как слова, соответствующие звуку (например, "101" можно произносить как "один ноль один" или "сто один").
Старайтесь не повторять символы, слова или группы слов более трех раз, например "Да да да да". Служба "Речь" может удалять строки с таким повторением.

Ниже приведено несколько примеров нормализации текста для транскрибирования.

Original text	Текст после нормализации человеком
Dr. Bruce Banner	Doctor Bruce Banner
James Bond, 007	James Bond, double oh seven
Ke$ha	Kesha
How long is the 2x4	How long is the two by four
The meeting goes from 1-3pm	The meeting goes from one to three pm
My blood type is O+	My blood type is O positive
Water is H20	Water is H 2 O
Play OU812 by Van Halen	Play O U 8 1 2 by Van Halen
UTF-8 с меткой порядка байтов	U T F 8 with BOM
It costs $3.14	It costs three fourteen

Следующие правила нормализации автоматически применяются для транскрибирования.

Строчные буквы.
Удалите все знаки препинания внутри слов кроме апострофов.
Преобразуйте числа, например денежные суммы, в словесную форму.

Ниже приведено несколько примеров автоматической нормализации для транскрибирования.

Original text	Текст после автоматической нормализации
"Holy cow!" said Batman.	holy cow said batman
"What?" said Batman's sidekick, Robin.	what said batman's sidekick robin
Go get - em!	go get em
I'm double-jointed	I'm double jointed
104 Elm Street	one oh four Elm street
Tune to 102.7	tune to one oh two point seven
Pi is about 3.14	pi is about three point one four

de-DE

Транскрибирование от человека аудиофайлов на немецком языке должно быть в кодировке UTF-8 с маркером порядка байтов.

Правила нормализации текста для немецкого языка

Для десятичных разделителей должен использоваться знак "," вместо ".".
В качестве разделителей времени должен использоваться знак ":" вместо "." (например: 12:00).
Такие сокращения, как "ca.", не заменяются. Мы рекомендуем использовать полную словесную форму.
Удаляются четыре основных математических оператора (+, -, * и /). Мы рекомендуем заменить их на "plus," "minus," "mal" и "geteilt."
Удаляются операторы сравнения (=, < и >). Мы рекомендуем заменить их на "gleich", "kleiner als" и "grösser als".
Используйте дроби, например 3/4, в словесной форме (например, "drei viertel" вместо ¾).
Замените символ "€" на словесную форму "Euro".

Ниже приведено несколько примеров нормализации текста для транскрибирования.

Original text	Текст после нормализации пользователем	Текст после нормализации системой
Es ist 12.23 Uhr	Es ist 12:23 Uhr	es ist zwölf uhr drei und zwanzig uhr
{12.45}	{12,45}	zwölf komma vier fünf
2 + 3 - 4	2 plus 3 minus 4	zwei plus drei minus vier

Следующие правила нормализации автоматически применяются для транскрибирования.

использование строчных букв во всем тексте;
удаление всех знаков препинания, включая различные виды кавычек ("test", 'test', "test„ или «test»);
исключение строк, содержащих специальные знаки из следующего набора ¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² µ × ÿ Ø¬¬;
преобразование чисел в словесную форму, включая денежные суммы;
использование двух точек над гласной только для "a", "o" и "u". Другие заменяются "th" или отменяются.

Ниже приведено несколько примеров автоматической нормализации для транскрибирования.

Original text	Текст после нормализации
Frankfurter Ring	frankfurter ring
¡Eine Frage!	eine frage
Wir, haben	wir haben

ja-JP

В японском языке (ja-JP) для каждого предложения существует максимальная длина 90 символов. Строки с более длинными предложениями удаляются. Чтобы добавить длинный текст, вставьте точку в середине предложения.

zh-CN

Транскрибирование от человека аудиофайлов на мандаринском диалекте китайского языка должно быть в кодировке UTF-8 с маркером порядка байтов. Избегайте использования полуширинных знаков препинания. Эти символы могут быть включены случайно при подготовке данных в текстовом редакторе или импорте данных из веб-страниц. Если эти символы присутствуют, обязательно обновите их с помощью соответствующей подстановки полноширинных знаков.

Вот несколько таких случаев.

Нерекомендуемые символы	Замена	Примечания.
"你好"	"你好"	Кавычки открытия и закрытия заменяются соответствующими символами.
需要什么帮助?	需要什么帮助？	Знак вопроса заменен соответствующим символом.

Нормализация текста для китайского языка

Выпишите аббревиатуры в словах.
Записывайте числовые строки в речевой форме.

Ниже приведено несколько примеров нормализации текста для транскрибирования.

Original text	Текст после нормализации
我今年 21	我今年二十一
3 号楼 504	三号楼五零四

Следующие правила нормализации автоматически применяются для транскрибирования.

Удалите все знаки препинания.
Разверните цифры в речевых формах.
преобразование полноширинных букв в полуширинные буквы;
Использование прописных букв для всех английских слов.

Ниже приведены некоторые примеры нормализации автоматического транскрибирования.

Original text	Текст после нормализации
3.1415	三点一四一五
￥ 3.5	三元五角
w f y z	W F Y Z
1992 年 8 月 8 日	一九九二年八月八日
你吃饭了吗?	你吃饭了吗
下午 5:00 的航班	下午五点的航班
我今年 21 岁	我今年二十一岁

Поделиться через

Создание транскрибирования от человека

en-US

Нормализация текста для английского языка (США)

de-DE

Правила нормализации текста для немецкого языка

ja-JP

zh-CN

Нормализация текста для китайского языка

Next Steps

Обратная связь

Дополнительные ресурсы