ヒューマンラベル付け文字起こしの作成方法

[アーティクル]
09/19/2024

人間によってラベル付けされた文字起こしとは、オーディオファイルからの逐語的な文字起こしをいいます。単語が削除されていたり、間違って置き換えられたりしているときには特に、モデルの正確性を評価し、認識の精度を向上させるために人間によってラベル付けされた文字起こしを使用します。このガイドは、文字起こしの品質を高めるための参考にしてください。

文字起こしデータの代表的なサンプルは、モデルの正確性を評価するためにおすすめです。データは、ユーザーがアプリケーションに対して話す内容を代表するさまざまな話者と発話を含む必要があります。テストデータの場合、個々のオーディオファイルの最大期間は 2 時間です。

認識精度を向上させるには、文字起こしデータのサンプルが大量に必要です。 1 時間から 100 時間分のオーディオデータを用意することを提案します。音声サービスは、トレーニングに最大 100 時間のオーディオを使用します (トレーニングに課金されない古いモデルの場合は最大 20 時間)。個々のオーディオファイルを 40 秒より長くしないでください (Whisper カスタマイズの場合は最大 30 秒)。

このガイドには、米国英語、標準中国語、およびドイツ語の各ロケールのセクションがあります。

すべての WAV ファイルの文字起こしは、1 つのプレーンテキストファイル (.txt または .tsv) に格納されています。文字起こしファイルの各行には、オーディオファイルの 1 つの名前に続けて、対応する文字起こしが記載されています。ファイル名と文字起こしは、タブ (\t) で区切る必要があります。

次に例を示します。

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

文字起こしは、システムで処理できるように、テキストが正規化されます。ただし、データセットをアップロードする前に、いくつかの重要な正規化を実行する必要があります。

英語および標準中国語以外の言語のヒューマンラベル付け文字起こしは、バイト順マーカー付きの UTF-8 でエンコードする必要があります。その他のロケールの文字起こし要件については、以下のセクションを参照してください。

ja-JP

英語音声用のヒューマンラベル付け文字起こしは、ASCII 文字のみを使用するプレーンテキストとして提供する必要があります。 Latin-1 または Unicode の句読点は使用しないでください。これらの文字は、ワードプロセッシングアプリケーションからテキストをコピーしたり、Web ページからデータを切り取ったりするときに、誤って追加されることがよくあります。これらの文字が存在する場合は、必ず適切な ASCII 代替文字に置き換えてください。

次に例をいくつか示します。

使用を避ける文字	代入	メモ
"Hello world"	"Hello world"	開始と終了の引用符は、適切な ASCII 文字に置き換えられています。
John’s day	John's day	アポストロフィは、適切な ASCII 文字に置き換えられています。
It was good—no, it was great!	it was good--no, it was great!	em ダッシュは、2 つのハイフンに置き換えられています。

米国英語用のテキスト正規化

テキストの正規化とは、モデルをトレーニングするときに使用する一定の形式に単語を変換することです。一部の正規化規則はテキストに自動的に適用されますが、ヒューマンラベル付け文字起こしデータを準備する場合は、以下のガイドラインに従うことをお勧めします。

略語は、略さない単語で書き表します。
非標準の数値文字列は、単語で書き表します (会計用語など)。
アルファベット以外の文字や、英数字が混在する語句は、発音どおりの文字で書き起こす必要があります。
単語として発音される略語は、編集しません ("radar"、"laser"、"RAM"、"NATO" など)。
個々の文字として発音される略語は、各文字をスペースで区切って書き表します。
音声を使用する場合、数値は音声に一致する単語として文字起こしされます (たとえば、"101" は "one oh one" または "one hundred and one" と発音される可能性があります)。
"yeah yeah yeah yeah" など、文字、単語、または単語のグループを 3 回より多く繰り返すことは避けます。そのような繰り返しが含まれる行は、Speech サービスによって削除される可能性があります。

次に、文字起こしに対して行う必要がある正規化の例をいくつか示します。

元のテキスト	正規化後のテキスト (人間)
Dr.Bruce Banner	Doctor Bruce Banner
James Bond, 007	James Bond, double oh seven
Ke$ha	Kesha
How long is the 2x4	How long is the two by four
The meeting goes from 1-3pm	The meeting goes from one to three pm
My blood type is O+	My blood type is O positive
Water is H20	Water is H 2 O
Play OU812 by Van Halen	Play O U 8 1 2 by Van Halen
UTF-8 with BOM	U T F 8 with BOM
It costs $3.14	It costs three fourteen

次の正規化規則は、文字起こしに自動的に適用されます。

小文字を使用します。
単語内のアポストロフィを除く、すべての句読点を削除します。
金額などの数値を、単語および発音形式に展開します。

次に、文字起こしに対して自動的に行われる正規化の例をいくつか示します。

元のテキスト	正規化後のテキスト (自動)
"Holy cow!" said Batman.	holy cow said batman
"What?" said Batman's sidekick, Robin.	what said batman's sidekick robin
Go get -em!	go get em
I'm double-jointed	i’m double jointed
104 Elm Street	one oh four Elm street
Tune to 102.7	tune to one oh two point seven
Pi is about 3.14	pi is about three point one four

de-DE

ドイツ語音声のヒューマンラベル付け文字起こしは、バイト順マーカー付きの UTF-8 でエンコードする必要があります。

ドイツ語のテキスト正規化

小数点は、"." ではなく "," にします。
時間と分の区切り記号は、"." ではなく ":" にします (例: 12:00 Uhr)。
"ca." などの省略形は置き換えられません。完全な発音形式を使用することをお勧めします。
4 つの主要な算術演算子 (+、-、*、/) は削除されます。これらを記述形式 ("plus"、"minus"、"mal"、"geteilt") に置き換えることをお勧めします。
比較演算子 (=、<、および >) は削除されます。比較演算子は "gleich"、"kleiner als"、"grösser als" で置換することをお勧めします。
3/4 などの分数は、記述形式で表記します (例: 3/4 ではなく、"drei viertel" を使用)。
"€" 記号は、"Euro" という記述形式に置き換えます。

次に、文字起こしに対して行う必要がある正規化の例をいくつか示します。

元のテキスト	ユーザー正規化後のテキスト	システム正規化後のテキスト
Es ist 12.23 Uhr	Es ist 12:23 Uhr	es ist zwölf uhr drei und zwanzig uhr
{12.45}	{12,45}	zwölf komma vier fünf
2 + 3 - 4	2 plus 3 minus 4	zwei plus drei minus vier

次の正規化規則は、文字起こしに自動的に適用されます。

すべてのテキストで小文字を使用します。
各種引用符を含むすべての句読点を削除します ("test"、'test'、"test„、«test» は許可される)。
いずれかの特殊文字 (¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² µ × ÿ Ø¬¬) を含む行を破棄します。
金額 (ドルまたはユーロ) などの数字を発音形式に展開します。
a、o、および u に対してだけ、ウムラウトを許可します。その他は "th" に置き換えられるか、破棄されます。

次に、文字起こしに対して自動的に行われる正規化の例をいくつか示します。

元のテキスト	正規化後のテキスト
Frankfurter Ring	frankfurter ring
¡Eine Frage!	eine frage
Wir, haben	wir haben

ja-JP

日本語 (ja-JP) では、各文に対して最大 90 文字の長さがあります。長い文を含む行は破棄されます。これよりも長いテキストを追加するには、間にピリオドを挿入します。

zh-CN

標準中国語音声のヒューマンラベル付け文字起こしは、バイト順マーカー付きの UTF-8 でエンコードする必要があります。半角句読点文字の使用は避けます。これらの文字は、ワードプロセッシングプログラムでデータを準備するときや、Web ページからデータを収集するときに誤って含まれる可能性があります。これらの文字が存在する場合は、必ず適切な全角代替文字に置き換えてください。

次に例をいくつか示します。

使用を避ける文字	代入	Notes
"你好"	"你好"	開始と終了の引用符は、適切な文字に置き換えられています。
需要什么帮助?	需要什么帮助？	疑問符は、適切な文字に置き換えられています。

標準中国語用のテキスト正規化

略語は、略さない単語で書き表します。
数値文字列は読み上げ形式で書き出す

次に、文字起こしに対して行う必要がある正規化の例をいくつか示します。

元のテキスト	正規化後のテキスト
我今年 21	我今年二十一
3 号楼 504	三号楼五零四

次の正規化規則は、文字起こしに自動的に適用されます。

すべての句読点を削除します。
数字を読み上げ形式に展開します。
全角文字を半角文字に変換する
すべての英単語に大文字を使用します。

次に、文字起こしに自動的に適用される正規化の例をいくつか示します。

元のテキスト	正規化後のテキスト
3.1415	三点一四一五
￥ 3.5	三元五角
w f y z	W F Y Z
1992 年 8 月 8 日	一九九二年八月八日
你吃饭了吗?	你吃饭了吗
下午 5:00 的航班	下午五点的航班
我今年 21 岁	我今年二十一岁

次の方法で共有

ヒューマンラベル付け文字起こしの作成方法

ja-JP

米国英語用のテキスト正規化

de-DE

ドイツ語のテキスト正規化

ja-JP

zh-CN

標準中国語用のテキスト正規化

次の手順

フィードバック

その他のリソース

次の方法で共有

ヒューマン ラベル付け文字起こしの作成方法

ja-JP

米国英語用のテキスト正規化

de-DE

ドイツ語のテキスト正規化

ja-JP

zh-CN

標準中国語用のテキスト正規化

次の手順

フィードバック

その他のリソース

ヒューマンラベル付け文字起こしの作成方法