カスタムニューラル音声用のトレーニングデータ

[アーティクル]
09/03/2024

アプリケーション用にカスタムテキスト読み上げ音声を作成する準備ができたら、まず、オーディオ録音と関連するスクリプトを収集して、音声モデルのトレーニングを開始します。音声サービスでは、このデータを使用して一意の音声を作成し、録音の音声に一致するように調整します。音声のトレーニングが完了すると、お使いのアプリケーションで音声の合成を開始できます。

ヒント

製品用の音声を作成するには、専門の録音スタジオと音声タレントを使うことをお勧めします。詳細については、音声サンプルを記録してカスタムニューラル音声を作成する方法に関するページを参照してください。

トレーニングデータ型

音声トレーニングデータセットには、オーディオ録音と、関連する文字起こしを含んだテキストファイルが含まれています。各オーディオファイルには、1 つの発話 (1 つの文または対話システムの 1 つのターン) が含まれ、その長さは 15 秒未満である必要があります。

場合によっては、適切なデータセット準備できていない可能性があります。トランスクリプトの長短や有無にかかわらず、使用可能なオーディオファイルを使用して、カスタムニューラル音声トレーニングをテストできます。

次の表に、データの種類と、それぞれがカスタムテキスト読み上げ音声モデルの作成にどのように使用されるかを示します。

データ型	説明	使用する場合	追加の処理が必要
個々の発話 + 一致するトランスクリプト	個々の発話としてのオーディオファイル (.wav) のコレクション (.zip)。各オーディオファイルは、長さを 15 秒以下にし、書式設定されたトランスクリプト (.txt) とペアにする必要があります。	一致するトランスクリプトを使用した、専門的な録音。	トレーニングの準備を完了させる。
長い音声 + トランスクリプト	セグメント化されていない長いオーディオファイル (.wav または .mp3、20 秒を超える最大 1,000 個のオーディオファイル) のコレクション (.zip)。すべての音声を含むトランスクリプトのコレクション (.zip) と組み合わされます。	オーディオファイルおよび一致するトランスクリプトがあっても、これらが発話にセグメント化されていない。	(バッチ文字起こしを使用した) セグメント化。必要に応じて、オーディオ形式の変換が必要。
オーディオのみ (プレビュー)	トランスクリプトなしのオーディオファイル (.wav または .mp3、最大 1,000 個のオーディオファイル) のコレクション (.zip)。	トランスクリプトがなく、オーディオファイルのみが利用可能な場合。	(バッチ文字起こしを使用した) セグメント化 + トランスクリプトの生成。必要に応じて、オーディオ形式の変換が必要。

データ型別にファイルをデータセットにグループ化し、ZIP ファイルとしてアップロードする必要があります。各データセットに含めることができるのは 1 つのデータ型のみです。

Note

サブスクリプションごとにインポートできるデータセットの最大数は、Standard サブスクリプション (S0) ユーザーの場合は zip ファイル 500 個です。

個々の発話 + 一致するトランスクリプト

個々の発話および一致するトランスクリプトの録音は、2 つの方法で準備できます。スクリプトを記述してボイスタレントに読んでもらうか、公開されているオーディオを使用してテキストに書き起こします。後者を行う場合は、"うーん" やその他のつなぎ語、口ごもり、不明瞭な単語、誤った発音などの流ちょうでない部分をオーディオファイルから削除します。

良質の音声モデルを作成するには、静かな部屋で高品質のマイクを使って録音します。音量、読み上げ速度、ピッチ、および表現方法を一定にして話すことが不可欠です。

データ形式の例については、GitHub のサンプルトレーニングセットを参照してください。サンプルトレーニングセットには、サンプルスクリプトと関連するオーディオが含まれています。

個々の発話 + 一致するトランスクリプトの音声データ

各オーディオファイルには、1 つの発話 (1 つの文または対話システムの 1 つのターン) が含まれる必要があります。また、その長さは 15 秒未満にする必要があります。すべてのファイルは、同じ音声言語である必要があります。中国語と英語のバイリンガルを除き、複数言語によるカスタムテキスト読み上げ音声はサポートされていません。各オーディオファイルには、ファイル名拡張子が .wav の一意のファイル名を付ける必要があります。

オーディオを準備する際は、次のガイドラインに従ってください。

プロパティ	値
ファイル形式	.zip ファイルにグループ化された RIFF (.wav)
ファイル名	Windows OS でサポートされているファイル名の文字と、拡張子 .wav。 `\ / : * ? " < > \\|` という文字は使用できません。先頭または末尾をスペースにしたり、先頭をドットにすることはできません。重複するファイル名は許可されません。
サンプリングレート	カスタムニューラル音声を作成する場合、24,000 Hz が必要です。
サンプル形式	PCM (少なくとも 16 ビット)
オーディオの長さ	15 秒未満
アーカイブ形式	.zip
最大アーカイブサイズ	2048 MB

Note

カスタムニューラル音声の既定のサンプリングレートは 24,000 Hz です。サンプリングレートが 16,000 Hz 未満のオーディオファイルは拒否されます。さまざまなサンプルレートの .wav ファイルが .zip ファイルに含まれている場合は、16,000 Hz 以上のものだけがインポートされます。ご利用のオーディオファイルのサンプリングレートが、16,000 Hz から 24,000 Hz の範囲になる場合、ニューラル音声をトレーニングするために、サンプリングレートの上限が 24,000 Hz になります。トレーニングデータには、24,000 Hz のサンプルレートを使用することをお勧めします。

個々の発話 + 一致するトランスクリプトの文字起こしデータ

文字起こしファイルはプレーンテキストファイルです。次のガイドラインを使用して文字起こしを準備してください。

プロパティ	値
ファイル形式	プレーンテキスト (.txt)
エンコード形式	ANSI、ASCII、UTF-8、UTF-8-BOM、UTF-16-LE、または UTF-16-BE。 zh-CN の場合、ANSI および ASCII のエンコードはサポートされていません。
1 行あたりの発話の数	1 - 文字起こしファイルの各行には、いずれかのオーディオファイルの名前に続けて、対応する文字起こしが含まれている必要があります。ファイル名と文字起こしについては、タブ (\t) を使用して区切る必要があります。
ファイルの最大サイズ	2048 MB

1 つの .txt ファイル内でトランスクリプトが発話単位で構成されている例を次に示します。

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

トランスクリプトが、対応するオーディオの文字起こしに対して 100% 正確であることが重要です。トランスクリプトのエラーは、トレーニング時の品質低下をもたらします。

長いオーディオ + トランスクリプト (ベータ)

Note

長いオーディオ + トランスクリプト (ベータ) では、簡体字中国語 (標準中国語、簡体字)、英語 (インド)、英語 (英国)、英語 (米国)、フランス語 (フランス)、ドイツ語 (ドイツ)、イタリア語 (イタリア)、日本語 (日本)、ポルトガル語 (ブラジル)、スペイン語 (メキシコ) のみがサポートされています。

場合によっては、セグメント化されたオーディオを使用できないことがあります。 Speech Studio を使用すると、長いオーディオファイルをセグメント化してトランスクリプトを作成することができます。長いオーディオのセグメント化サービスには、音声テキスト変換のBatch Transcription API 機能が使用されます。

セグメント化の処理中、データの精度が向上するよう認識モデルを改良するために、オーディオファイルとトランスクリプトはカスタム音声認識サービスにも送信されます。この処理の間はデータが保持されません。セグメント化が完了すると、セグメント化された発話とそのマッピングトランスクリプトだけがダウンロードおよびトレーニング用に格納されます。

Note

このサービスは、音声テキスト変換サブスクリプションの使用量に対して課金されます。長いオーディオのセグメント化サービスは、標準 (S0) 音声リソースでのみサポートされています。

長いオーディオ + トランスクリプトのオーディオデータ

セグメント化に向けてオーディオを準備する際は、次のガイドラインに従ってください。

プロパティ	値
ファイル形式	RIFF (.wav) または .mp3 (.zip ファイルでグループ化)
ファイル名	Windows OS でサポートされているファイル名の文字と、拡張子 .wav。 `\ / : * ? " < > \\|` という文字は使用できません。先頭または末尾をスペースにしたり、先頭をドットにすることはできません。重複するファイル名は許可されません。
サンプリングレート	カスタムニューラル音声を作成する場合、24,000 Hz が必要です。
サンプルの形式	RIFF(.wav): PCM (少なくとも 16 ビット)。 mp3: 少なくとも 256 KBps ビットレート。
オーディオの長さ	20 秒超
アーカイブ形式	.zip
最大アーカイブサイズ	2048 MB、最大 1,000 個のオーディオファイルを含む

Note

カスタムニューラル音声の既定のサンプリングレートは 24,000 Hz です。サンプリングレートが 16,000 Hz 未満のオーディオファイルは拒否されます。ご利用のオーディオファイルのサンプリングレートが、16,000 Hz から 24,000 Hz の範囲になる場合、ニューラル音声をトレーニングするために、サンプリングレートの上限が 24,000 Hz になります。トレーニングデータには、24,000 Hz のサンプルレートを使用することをお勧めします。

すべてのオーディオファイルは、ZIP ファイルにグループ化する必要があります。 .wavファイルと.mp3ファイルを同じ zip ファイルに含めてかまいません。たとえば、"kingstory.wav" という名前の 45 秒のオーディオファイルと "queenstory.mp3" という名前の 200 秒の長いオーディオファイルを、同じ zip ファイルにアップロードできます。処理が終わると、すべての .mp3 ファイルは .wav 形式に変換されます。

長いオーディオ + トランスクリプトの文字起こしデータ

トランスクリプトは、次の表に示された仕様に応じて準備する必要があります。各オーディオファイルは、トランスクリプトと一致する必要があります。

プロパティ	値
ファイル形式	.zip にグループ化された、プレーンテキスト (.txt)
ファイル名	一致するオーディオファイルと同じ名前を使用する
エンコード形式	ANSI、ASCII、UTF-8、UTF-8-BOM、UTF-16-LE、または UTF-16-BE。 zh-CN の場合、ANSI および ASCII のエンコードはサポートされていません。
1 行あたりの発話の数	制限なし
ファイルの最大サイズ	2048 MB

このデータ型のトランスクリプトファイルはすべて、ZIP ファイルにグループ化する必要があります。たとえば、"kingstory.wav" という名前の 45 秒のオーディオファイルと "queenstory.mp3" という名前の 200 秒の長いオーディオファイルを、同じ zip ファイルにアップロードできます。対応する 2 つのトランスクリプト (1 つは "kingstory.txt"、もう 1 つは "queenstory.txt" という名前) を含む別の zip ファイルをアップロードする必要があります。各プレーンテキストファイル内では、一致するオーディオの正確な文字起こしを完全に入力します。

データセットが正常にアップロードされると、提供したトランスクリプトに基づいてオーディオファイルを発話にセグメント化することが便利になります。このデータセットをダウンロードすることで、セグメント化された発話および一致するトランスクリプトを確認できます。セグメント化された発話には自動的に一意の ID が割り当てられます。重要なのは、提供したトランスクリプトが 100% 正確であるようにすることです。トランスクリプトのエラーによって、トレーニング時の品質が低下し、その後のトレーニングフェーズでも、品質低下を引き起こす可能性があります。

オーディオのみ (プレビュー)

Note

オーディオのみ (プレビュー) では、簡体字中国語 (標準中国語、簡体字)、英語 (インド)、英語 (英国)、英語 (米国)、フランス語 (フランス)、ドイツ語 (ドイツ)、イタリア語 (イタリア)、日本語 (日本)、ポルトガル語 (ブラジル)、スペイン語 (メキシコ) のみがサポートされています。

オーディオ録音の文字起こしがない場合は、[オーディオのみ] オプションを使用してデータをアップロードしてください。このシステムは、オーディオファイルのセグメント化と文字起こしに役立つ場合があります。このサービスは、音声テキスト変換サブスクリプションの使用量に対して課金されることに注意してください。

オーディオを準備する際は、次のガイドラインに従ってください。

Note

長いオーディオのセグメント化サービスでは音声テキスト変換のバッチ文字起こし機能が利用されるため、サポートされるのは Standard サブスクリプション (S0) ユーザーのみです。

プロパティ	値
ファイル形式	RIFF (.wav) または .mp3 (.zip ファイルでグループ化)
ファイル名	Windows OS でサポートされているファイル名の文字と、拡張子 .wav。 `\ / : * ? " < > \\|` という文字は使用できません。先頭または末尾をスペースにしたり、先頭をドットにすることはできません。重複するファイル名は許可されません。
サンプリングレート	カスタムニューラル音声を作成する場合、24,000 Hz が必要です。
サンプル形式	RIFF(.wav): PCM (少なくとも 16 ビット) mp3: 少なくとも 256 KBps ビットレート。
オーディオの長さ	制限なし
アーカイブ形式	.zip
最大アーカイブサイズ	2048 MB、最大 1,000 個のオーディオファイルを含む

Note

カスタムニューラル音声の既定のサンプリングレートは 24,000 Hz です。ご利用のオーディオファイルのサンプリングレートが、16,000 Hz から 24,000 Hz の範囲になる場合、ニューラル音声をトレーニングするために、サンプリングレートの上限が 24,000 Hz になります。トレーニングデータには、24,000 Hz のサンプルレートを使用することをお勧めします。

すべてのオーディオファイルは、ZIP ファイルにグループ化する必要があります。データセットが正常にアップロードされたら、Speech サービスは、Speech のバッチ音声文字起こしサービスに基づいてオーディオファイルを発話にセグメント化することをお手伝いします。セグメント化された発話には自動的に一意の ID が割り当てられます。一致するトランスクリプトが、音声認識を使用して生成されます。処理が終わると、すべての .mp3 ファイルは .wav 形式に変換されます。このデータセットをダウンロードすることで、セグメント化された発話および一致するトランスクリプトを確認できます。

次の方法で共有

カスタムニューラル音声用のトレーニングデータ

トレーニングデータ型

個々の発話 + 一致するトランスクリプト

個々の発話 + 一致するトランスクリプトの音声データ

個々の発話 + 一致するトランスクリプトの文字起こしデータ

長いオーディオ + トランスクリプト (ベータ)

長いオーディオ + トランスクリプトのオーディオデータ

長いオーディオ + トランスクリプトの文字起こしデータ

オーディオのみ (プレビュー)

次のステップ

フィードバック

その他のリソース

次の方法で共有

カスタム ニューラル音声用のトレーニング データ

トレーニング データ型

個々の発話 + 一致するトランスクリプト

個々の発話 + 一致するトランスクリプトの音声データ

個々の発話 + 一致するトランスクリプトの文字起こしデータ

長いオーディオ + トランスクリプト (ベータ)

長いオーディオ + トランスクリプトのオーディオ データ

長いオーディオ + トランスクリプトの文字起こしデータ

オーディオのみ (プレビュー)

次のステップ

フィードバック

その他のリソース

カスタムニューラル音声用のトレーニングデータ

トレーニングデータ型

長いオーディオ + トランスクリプトのオーディオデータ