カスタム ニューラル音声用のトレーニング データ

アプリケーション用にカスタム テキスト読み上げ音声を作成する準備ができたら、まず、オーディオ録音と関連するスクリプトを収集して、音声モデルのトレーニングを開始します。 音声サービスでは、このデータを使用して一意の音声を作成し、録音の音声に一致するように調整します。 音声のトレーニングが完了すると、お使いのアプリケーションで音声の合成を開始できます。

ヒント

製品用の音声を作成するには、専門の録音スタジオと音声タレントを使うことをお勧めします。 詳細については、音声サンプルを記録してカスタム ニューラル音声を作成する方法に関するページを参照してください。

トレーニング データ型

音声トレーニング データセットには、オーディオ録音と、関連する文字起こしを含んだテキスト ファイルが含まれています。 各オーディオ ファイルには、1 つの発話 (1 つの文または対話システムの 1 つのターン) が含まれ、その長さは 15 秒未満である必要があります。

場合によっては、適切なデータセット準備できていない可能性があります。 トランスクリプトの長短や有無にかかわらず、使用可能なオーディオ ファイルを使用して、カスタム ニューラル音声トレーニングをテストできます。

次の表に、データの種類と、それぞれがカスタム テキスト読み上げ音声モデルの作成にどのように使用されるかを示します。

データ型 説明 使用する場合 追加の処理が必要
個々の発話 + 一致するトランスクリプト 個々の発話としてのオーディオ ファイル (.wav) のコレクション (.zip)。 各オーディオ ファイルは、長さを 15 秒以下にし、書式設定されたトランスクリプト (.txt) とペアにする必要があります。 一致するトランスクリプトを使用した、専門的な録音。 トレーニングの準備を完了させる。
長い音声 + トランスクリプト セグメント化されていない長いオーディオ ファイル (.wav または .mp3、20 秒を超える最大 1,000 個のオーディオ ファイル) のコレクション (.zip)。すべての音声を含むトランスクリプトのコレクション (.zip) と組み合わされます。 オーディオ ファイルおよび一致するトランスクリプトがあっても、これらが発話にセグメント化されていない。 (バッチ文字起こしを使用した) セグメント化。
必要に応じて、オーディオ形式の変換が必要。
オーディオのみ (プレビュー) トランスクリプトなしのオーディオ ファイル (.wav または .mp3、最大 1,000 個のオーディオ ファイル) のコレクション (.zip)。 トランスクリプトがなく、オーディオ ファイルのみが利用可能な場合。 (バッチ文字起こしを使用した) セグメント化 + トランスクリプトの生成。
必要に応じて、オーディオ形式の変換が必要。

データ型別にファイルをデータセットにグループ化し、ZIP ファイルとしてアップロードする必要があります。 各データセットに含めることができるのは 1 つのデータ型のみです。

Note

サブスクリプションごとにインポートできるデータセットの最大数は、Standard サブスクリプション (S0) ユーザーの場合は zip ファイル 500 個です。

個々の発話 + 一致するトランスクリプト

個々の発話および一致するトランスクリプトの録音は、2 つの方法で準備できます。 スクリプトを記述してボイス タレントに読んでもらうか、公開されているオーディオを使用してテキストに書き起こします。 後者を行う場合は、"うーん" やその他のつなぎ語、口ごもり、不明瞭な単語、誤った発音などの流ちょうでない部分をオーディオ ファイルから削除します。

良質の音声モデルを作成するには、静かな部屋で高品質のマイクを使って録音します。 音量、読み上げ速度、ピッチ、および表現方法を一定にして話すことが不可欠です。

データ形式の例については、GitHub のサンプル トレーニング セットを参照してください。 サンプル トレーニング セットには、サンプル スクリプトと関連するオーディオが含まれています。

個々の発話 + 一致するトランスクリプトの音声データ

各オーディオ ファイルには、1 つの発話 (1 つの文または対話システムの 1 つのターン) が含まれる必要があります。また、その長さは 15 秒未満にする必要があります。 すべてのファイルは、同じ音声言語である必要があります。 中国語と英語のバイリンガルを除き、複数言語によるカスタム テキスト読み上げ音声はサポートされていません。 各オーディオ ファイルには、ファイル名拡張子が .wav の一意のファイル名を付ける必要があります。

オーディオを準備する際は、次のガイドラインに従ってください。

プロパティ
ファイル形式 .zip ファイルにグループ化された RIFF (.wav)
ファイル名 Windows OS でサポートされているファイル名の文字と、拡張子 .wav。
\ / : * ? " < > \| という文字は使用できません。
先頭または末尾をスペースにしたり、先頭をドットにすることはできません。
重複するファイル名は許可されません。
サンプリング レート カスタム ニューラル音声を作成する場合、24,000 Hz が必要です。
サンプル形式 PCM (少なくとも 16 ビット)
オーディオの長さ 15 秒未満
アーカイブ形式 .zip
最大アーカイブ サイズ 2048 MB

Note

カスタム ニューラル音声の既定のサンプリング レートは 24,000 Hz です。 サンプリング レートが 16,000 Hz 未満のオーディオ ファイルは拒否されます。 さまざまなサンプル レートの .wav ファイルが .zip ファイルに含まれている場合は、16,000 Hz 以上のものだけがインポートされます。 ご利用のオーディオ ファイルのサンプリング レートが、16,000 Hz から 24,000 Hz の範囲になる場合、ニューラル音声をトレーニングするために、サンプリング レートの上限が 24,000 Hz になります。 トレーニング データには、24,000 Hz のサンプル レートを使用することをお勧めします。

個々の発話 + 一致するトランスクリプトの文字起こしデータ

文字起こしファイルはプレーンテキスト ファイルです。 次のガイドラインを使用して文字起こしを準備してください。

プロパティ
ファイル形式 プレーン テキスト (.txt)
エンコード形式 ANSI、ASCII、UTF-8、UTF-8-BOM、UTF-16-LE、または UTF-16-BE。 zh-CN の場合、ANSI および ASCII のエンコードはサポートされていません。
1 行あたりの発話の数 1 - 文字起こしファイルの各行には、いずれかのオーディオ ファイルの名前に続けて、対応する文字起こしが含まれている必要があります。 ファイル名と文字起こしについては、タブ (\t) を使用して区切る必要があります。
ファイルの最大サイズ 2048 MB

1 つの .txt ファイル内でトランスクリプトが発話単位で構成されている例を次に示します。

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

トランスクリプトが、対応するオーディオの文字起こしに対して 100% 正確であることが重要です。 トランスクリプトのエラーは、トレーニング時の品質低下をもたらします。

長いオーディオ + トランスクリプト (ベータ)

Note

長いオーディオ + トランスクリプト (ベータ) では、簡体字中国語 (標準中国語、簡体字)、英語 (インド)、英語 (英国)、英語 (米国)、フランス語 (フランス)、ドイツ語 (ドイツ)、イタリア語 (イタリア)、日本語 (日本)、ポルトガル語 (ブラジル)、スペイン語 (メキシコ) のみがサポートされています。

場合によっては、セグメント化されたオーディオを使用できないことがあります。 Speech Studio を使用すると、長いオーディオ ファイルをセグメント化してトランスクリプトを作成することができます。 長いオーディオのセグメント化サービスには、音声テキスト変換のBatch Transcription API 機能が使用されます。

セグメント化の処理中、データの精度が向上するよう認識モデルを改良するために、オーディオ ファイルとトランスクリプトはカスタム音声認識サービスにも送信されます。 この処理の間はデータが保持されません。 セグメント化が完了すると、セグメント化された発話とそのマッピング トランスクリプトだけがダウンロードおよびトレーニング用に格納されます。

Note

このサービスは、音声テキスト変換サブスクリプションの使用量に対して課金されます。 長いオーディオのセグメント化サービスは、標準 (S0) 音声リソースでのみサポートされています。

長いオーディオ + トランスクリプトのオーディオ データ

セグメント化に向けてオーディオを準備する際は、次のガイドラインに従ってください。

プロパティ
ファイル形式 RIFF (.wav) または .mp3 (.zip ファイルでグループ化)
ファイル名 Windows OS でサポートされているファイル名の文字と、拡張子 .wav。
\ / : * ? " < > \| という文字は使用できません。
先頭または末尾をスペースにしたり、先頭をドットにすることはできません。
重複するファイル名は許可されません。
サンプリング レート カスタム ニューラル音声を作成する場合、24,000 Hz が必要です。
サンプルの形式 RIFF(.wav): PCM (少なくとも 16 ビット)。

mp3: 少なくとも 256 KBps ビット レート。
オーディオの長さ 20 秒超
アーカイブ形式 .zip
最大アーカイブ サイズ 2048 MB、最大 1,000 個のオーディオ ファイルを含む

Note

カスタム ニューラル音声の既定のサンプリング レートは 24,000 Hz です。 サンプリング レートが 16,000 Hz 未満のオーディオ ファイルは拒否されます。 ご利用のオーディオ ファイルのサンプリング レートが、16,000 Hz から 24,000 Hz の範囲になる場合、ニューラル音声をトレーニングするために、サンプリング レートの上限が 24,000 Hz になります。 トレーニング データには、24,000 Hz のサンプル レートを使用することをお勧めします。

すべてのオーディオ ファイルは、ZIP ファイルにグループ化する必要があります。 .wavファイルと.mp3ファイルを同じ zip ファイルに含めてかまいません。 たとえば、"kingstory.wav" という名前の 45 秒のオーディオ ファイルと "queenstory.mp3" という名前の 200 秒の長いオーディオ ファイルを、同じ zip ファイルにアップロードできます。 処理が終わると、すべての .mp3 ファイルは .wav 形式に変換されます。

長いオーディオ + トランスクリプトの文字起こしデータ

トランスクリプトは、次の表に示された仕様に応じて準備する必要があります。 各オーディオ ファイルは、トランスクリプトと一致する必要があります。

プロパティ
ファイル形式 .zip にグループ化された、プレーンテキスト (.txt)
ファイル名 一致するオーディオ ファイルと同じ名前を使用する
エンコード形式 ANSI、ASCII、UTF-8、UTF-8-BOM、UTF-16-LE、または UTF-16-BE。 zh-CN の場合、ANSI および ASCII のエンコードはサポートされていません。
1 行あたりの発話の数 制限なし
ファイルの最大サイズ 2048 MB

このデータ型のトランスクリプト ファイルはすべて、ZIP ファイルにグループ化する必要があります。 たとえば、"kingstory.wav" という名前の 45 秒のオーディオ ファイルと "queenstory.mp3" という名前の 200 秒の長いオーディオ ファイルを、同じ zip ファイルにアップロードできます。 対応する 2 つのトランスクリプト (1 つは "kingstory.txt"、もう 1 つは "queenstory.txt" という名前) を含む別の zip ファイルをアップロードする必要があります。 各プレーンテキスト ファイル内では、一致するオーディオの正確な文字起こしを完全に入力します。

データセットが正常にアップロードされると、提供したトランスクリプトに基づいてオーディオ ファイルを発話にセグメント化することが便利になります。 このデータセットをダウンロードすることで、セグメント化された発話および一致するトランスクリプトを確認できます。 セグメント化された発話には自動的に一意の ID が割り当てられます。 重要なのは、提供したトランスクリプトが 100% 正確であるようにすることです。 トランスクリプトのエラーによって、トレーニング時の品質が低下し、その後のトレーニング フェーズでも、品質低下を引き起こす可能性があります。

オーディオのみ (プレビュー)

Note

オーディオのみ (プレビュー) では、簡体字中国語 (標準中国語、簡体字)、英語 (インド)、英語 (英国)、英語 (米国)、フランス語 (フランス)、ドイツ語 (ドイツ)、イタリア語 (イタリア)、日本語 (日本)、ポルトガル語 (ブラジル)、スペイン語 (メキシコ) のみがサポートされています。

オーディオ録音の文字起こしがない場合は、[オーディオのみ] オプションを使用してデータをアップロードしてください。 このシステムは、オーディオ ファイルのセグメント化と文字起こしに役立つ場合があります。 このサービスは、音声テキスト変換サブスクリプションの使用量に対して課金されることに注意してください。

オーディオを準備する際は、次のガイドラインに従ってください。

Note

長いオーディオのセグメント化サービスでは音声テキスト変換のバッチ文字起こし機能が利用されるため、サポートされるのは Standard サブスクリプション (S0) ユーザーのみです。

プロパティ
ファイル形式 RIFF (.wav) または .mp3 (.zip ファイルでグループ化)
ファイル名 Windows OS でサポートされているファイル名の文字と、拡張子 .wav。
\ / : * ? " < > \| という文字は使用できません。
先頭または末尾をスペースにしたり、先頭をドットにすることはできません。
重複するファイル名は許可されません。
サンプリング レート カスタム ニューラル音声を作成する場合、24,000 Hz が必要です。
サンプル形式 RIFF(.wav): PCM (少なくとも 16 ビット)
mp3: 少なくとも 256 KBps ビット レート。
オーディオの長さ 制限なし
アーカイブ形式 .zip
最大アーカイブ サイズ 2048 MB、最大 1,000 個のオーディオ ファイルを含む

Note

カスタム ニューラル音声の既定のサンプリング レートは 24,000 Hz です。 ご利用のオーディオ ファイルのサンプリング レートが、16,000 Hz から 24,000 Hz の範囲になる場合、ニューラル音声をトレーニングするために、サンプリング レートの上限が 24,000 Hz になります。 トレーニング データには、24,000 Hz のサンプル レートを使用することをお勧めします。

すべてのオーディオ ファイルは、ZIP ファイルにグループ化する必要があります。 データセットが正常にアップロードされたら、Speech サービスは、Speech のバッチ音声文字起こしサービスに基づいてオーディオ ファイルを発話にセグメント化することをお手伝いします。 セグメント化された発話には自動的に一意の ID が割り当てられます。 一致するトランスクリプトが、音声認識を使用して生成されます。 処理が終わると、すべての .mp3 ファイルは .wav 形式に変換されます。 このデータセットをダウンロードすることで、セグメント化された発話および一致するトランスクリプトを確認できます。

次のステップ