音声合成マークアップ言語 (SSML) の概要
音声合成マークアップ言語 (SSML) は、ピッチ、発音、読み上げ速度、音量などのテキスト読み上げの出力属性を微調整するために使用できる XML ベースのマークアップ言語です。 これはプレーンテキスト入力以上の制御と柔軟性をもたらします。
ヒント
音声ギャラリーを使用することで、さまざまなスタイルやピッチでテキスト例を読む上げる音声を聞くことができます。
ユース ケース シナリオ
SSML は、ユーザーに対して音声出力をどのように聞こえさせたいかについての柔軟性を与えるように設計されており、その出力をカスタマイズする方法に関するさまざまなプロパティを提供します。 SSML を使用すると、次のことができます。
- テキスト読み上げ出力の構造、コンテンツ、その他の特性を決定する入力テキスト構造を定義します。 たとえば、SSML を使用して、段落、文、中断または一時停止、あるいは無音を定義できます。 後でアプリケーションで処理できるイベント タグ (ブックマークや口形素など) でテキストをラップできます。 口形素とは、音声言語における個々の音声の響きである音素の視覚的描写です。
- 音声を選択します。言語、名前、スタイル、ロールも同様です。 1 つの SSML ドキュメントで複数の音声を使用できます。 強調、読み上げ速度、ピッチ、音量も調整できます。 SSML は、サウンド効果やメロディーなど、事前に録音されたオーディオを挿入することもできます。
- 発音を制御します (出力オーディオ)。 たとえば、発音を改善するために、音素とカスタム辞書で SSML を使用できます。 SSML を使用して、単語または数式の発音方法を定義することもできます。
SSML を操作する方法
SSML 機能は、ユース ケースに適したさまざまなツールで使用できます。
重要
句読点を含めて、文字が音声に変換されるごとに課金されます。 SSML ドキュメント自体は課金対象外ですが、サービスは、ユーザーがテキストがどのように音声に変換されるかを調整するために使用するオプション要素 (音素やピッチなど) を、課金対象の文字としてカウントします。 詳しくは、「価格に関する注意」をご覧ください。
SSML は、次の方法で使用できます。
- Audio Content Creation ツールを使うと、Speech Studio でプレーンテキストと SSML を作成できます。 出力オーディオを聴き、SSML を調整して音声合成を向上させることができます。 詳細については、「Audio Content Creation ツールを使用した音声合成」を参照してください。
- バッチ合成 API は、
inputs
プロパティで SSML を受け取ります。 - Speech CLI は
spx synthesize --ssml SSML
コマンド ライン引数を介して SSML を受け取ります。 - Speech SDK は、サポートされているさまざまな言語において "speak" SSML メソッドを介して SSML を受け取ります。