OpenAI テキスト読み上げ音声とは
Azure AI 音声の音声と同様、OpenAI テキスト読み上げ音声では、高品質の音声合成を実現し、書かれたテキストを自然な音声に変換します。 これにより、イマーシブで対話型のユーザー エクスペリエンスのさまざまな可能性が引き出されます。
OpenAI テキスト読み上げ音声は、Neural
と NeuralHD
の 2 つのモデル バリアントを介して使用できます。
Neural
: 待機時間が最も短いが、NeuralHD
よりも品質が低いリアルタイムのユース ケース向けに最適化されています。NeuralHD
: 品質を重視して最適化されています。
Azure AI サービスで使用できるテキスト読み上げ音声
次のような質問があるかと思います。OpenAI テキスト読み上げ音声を使用する場合は、Azure OpenAI Service または Azure AI 音声経由で使用する必要がありますか? どちらか一方を使用するようにガイドされるシナリオは何ですか?
各音声モデルには個別の機能が用意されており、特定のニーズに最も適したものを選択できます。 Azure AI サービスで使用できるテキスト読み上げ音声のオプションと違いを理解したいと考えています。
Azure AI サービスでは、次のテキスト読み上げ音声から選択できます。
- Azure OpenAI Service の OpenAI テキスト読み上げ音声。 米国中北部とスウェーデン中部のリージョンで利用できます。
- Azure AI 音声の OpenAI テキスト読み上げ音声。 米国中北部とスウェーデン中部のリージョンで利用できます。
- Azure AI 音声サービスのテキスト読み上げ音声。 数十のリージョンで利用できます。 リージョンの一覧を参照してください。
Azure OpenAI Service または Azure AI 音声を介した OpenAI テキスト読み上げ音声
OpenAI テキスト読み上げ音声を使用する場合は、Azure OpenAI と Azure AI 音声のどちらを使用するかを選択できます。 音声ギャラリーにアクセスして、Azure OpenAI の音声のサンプルを聞いたり、Audio Content Creation を使って独自のテキストで音声を合成したりできます。 オーディオ出力はどちらの場合も同じであり、2 つのサービス間の機能の違いはわずかです。 詳しくは、次の表をご覧ください。
Azure OpenAI Service の OpenAI テキスト読み上げ音声と Azure AI 音声の OpenAI テキスト読み上げ音声の機能の比較を次に示します。
機能 | Azure OpenAI Service (OpenAI 音声) | Azure AI 音声 (OpenAI 音声) | Azure AI 音声の音声 |
---|---|---|---|
リージョン | 米国中北部、スウェーデン中部 | 米国中北部、スウェーデン中部 | 数十のリージョンで利用できます。 リージョンの一覧を参照してください。 |
音声の多様性 | 6 | 12 | 500 より多い |
多言語音声の数 | 6 | 12 | 49 |
多言語の最大対応言語 | 57 | 57 | 77 |
音声合成マークアップ言語 (SSML) のサポート | サポートされていません | SSML 要素のサブセットのサポート。 | Azure AI 音声での SSML の完全なセットのサポート。 |
開発オプション | REST API | Speech SDK、Speech CLI、REST API | Speech SDK、Speech CLI、REST API |
配置オプション | クラウドのみ | クラウドのみ | クラウド、埋め込み、ハイブリッド、コンテナー。 |
リアルタイムまたはバッチ合成 | リアルタイム | リアルタイムおよびバッチ合成 | リアルタイムおよびバッチ合成 |
待機時間 | 500 ミリ秒を超える | 500 ミリ秒を超える | 300 ミリ秒未満 |
合成オーディオのサンプル レート | 24 kHz | 8、16、24、48 kHz | 8、16、24、48 kHz |
音声出力オーディオの形式 | opus、mp3、aac、flac | opus、mp3、pcm、truesilk | opus、mp3、pcm、truesilk |
Azure AI Speech には、OpenAI 音声では使用できない追加の機能があります。 次に例を示します。
- Azure AI 音声の OpenAI テキスト読み上げ音声では、SSML 要素のサブセットのみがサポートされています。 Azure AI Speech 音声では、SSML 要素の完全なセットがサポートされています。
- Azure AI Speech では、ワード境界イベントがサポートされています。 OpenAI 音声では、ワード境界イベントはサポートされていません。
Azure AI 音声の OpenAI テキスト読み上げ音声でサポートされる SSML 要素
音声合成マークアップ言語 (SSML) と入力テキストにより、テキスト読み上げ出力の構造、コンテンツ、その他の特性が決定されます。 たとえば、SSML を使用して、段落、文、中断または一時停止、あるいは無音を定義できます。 テキストをブックマークや口形素などのイベント タグで囲んで、後でアプリケーションで処理できます。
次の表は、Azure AI 音声の OpenAI テキスト読み上げ音声でサポートされる音声合成マークアップ言語 (SSML) 要素の概要を示しています。 OpenAI 音声では、SSML タグの次のサブセットのみがサポートされます。 詳細については、「SSML ドキュメントの構造とイベント」を参照してください。
SSML 要素名 | 説明 |
---|---|
<speak> |
読み上げるコンテンツ全体を囲みます。 SSML ドキュメントのルート要素です。 |
<voice> |
テキスト読み上げ出力に使用される音声を指定します。 |
<sub> |
要素で囲んだテキストの代わりにエイリアス属性のテキスト値を発音する必要があることを示します。 |
<say-as> |
要素のテキストのコンテンツ タイプ (数値や日付など) を示します。interpret-as="name" を除き、この要素のすべての interpret-as プロパティ値がサポートされています。 たとえば、<say-as interpret-as="date" format="dmy">10-12-2016</say-as> はサポートされますが、<say-as interpret-as="name">ED</say-as> はサポートされません。 詳細については、「SSML を使用した発音評価」を参照してください。 |
<s> |
文を示します。 |
<lang> |
ニューラル音声で読み上げる言語の既定のロケールを示します。 |
<break> |
単語間の中断や一時停止の既定の動作をオーバーライドするために使用されます。 |