テキスト読み上げのパーソナル音声とは
パーソナル音声を使用すると、ユーザーは数秒で AI によって生成された自分の音声のレプリケーションを取得できます。 音声プロンプトとして音声ステートメントと短い音声サンプルを使用すると、ユーザーのパーソナル音声を作成し、100 を超えるロケールでサポートされている 90 を超える言語のいずれかで音声を生成できます。
Note
Personal Voice は次の地域で利用できます: 西ヨーロッパ、米国東部、東南アジア。 サポートされているロケールについては、個人音声の言語サポートに関するページを参照してください。
次の表は、Personal Voice とプロフェッショナルなカスタム ニューラル音声の違いをまとめたものです。
比較 | Personal Voice | プロフェッショナルな音声 |
---|---|---|
ターゲット シナリオ | ユーザーがアプリで自身の Personal Voice を作成し、使用できるようにするためにアプリをビルドする企業の顧客。 | チャット ボットのブランドやキャラクターの音声、オーディオ コンテンツの読み上げなどのプロフェッショナルなシナリオ。 |
ユース ケース | 限られたユース ケースに限定されます。 透過性のためのメモに関する記事をご覧ください。 承認されたお客様は、1,000 を超える個人の音声のサポートを計画する必要があります。 | 限られたユース ケースに限定されます。 透過性のためのメモに関する記事をご覧ください。 |
トレーニング データ | 必ず倫理規定に従ってください。 | 独自のデータを取り込みます。 プロフェッショナル スタジオでのレコーディングをお勧めします。 |
必要なデータ サイズ | 1 分間の人間のスピーチ。 | 300 ~ 2,000 発話 (人間のスピーチで約 30 分 ~ 3 時間)。 |
トレーニング時間 | 5 秒未満 | 約 20 から 40 時間のコンピューティング時間。 |
音声品質 | Natural | 非常に自然 |
多言語サポート | 正解です。 音声は約 100 か国語に対応し、言語の自動検出も有効です。 | 正解です。 トレーニング データとは異なる言語を話すモデルをトレーニングするには、"ニューラル - クロス言語" 機能を選択する必要があります。 |
可用性 | Speech Studio のデモは登録すると利用できます。 API へのアクセスは、対象となるお客様と承認されたユース ケースに制限されています。 取り込みフォーム経由でアクセスを要求します。 | アクセスが承認された後にのみ、CNV Pro モデルをトレーニングしてデプロイできます。 CNV Pro アクセスは、資格と使用条件に基づいて制限されます。 取り込みフォーム経由でアクセスを要求します。 |
価格 | こちら1 で価格の詳細に関するページを確認してください。 | こちらで価格の詳細に関するページを確認してください。 |
責任ある AI の要件 | スピーカーの音声ステートメントが必要です。 未承認のユース ケースは許可されません。 | スピーカーの音声ステートメントが必要です。 未承認のユース ケースは許可されません。 |
1 パーソナル音声の価格は、西ヨーロッパ、米国東部、東南アジアなど、この機能が利用可能なサービス地域でのみ表示されます。
デモの試用
S0 リソースがある場合、Speech Studio でパーソナル音声デモにアクセスできます。 パーソナル音声 API を使用するには、ここでアクセスを申請できます。
Speech Studio にアクセスします。
Personal Voice カードを選択します。
自分の音声を録音したり、さまざまな言語で音声出力サンプルを試したりできます。 デモには、Personal Voice でサポートされている言語のサブセットが含まれています。
Personal Voice を作成する方法
作業を始める際に Personal Voice を作成する手順の概要を次に示します。
- プロジェクトを作成します。
- 同意ファイルをアップロードします。 Personal Voice 機能では、すべての音声がユーザーの明示的な同意のもとに作成される必要があります。 お客様 (Azure AI Speech リソース所有者) が自身の音声を作成および使用することに同意する、ユーザーの録音されたステートメントが必要です。
- Personal Voice 用の話者プロファイル ID を取得します。 話者の音声による同意の意思表示と音声プロンプトに基づいて、話者プロファイル ID を取得します。 ユーザーの音声特性は、テキスト読み上げに使われる
speakerProfileId
プロパティにエンコードされます。
Personal Voice を作成したら、それを使って、100 以上のロケールでサポートされる 91 の言語のいずれかで音声を合成できます。 ロケール タグは必要ありません。 Personal Voice は、文レベルでの自動言語検出を使用します。 詳しくは、アプリケーションでの Personal Voice の使用に関する記事をご覧ください。
ヒント
アプリケーションでパーソナル音声を使用する方法については、GitHub の Speech SDK リポジトリのコード サンプルを参照してください。
リファレンス ドキュメント
責任ある AI
Microsoft は、テクノロジへの関心と同じくらい、AI のユーザーや AI の影響を受けるユーザーにも関心があります。 詳細については、責任ある AI の透明性に関するメモを参照してください。
次のステップ
- プロジェクトを作成します。
- 概要に関する記事で、カスタム ニューラル音声の詳細を理解します。
- Speech Studio に関する詳細については、概要を参照してください。