テキスト読み上げのパーソナル音声とは

[アーティクル]
10/16/2024

パーソナル音声を使用すると、ユーザーは数秒で AI によって生成された自分の音声のレプリケーションを取得できます。音声プロンプトとして音声ステートメントと短い音声サンプルを使用すると、ユーザーのパーソナル音声を作成し、100 を超えるロケールでサポートされている 90 を超える言語のいずれかで音声を生成できます。

Note

Personal Voice は次の地域で利用できます: 西ヨーロッパ、米国東部、東南アジア。サポートされているロケールについては、個人音声の言語サポートに関するページを参照してください。

次の表は、Personal Voice とプロフェッショナルなカスタムニューラル音声の違いをまとめたものです。

比較	Personal Voice	プロフェッショナルな音声
ターゲットシナリオ	ユーザーがアプリで自身の Personal Voice を作成し、使用できるようにするためにアプリをビルドする企業の顧客。	チャットボットのブランドやキャラクターの音声、オーディオコンテンツの読み上げなどのプロフェッショナルなシナリオ。
ユースケース	限られたユースケースに限定されます。透過性のためのメモに関する記事をご覧ください。承認されたお客様は、1,000 を超える個人の音声のサポートを計画する必要があります。	限られたユースケースに限定されます。透過性のためのメモに関する記事をご覧ください。
トレーニングデータ	必ず倫理規定に従ってください。	独自のデータを取り込みます。プロフェッショナルスタジオでのレコーディングをお勧めします。
必要なデータサイズ	1 分間の人間のスピーチ。	300 ~ 2,000 発話 (人間のスピーチで約 30 分 ~ 3 時間)。
トレーニング時間	5 秒未満	約 20 から 40 時間のコンピューティング時間。
音声品質	Natural	非常に自然
多言語サポート	正解です。音声は約 100 か国語に対応し、言語の自動検出も有効です。	正解です。トレーニングデータとは異なる言語を話すモデルをトレーニングするには、"ニューラル - クロス言語" 機能を選択する必要があります。
可用性	Speech Studio のデモは登録すると利用できます。 API へのアクセスは、対象となるお客様と承認されたユースケースに制限されています。取り込みフォーム経由でアクセスを要求します。	アクセスが承認された後にのみ、CNV Pro モデルをトレーニングしてデプロイできます。 CNV Pro アクセスは、資格と使用条件に基づいて制限されます。取り込みフォーム経由でアクセスを要求します。
価格	こちら¹ で価格の詳細に関するページを確認してください。	こちらで価格の詳細に関するページを確認してください。
責任ある AI の要件	スピーカーの音声ステートメントが必要です。未承認のユースケースは許可されません。	スピーカーの音声ステートメントが必要です。未承認のユースケースは許可されません。

¹ パーソナル音声の価格は、西ヨーロッパ、米国東部、東南アジアなど、この機能が利用可能なサービス地域でのみ表示されます。

デモの試用

S0 リソースがある場合、Speech Studio でパーソナル音声デモにアクセスできます。パーソナル音声 API を使用するには、ここでアクセスを申請できます。

Speech Studio にアクセスします。
Personal Voice カードを選択します。
自分の音声を録音したり、さまざまな言語で音声出力サンプルを試したりできます。デモには、Personal Voice でサポートされている言語のサブセットが含まれています。

Personal Voice を作成する方法

作業を始める際に Personal Voice を作成する手順の概要を次に示します。

プロジェクトを作成します。
同意ファイルをアップロードします。 Personal Voice 機能では、すべての音声がユーザーの明示的な同意のもとに作成される必要があります。お客様 (Azure AI Speech リソース所有者) が自身の音声を作成および使用することに同意する、ユーザーの録音されたステートメントが必要です。
Personal Voice 用の話者プロファイル ID を取得します。話者の音声による同意の意思表示と音声プロンプトに基づいて、話者プロファイル ID を取得します。ユーザーの音声特性は、テキスト読み上げに使われる speakerProfileId プロパティにエンコードされます。

Personal Voice を作成したら、それを使って、100 以上のロケールでサポートされる 91 の言語のいずれかで音声を合成できます。ロケールタグは必要ありません。 Personal Voice は、文レベルでの自動言語検出を使用します。詳しくは、アプリケーションでの Personal Voice の使用に関する記事をご覧ください。

ヒント

アプリケーションでパーソナル音声を使用する方法については、GitHub の Speech SDK リポジトリのコードサンプルを参照してください。

リファレンスドキュメント

カスタム音声 REST API リファレンスドキュメント

責任ある AI

Microsoft は、テクノロジへの関心と同じくらい、AI のユーザーや AI の影響を受けるユーザーにも関心があります。詳細については、責任ある AI の透明性に関するメモを参照してください。

次のステップ

プロジェクトを作成します。
概要に関する記事で、カスタムニューラル音声の詳細を理解します。
Speech Studio に関する詳細については、概要を参照してください。

次の方法で共有

テキスト読み上げのパーソナル音声とは

デモの試用

Personal Voice を作成する方法

リファレンスドキュメント

責任ある AI

次のステップ

フィードバック

その他のリソース

次の方法で共有

テキスト読み上げのパーソナル音声とは

デモの試用

Personal Voice を作成する方法

リファレンス ドキュメント

責任ある AI

次のステップ

フィードバック

その他のリソース

リファレンスドキュメント