テキスト読み上げのパーソナル音声とは

パーソナル音声を使用すると、ユーザーは数秒で AI によって生成された自分の音声のレプリケーションを取得できます。 音声プロンプトとして音声ステートメントと短い音声サンプルを使用すると、ユーザーのパーソナル音声を作成し、100 を超えるロケールでサポートされている 90 を超える言語のいずれかで音声を生成できます。

Note

Personal Voice は次の地域で利用できます: 西ヨーロッパ、米国東部、東南アジア。 サポートされているロケールについては、個人音声の言語サポートに関するページを参照してください。

次の表は、Personal Voice とプロフェッショナルなカスタム ニューラル音声の違いをまとめたものです。

比較 Personal Voice プロフェッショナルな音声
ターゲット シナリオ ユーザーがアプリで自身の Personal Voice を作成し、使用できるようにするためにアプリをビルドする企業の顧客。 チャット ボットのブランドやキャラクターの音声、オーディオ コンテンツの読み上げなどのプロフェッショナルなシナリオ。
ユース ケース 限られたユース ケースに限定されます。 透過性のためのメモに関する記事をご覧ください。 承認されたお客様は、1,000 を超える個人の音声のサポートを計画する必要があります。 限られたユース ケースに限定されます。 透過性のためのメモに関する記事をご覧ください。
トレーニング データ 必ず倫理規定に従ってください。 独自のデータを取り込みます。 プロフェッショナル スタジオでのレコーディングをお勧めします。
必要なデータ サイズ 1 分間の人間のスピーチ。 300 ~ 2,000 発話 (人間のスピーチで約 30 分 ~ 3 時間)。
トレーニング時間 5 秒未満 約 20 から 40 時間のコンピューティング時間。
音声品質 Natural 非常に自然
多言語サポート 正解です。 音声は約 100 か国語に対応し、言語の自動検出も有効です。 正解です。 トレーニング データとは異なる言語を話すモデルをトレーニングするには、"ニューラル - クロス言語" 機能を選択する必要があります。
可用性 Speech Studio のデモは登録すると利用できます。 API へのアクセスは、対象となるお客様と承認されたユース ケースに制限されています。 取り込みフォーム経由でアクセスを要求します。 アクセスが承認された後にのみ、CNV Pro モデルをトレーニングしてデプロイできます。 CNV Pro アクセスは、資格と使用条件に基づいて制限されます。 取り込みフォーム経由でアクセスを要求します。
価格 こちら1 で価格の詳細に関するページを確認してください。 こちらで価格の詳細に関するページを確認してください。
責任ある AI の要件 スピーカーの音声ステートメントが必要です。 未承認のユース ケースは許可されません。 スピーカーの音声ステートメントが必要です。 未承認のユース ケースは許可されません。

1 パーソナル音声の価格は、西ヨーロッパ、米国東部、東南アジアなど、この機能が利用可能なサービス地域でのみ表示されます。

デモの試用

S0 リソースがある場合、Speech Studio でパーソナル音声デモにアクセスできます。 パーソナル音声 API を使用するには、ここでアクセスを申請できます。

  1. Speech Studio にアクセスします。

  2. Personal Voice カードを選択します。

  3. 自分の音声を録音したり、さまざまな言語で音声出力サンプルを試したりできます。 デモには、Personal Voice でサポートされている言語のサブセットが含まれています。

    Speech Studio のパーソナル音声デモ エクスペリエンスのスクリーンショット。

Personal Voice を作成する方法

作業を始める際に Personal Voice を作成する手順の概要を次に示します。

  1. プロジェクトを作成します
  2. 同意ファイルをアップロードします。 Personal Voice 機能では、すべての音声がユーザーの明示的な同意のもとに作成される必要があります。 お客様 (Azure AI Speech リソース所有者) が自身の音声を作成および使用することに同意する、ユーザーの録音されたステートメントが必要です。
  3. Personal Voice 用の話者プロファイル ID を取得します。 話者の音声による同意の意思表示と音声プロンプトに基づいて、話者プロファイル ID を取得します。 ユーザーの音声特性は、テキスト読み上げに使われる speakerProfileId プロパティにエンコードされます。

Personal Voice を作成したら、それを使って、100 以上のロケールでサポートされる 91 の言語のいずれかで音声を合成できます。 ロケール タグは必要ありません。 Personal Voice は、文レベルでの自動言語検出を使用します。 詳しくは、アプリケーションでの Personal Voice の使用に関する記事をご覧ください。

ヒント

アプリケーションでパーソナル音声を使用する方法については、GitHub の Speech SDK リポジトリのコード サンプルを参照してください。

リファレンス ドキュメント

責任ある AI

Microsoft は、テクノロジへの関心と同じくらい、AI のユーザーや AI の影響を受けるユーザーにも関心があります。 詳細については、責任ある AI の透明性に関するメモを参照してください。

次のステップ