Azure AI音声認識および生成テクノロジを選択する

Azure AI サービス は、ワークロード デザイナーと開発者が、すぐに使用できる、構築済みでカスタマイズ可能な API とモデルを使用して、インテリジェントで最先端の、市場対応型の責任あるアプリケーションを作成するのに役立ちます。

この記事では、音声テキスト変換、テキスト音声変換、音声翻訳、話者認識、学習障害のある人向けの読み上げサポートなどの音声認識および生成機能を提供する Azure AI サービスについて説明します。

Note

用語や語句に関する分析情報を収集したり、話し言葉や書き言葉の詳細なコンテキスト分析を取得したりするには、「Azure AI をターゲットとした言語処理テクノロジを選択する」を参照してください。

サービス

次の Azure AI サービスは、ワークロードに音声認識および生成機能を提供できます。

  • Azure AI 音声 は、テキスト分析のための自然言語処理を提供します。

    • 音声を書き起こしたり翻訳したり、会話中の話者を識別したりする必要がある場合は、音声サービスを使用します。 このサービスは、OpenAI モデルの高品質な Whisper に代わる、自然な音声生成のための低コストの代替手段としても使用できます。
    • チャット、コンテンツの要約、モデレーション、またはスクリプトによるユーザーのガイドには音声サービスを使用しないでください。 代わりに他のモデルを使用してください。
  • Immersive Reader は、初心者の読者、言語学習者、学習障害のある人々の読解力を向上させる実証済みの手法を実装したツールです。

    • Immersive Reader を使用 すると、言語学習者や学習障害のある人向けにカスタマイズされた、読みやすさが向上します。
    • 従来のテキスト読み上げの使用例では、Immersive Reader を使用しないでください

Azure AI 音声

Azure AI 音声 は、音声リソースを使用して音声のテキスト変換やテキスト読み上げなどの機能を提供します。 音声を高い精度でテキストに文字起こしし、自然に聞こえるテキスト読み上げ音声を生成し、音声を翻訳し、会話中に話者認識を使用することができます。 カスタム音声を作成したり、ベース ボキャブラリに特定の単語を追加したり、独自のモデルを構築したりできます。 音声サービスは、クラウドやコンテナーのエッジの任意の場所で実行できます。

音声は多くの言語と地域で利用可能です。

機能

次の表は、Azure AI 音声サービスで利用できる機能の一覧を示しています。

機能 説明
バッチ文字起こし ストレージ内の大量の音声データを書き起こします。 音声テキスト変換 REST API と Speech CLI の両方で、バッチ文字起こしがサポートされています。
意図認識 意図は、航空機の予約や天気のチェック、あるいは電話を掛けるなどのユーザーが実行したい行動です。 意図認識を使用すると、アプリケーション、ツール、デバイスで、オプションに基づいて、ユーザーが始めたいことや行いたいことを判断できます。 ユーザーの意図は、意図認識エンジンまたは会話型言語理解 (CLU) モデルで定義します。
発音評価 音声の発音を評価し、話者に音声の正確さと流暢さに関するフィードバックを提供します。
話者認識 話者認識は、オーディオ クリップで誰が話しているのかを判断するのに役立ちます。 このサービスでは、音声生物測定学を使用して、独自の音声特性によって話者を確認および識別できます。
音声テキスト変換 オーディオ ストリームをリアルタイムまたはバッチでテキストに変換します。
音声変換 アプリケーション、ツール、またはデバイスでテキストを人間のような合成音声に変換できるようにします。
音声翻訳 オーディオ ストリームの多言語音声変換および音声テキスト変換を提供します。
ビデオ翻訳 複数の言語でビデオを自動的に翻訳および生成します。

ユース ケース

次の表では、Azure AI 音声 を使用できるいくつかの方法について説明します。

ユース ケース 使用能力 説明
オーディオコンテンツの作成 音声変換 ニューラル音声を使用すると、チャットボットや音声アシスタントとのやり取りをより自然で魅力的なものにしたり、電子書籍などのデジタルテキストをオーディオブックに変換したり、車載ナビゲーション システムを強化したりできます。
コール センターの文字起こし 音声変換 通話をリアルタイムで文字起こしするか、通話をバッチ処理して、個人を識別する情報を編集し、感情などの分析情報を抽出して、コール センターのユース ケースに役立てます。
字幕 音声変換 キャプションを入力オーディオと同期し、不適切な表現フィルターを適用し、部分的な結果を取得し、カスタマイズを適用し、多言語シナリオで話されている言語を識別します。
言語学習 音声変換 言語学習者に発音評価フィードバックを提供し、リモート学習会話のリアルタイム文字起こしをサポートし、ニューラル音声で教材を読み上げます。
音声アシスタント 音声変換 アプリケーションやエクスペリエンスのために、自然で人間のような会話型インターフェースを作成します。 音声アシスタント機能は、デバイスとアシスタント実装間の高速で信頼性の高い対話を提供します。

Immersive Reader

Azure AI サービスの一部であるImmersive Readerは、初心者の読者、言語学習者、失読症などの学習障害を持つ人々の読解力を向上させる実証済みの手法を実装した、包括的に設計されたツールです。 Immersive Reader クライアント ライブラリを使用すると、Microsoft Word や Microsoft OneNote で使用されているものと同じテクノロジを使用して、ワークロードのユーザーに優れたエクスペリエンスを提供できます。

機能

以下は、ユーザーが読解目標を達成するのに役立つようにワークロードで使用できる機能のリストです。

  • 読みやすさを向上させるためにコンテンツを分離する
  • 一般的な単語や用語の画像を表示する
  • 動詞、名詞、代名詞などを強調表示して、品詞や文法の理解を助けます
  • ワークロードの UI でユーザーが選択したテキストなどのコンテンツを読み上げる
  • コンテンツをリアルタイムで多言語に翻訳することで、新しい言語を学習する読者の理解力を向上させることができます。
  • 読みやすさを向上させたり、新しい単語を発音したりするために単語を音節に分割します

次のステップ