AI Studio での発音評価

[アーティクル]
09/23/2024

重要

この記事で "(プレビュー)" と付記されている項目は、現在、パブリックプレビュー段階です。このプレビューはサービスレベルアグリーメントなしで提供されており、運用環境ではお勧めしません。特定の機能はサポート対象ではなく、機能が制限されることがあります。詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

発音評価では、音声テキスト変換機能を使用して、言語学習者に主観的および客観的なフィードバックを提供します。発音を練習し、タイムリーなフィードバックを得ることは、言語スキルを向上させるために不可欠です。経験豊富な教師による評価は多くの時間と労力を要するため、学習者にとって高品質の評価はコストがかかるものになります。発音評価は、すべてのバックグラウンドの学習者にとって、言語評価がより魅力的で利用しやすくするのに役立ちます。

Note

発音評価の可用性については、サポートされている言語と利用可能なリージョンに関する記事を参照してください。

この記事では、コードを記述せずに、AI Studio を介して発音評価ツールを使用する方法について説明します。音声アプリケーションで発音評価を統合する方法については、「発音評価の使用方法」を参照してください。

読み取りと読み上げのシナリオ

発音評価には、読み取りと読み上げの 2 つのシナリオがあります。

読み取り: このシナリオは、スクリプトありの評価用に設計されています。学習者は、与えられたテキストを読み取る必要があります。参照テキストは事前に提供されます。
読み上げ: このシナリオは、スクリプトなしの評価用に設計されています。学習者は、与えられたトピックについて話す必要があります。参照テキストは事前に提供されません。

スクリプトありの評価を実施する

参照テキストの発音を評価するには、次の手順に従います。

AI Studio で [発音評価] に移動します。
[読み取り] タブで、発音を評価するサポート対象の言語を選択してください。
プロビジョニングされたテキストサンプルを使用することも、独自のスクリプトを入力することもできます。

テキストを読むときは、マイクを近づけて、録音時の音声が低すぎるようにならないようにします。

それ以外の場合は、発音評価のために録音したオーディオをアップロードできます。正常にアップロードされると、次のスクリーンショットに示すように、システムによってオーディオが自動的に評価されます。

スクリプトなしの評価を実施する

スクリプトなしの評価を行う場合は、[読み上げ] タブを選択してください。この機能により、事前に参照テキストを提供せずに、スクリプトなしの評価を実行できます。続行するには、次の手順を実行します。

AI Studio で [発音評価] に移動します。
[読み上げ] タブで、発音を評価するサポート対象の言語を選択してください。
次に、提供されたサンプルトピックから選ぶか、独自のトピックを入力することができます。この選択により、事前に定義されたスクリプトを使用せずに、与えられたテーマで話す能力を評価できます。

発音評価のために音声を録音する場合は、録音時間が推奨される範囲である 15 秒 (50 単語以上に相当) から 10 分の間に収まるようにすることが重要です。この時間の範囲は、音声の内容を正確に評価するために最適です。トピックスコアを受け取るには、音声に少なくとも 3 つの文が含まれている必要があります。

発音評価のために録音したオーディオをアップロードすることもできます。正常にアップロードされると、オーディオはシステムによって自動的に評価されます。

発音評価の結果

音声を録音するか、録音したオーディオをアップロードすると、[評価結果] が出力されます。結果には、ご自分の音声と音声評価に関するフィードバックが含まれます。音声を聞き取ったり、必要に応じてダウンロードしたりすることができます。

発音評価の結果を JSON で確認することもできます。単語レベル、音節レベル、音素レベルの正確性スコアが JSON ファイルに含まれます。

ディスプレイ
JSON

ご自分のスピーチに関するトランスクリプトとフィードバックを含む評価結果が表示ウィンドウに表示されているスクリーンショット。

エラーの種類に応じて単語が強調表示されます。発音評価のエラーの種類は、さまざまな色で表されます。このような視覚的な区別により、特定のエラーを識別して分析しやすくなります。音声のエラーの種類と頻度が明確になるため、改善が必要な部分に焦点を絞ることができます。各エラーの種類のオン/オフを切り替えて、特定の種類のエラーに集中したり、特定の種類を表示から除外したりすることができます。この機能を使用すると、音声のエラーを柔軟に確認および分析できます。各単語をポイントすると、単語全体または特定の音素の正確性スコアを確認できます。

評価結果の下部に、スコア付け結果が表示されます。スクリプトありの発音評価では、発音スコア (正確性スコア、流暢性スコア、完全性スコア、韻律スコアを含む) のみが提供されます。スクリプトなしの発音評価では、発音スコア (正確性スコア、流暢性スコア、韻律スコアを含む) とコンテンツスコア (ボキャブラリスコア、文法スコア、トピックスコアを含む) の両方が表示されます。

完全な文字起こしが text 属性に表示されます。単語全体、音節、特定の音素の正確性スコアを確認できます。 Speech SDK を使用して同じ結果を取得できます。詳細については、発音評価の使用方法に関するページを参照してください。

{
    "text": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
    "duration": 156100000,
    "offset": 800000,
    "json": {
        "Id": "f583d7588c89425d8fce76686c11ed12",
        "RecognitionStatus": 0,
        "Offset": 800000,
        "Duration": 156100000,
        "DisplayText": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
        "SNR": 40.47014,
        "NBest": [
            {
                "Confidence": 0.97532314,
                "Lexical": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "ITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "MaskedITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "Display": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
                "PronunciationAssessment": {
                    "AccuracyScore": 92,
                    "FluencyScore": 81,
                    "CompletenessScore": 93,
                    "PronScore": 85.6
                },
                "Words": [
                    // Words preceding "countryside" are omitted for brevity...
                    {
                        "Word": "countryside",
                        "Offset": 66200000,
                        "Duration": 7900000,
                        "PronunciationAssessment": {
                            "AccuracyScore": 30,
                            "ErrorType": "Mispronunciation"
                        },
                        "Syllables": [
                            {
                                "Syllable": "kahn",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 3
                                },
                                "Offset": 66200000,
                                "Duration": 2700000
                            },
                            {
                                "Syllable": "triy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 19
                                },
                                "Offset": 69000000,
                                "Duration": 1100000
                            },
                            {
                                "Syllable": "sayd",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 51
                                },
                                "Offset": 70200000,
                                "Duration": 3900000
                            }
                        ],
                        "Phonemes": [
                            {
                                "Phoneme": "k",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 66200000,
                                "Duration": 900000
                            },
                            {
                                "Phoneme": "ah",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 67200000,
                                "Duration": 1000000
                            },
                            {
                                "Phoneme": "n",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 11
                                },
                                "Offset": 68300000,
                                "Duration": 600000
                            },
                            {
                                "Phoneme": "t",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 16
                                },
                                "Offset": 69000000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "r",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 27
                                },
                                "Offset": 69400000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "iy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 15
                                },
                                "Offset": 69800000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "s",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 26
                                },
                                "Offset": 70200000,
                                "Duration": 1700000
                            },
                            {
                                "Phoneme": "ay",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 56
                                },
                                "Offset": 72000000,
                                "Duration": 1300000
                            },
                            {
                                "Phoneme": "d",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 100
                                },
                                "Offset": 73400000,
                                "Duration": 700000
                            }
                        ]
                    },
                    // Words following "countryside" are omitted for brevity...
                ]
            }
        ]
    }
}

発音評価の細分性

発音評価では、個々の音素からテキスト入力全体まで、異なる細分性でさまざまな評価結果を得ることができます。

フルテキストレベルでは、発音評価によって、流暢度、完全性、韻律スコアが追加されます。流暢度は、ネイティブスピーカーによる単語間の無音の区切りの使用にどの程度一致しているかを示します。完全性は、参照テキスト入力に対して音声で発音される単語の数を示します。韻律は、話者が自然性、表現力、全体的な韻律の要素をどの程度うまく伝えているかを示します。その後、正確性、流暢度、完全性、韻律から集計された全体的なスコアが与えられ、指定されたスピーチの全体的な発音品質が示されます。発音評価では、コンテンツスコア (ボキャブラリ、文法、トピック) もフルテキストレベルで提供されます。
単語レベルでは、発音評価によって、誤った発音が自動的に検出され、同時に正確性スコアが提供されます。このスコアには、指定されたスピーチの省略、繰り返し、挿入、誤発音に関するより詳細な情報が含まれています。
音節レベルの精度スコアは現在、JSON ファイルまたは Speech SDK を介して使用できます。
音素レベルでは、発音評価によって、各音素の正確度スコアが提供され、学習者が音声の発音の詳細な内容をより理解するのに役立ちます。

AI Studio の発音評価機能には、正確性、流暢度、完全性のベースラインスコアに加えて、より包括的なスコアが含まれており、スピーチのパフォーマンスと理解のさまざまな側面に関する詳細なフィードバックを提供します。拡張スコアは、韻律スコア、ボキャブラリスコア、文法スコア、トピックスコアです。これらのスコアは、音声の韻律、ボキャブラリの使用法、文法の正確性、トピックの理解に関する貴重な分析情報を提供します。

AI Studio の全体的な発音スコアと全体的なコンテンツスコアのスクリーンショット。

評価結果の下部に、発音スコアとコンテンツスコアという 2 つの全体的なスコアが表示されます。 [読み取り] タブには、発音スコアが表示されます。 [読み上げ] タブには、発音スコアとコンテンツスコアの両方が表示されます。

[発音スコア]: このスコアは、発音品質の集計された評価を表し、4 つのサブアスペクトを含みます。これらのスコアは、スクリプトあり、およびスクリプトなしの評価の両方の [読み取り] と [読み上げ] の両方のタブで利用できます。

正確性スコア: 発音の正確性を評価します。
流暢度スコア: 音声の滑らかで自然なレベルを測定します。
完全性スコア: 正しく発音された単語の数を反映します。
韻律スコア: 適切なイントネーション、リズム、強勢の使用を評価します。予期しない中断、中断の欠落、単調さなど、さらにいくつかの韻律評価に関連するエラーの種類が導入されています。これらのエラーの種類により、前のエンジンと比較して発音エラーに関するより詳細な情報が提供されます。

[コンテンツスコア]: このスコアは、音声のコンテンツの集計された評価を提供し、3 つのサブアスペクトを含みます。このスコアは、スクリプトなしの評価の [読み上げ] タブでのみ利用できます。

[ボキャブラリスコア]: 話者の単語の効果的な使用法と、正確にアイデアを表現するための与えられたコンテキスト内での適切さ、および語彙の複雑さのレベルを評価します。
文法スコア: 文法の使用の正確性とさまざまな文章パターンを評価します。構文の正確性、文法の正確性、文構造の多様性を考慮し、言語能力のより包括的な評価を提供します。
トピックスコア: 音声で説明されているトピックに対する理解とエンゲージメントのレベルを評価します。これは、与えられたトピックに関連する考えやアイデアを効果的に表現する話者の能力を評価します。

これらの全体的なスコアは、発音とコンテンツの両方の包括的な評価を提供し、学習者の音声パフォーマンスと理解のさまざまな側面について貴重なフィードバックを提供します。これらの強化された機能により、言語学習者は発音とコンテンツ表現の両方における長所と改善する分野についてより深い分析情報を得ることができます。

Note

コンテンツと韻律の評価は、en-US ロケールでのみお使いいただけます。

ストリーミングモードでの評価スコア

発音評価では、中断のないストリーミングモードがサポートされています。 AI Studio デモでは、評価のためにストリーミングモードで最大 60 分間のレコーディングが可能です。レコーディングの停止ボタンを押さない限り、評価プロセスは終了しません。評価は簡単に一時停止して再開できます。

発音評価では、発音のいくつかの側面が評価されます。 [評価結果] の下部には、集計された全体的なスコアとして [発音スコア] が表示され、4 つのサブアスペクトとして、[正確性スコア]、[流暢性スコア]、[完全性スコア]、[韻律スコア] が含まれます。ストリーミングモードでは、正確性スコア、流暢度スコア、韻律スコアはレコーディングプロセスを通じて時間の経過と共に変動するため、評価の終了前に AI Studio で全体的な概算スコアを段階的に表示するアプローチを示します。これは、正確性スコア、流暢度スコア、韻律スコアのみで重み付けされます。 完全性スコアは、停止ボタンを押した後の評価の最後にのみ計算されるため、最終的な発音の全体スコアは、正確性スコア、流暢性スコア、完全性スコア、韻律スコアに重み付けして集計されます。

ストリーミングモードで発音を評価するプロセス全体については、以下のデモの例を参照してください。

レコーディング開始

レコーディングを開始すると、下部のスコアが 0 から変動し始めます。

記録中

長い段落をレコーディングしている間、いつでもレコーディングを一時停止できます。停止ボタンを押さない限り、レコーディングの評価を継続できます。

レコーディング終了

停止ボタンを押すと、下部に発音スコア、正確性スコア、流暢度スコア、完全性スコア、韻律スコアが表示されます。

価格

ベースラインとして、発音評価の使用には、従量課金制とコミットメントレベルのどちらの価格設定でも、音声テキスト変換と同じ料金がかかります。音声テキスト変換のコミットメントレベルを購入した場合、発音評価の支出はコミットメントを満たす方向に向けられます。

発音評価機能では、ベースラインの音声テキスト変換の価格 (韻律、文法、トピック、ボキャブラリ) に含まれていない他のスコアも提供されます。これらのスコアは、ベースラインの音声テキスト変換の価格にプラスされる追加料金でご利用になれます。価格の詳細については、音声テキスト変換の価格に関するページを参照してください。

次の表に、使用可能な発音評価スコア、スクリプトあり、またはスクリプトなしの評価のどちらで使用できるか、ベースラインの音声テキスト変換の価格とアドオン価格のどちらに含まれるかを示します。

スコア	スクリプトあり、またはスクリプトなし	ベースラインの音声テキスト変換の価格に含まれていますか?
精度	スクリプトありとスクリプトなし	はい
流暢性	スクリプトありとスクリプトなし	はい
Completeness	スクリプト化	はい
ミス	スクリプトありとスクリプトなし	はい
韻律	スクリプトありとスクリプトなし	いいえ
構文	スクリプトなしのみ	いいえ
トピック	スクリプトなしのみ	いいえ
ボキャブラリ	スクリプトなしのみ	いいえ

責任ある AI

AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、それがデプロイされる環境も含まれます。「透過性のためのメモ」を読み、システムでの責任ある AI の使用とデプロイについて確認してください。

次の手順

Speech SDK による発音評価を使用する
ユースケースに関するブログを読む

次の方法で共有

AI Studio での発音評価

読み取りと読み上げのシナリオ

スクリプトありの評価を実施する

スクリプトなしの評価を実施する

発音評価の結果

発音評価の細分性

ストリーミングモードでの評価スコア

価格

責任ある AI

次の手順

フィードバック

その他のリソース

次の方法で共有

AI Studio での発音評価

読み取りと読み上げのシナリオ

スクリプトありの評価を実施する

スクリプトなしの評価を実施する

発音評価の結果

発音評価の細分性

ストリーミング モードでの評価スコア

価格

責任ある AI

次の手順

フィードバック

その他のリソース

ストリーミングモードでの評価スコア