評価メトリックの監視についての説明とユース ケース

この記事では、Azure Machine Learning で生成 AI モデルを監視および評価するときに使用されるメトリックと、生成 AI モデル監視を使用するための推奨プラクティスについて説明します。

重要

監視は現在パブリック プレビュー段階です。 このプレビュー版はサービス レベル アグリーメントなしで提供されています。運用環境のワークロードに使用することはお勧めできません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

モデル監視は、運用環境でのモデルのパフォーマンスを追跡し、それをデータ サイエンスと運用の両方の観点から理解することを目的としています。 監視を実装するために、Azure Machine Learning は、ストリーミングされたデータ上でのデータ分析を通じて取得される監視シグナルを使用します。 各監視シグナルには、1 つ以上のメトリックがあります。 モデルまたはデータの異常に関するアラートを Azure Machine Learning または Azure Monitor 経由で受け取るために、これらのメトリックのしきい値を設定できます。

現実性

現実性では、モデルの生成した回答が入力ソースからの情報とどの程度合致しているかが評価されます。 回答は、ユーザー定義のグラウンド トゥルース ソースのコンテキストに対する主張として検証されます。回答が真実である (事実に照らして正しい) 場合でも、ソース テキストに対して検証できない場合は、根拠なしというスコア付けが行われます。 グラウンド トゥルース ソース (入力ソースやデータベースなど) の "コンテキスト" に対する主張として検証された応答。

  • 使用するタイミング: アプリケーションが、生成 AI のトレーニングされた知識の一部として含まれていない情報 (検証不可能な情報とも呼ばれます) を生成している恐れがある場合。|
  • 読み方: モデルの回答の根拠が十分である場合は、AI システムの応答に含まれる事実が入力ソースまたは内部データベースによって検証可能であることを示しています。 逆に、現実性スコアが低いことは、AI システムの応答の中で触れられている事実が、入力ソースまたは内部データベースによって十分に裏打ちまたは検証できない可能性があることを示しています。 このような場合、モデルの生成した回答は、事前にトレーニングされた知識のみに基づいている可能性があり、これは与えられた入力の特定のコンテキストまたはドメインと一致しない場合があります
  • スケール:
    • 1 = "根拠なし": 応答が入力ソースまたは内部データベースによって検証可能でないことを示します。
    • 5 = "完全な現実性" は、AI システムの応答に含まれる事実が、入力ソースまたは内部データベースによって検証可能であることを示しています。

関連性

関連性メトリックでは、モデルの生成した応答が、与えられた質問に対してどの程度適切で、直接的な関連性があるかが評価されます。 ユーザーは、生成 AI モデルとやり取りする際、意味がありコンテキストに応じた適切な回答を期待して、質問をしたりプロンプトに入力を行います。

  • 使用するタイミング: 生成 AI システムのユーザー エクスペリエンスと有用性を向上させるために、アプリケーションの回答で高い関連性を実現したい場合。
  • 読み方: 回答は、グランド トゥルース ソースのコンテキストから質問の重要なポイントを捉える能力でスコア付けされます。 モデルの回答が関連性が高い場合は、AI システムが入力を理解し、一貫性がありコンテキスト的に適切な出力を生成できることを示します。 逆に、関連性スコアが低いことは、生成された応答がトピック外であったり、コンテキストに欠けていたり、ユーザーの意図した問いに適切に答えることに失敗している可能性があることを示しています。  
  • スケール:
    • 1 = "無関係" は、生成された応答がトピック外であったり、コンテキストに欠けていたり、ユーザーの意図した問いに適切に答えることに失敗している可能性があることを示しています。  
    • 5 = "完全な関連性" は、コンテキスト的に適切な出力を示しています。

一貫性

一貫性では、言語モデルが流暢で、自然に読めて、人間の言葉に近い出力をどの程度上手く生成できるかが評価されます。 ボットは、シンプルで適切な言葉を使用し、不要な情報や混乱を招く情報を回避して、自身のメッセージを簡潔かつ明確な方法でどの程度上手く伝えていますか? ユーザーがボットの応答を理解し、それに従うのがどれほど簡単で、応答はユーザーのニーズと期待にどの程度合致していますか?

  • 使用するタイミング: 実際のアプリケーションにおいてモデルの生成した応答の読みやすさと使いやすさをテストしたい場合。
  • 読み方: モデルの回答の一貫性が高い場合は、AI システムがシームレスで適切に構造化されたテキストを滑らかな区切りで生成していることを示します。 テキスト全体で一貫したコンテキストは、読みやすさと理解を促進します。 一貫性が低いということは、モデルの予測した回答の文の品質が悪く、合わさって自然な調和が取れていないことを示しています。 生成されたテキストは論理的な流れを欠き、文がバラバラに見える可能性があり、読者が全体のコンテキストや意図されたメッセージを理解するのが困難になります。 回答は、その明確さ、簡潔さ、適切な言葉使い、定義されたユーザーのニーズと期待に答える能力でスコア付けされます
  • スケール:
    • 1 = "一貫性なし": モデルの予測した回答の文の品質が悪く、合わさって自然な調和が取れていないことを示しています。 生成されたテキストは論理的な流れを欠き、文がバラバラに見える可能性があり、読者が全体のコンテキストや意図されたメッセージを理解するのが困難になります。
    • 5 = "完全に一貫性がある": AI システムは、読みやすさと理解を促進するテキスト全体での滑らかな区切りと一貫性のあるコンテキストを持つ、シームレスで適切に構造化されたテキストを生成していることを示しています。

流暢性

流暢性では、生成 AI の予測した回答の言語熟練度が評価されます。 これは、生成されたテキストが文法規則、統語構造、語彙の適切な使用にどの程度準拠しているかを評価し、言語的に正しくかつ自然に聞こえる応答をもたらします。 回答は、個々の文の品質と、それらが適切に書かれ、文法的に正しいかどうかによって評価されます。 このメトリックは、適切な文法、構文、ボキャブラリの使用に準拠したテキストを生成する言語モデルの能力を評価する際に価値があります。

  • 使用するタイミング: 生成 AI の予測した回答の文法的および言語的精度を評価したい場合。
  • 読み方: モデルの回答の一貫性が高い場合は、AI システムが文法規則に従い、適切なボキャブラリを使用していることを示しています。 テキスト全体で一貫したコンテキストは、読みやすさと理解を促進します。 逆に、流暢性スコアが低いことは、文法上の誤りとぎこちない言い回しでの苦戦を示しており、テキストを実用的なアプリケーションに適したものでなくします。  
  • スケール:
    • 1 = "ぎこちない" は、文法上の誤りとぎこちない言い回しでの苦戦を示しており、テキストを実用的なアプリケーションに適したものでなくします。  
    • 5 = "完璧な流暢性" は、AI システムが文法規則に従い、適切な語彙を使用していることを示しています。 テキスト全体で一貫したコンテキストは、読みやすさと理解を促進します。

Similarity

類似性では、グラウンド トゥルース センテンス (またはドキュメント) と AI モデルによって生成された予測センテンスの類似性が定量的に評価されます。 これは、グランド トゥルースとモデルの予測の両方について、最初に文レベルの埋め込みを計算することによって計算されます。 これらの埋め込みは、文の高次元ベクトル表現を表すもので、文のセマンティックな意味とコンテキストを捉えます。

  • 使用するタイミング: (グラウンド トゥルースの望ましい応答にアクセスできるテキスト生成タスクについて) AI モデルのパフォーマンスを客観的に評価したい場合。 Ada の類似性を使用すると、生成されたテキストを望ましいコンテンツと比較できます。
  • 読み方: 答えは、与えられた質問に対するグラウンド トゥルースの答えと同じ情報と意味を捉えているかによって、グラウンド トゥルースの答えとの同等性に関してスコア付けされます。 高い Ada の類似性スコアは、モデルの予測がグラウンド トゥルースとコンテキスト的に類似していることを示し、正確で関連性のある結果を示唆しています。 逆に、低い Ada の類似性スコアは、予測と実際のグラウンド トゥルースの不一致または相違を意味しており、モデルのパフォーマンスの不正確さまたは欠陥を示唆している可能性があります。
  • スケール:
    • 1 = "非同等" は、予測と実際のグラウンド トゥルースの不一致または相違を意味しており、モデルのパフォーマンスの不正確さまたは欠陥を示唆している可能性があります。
    • 5 = "完全同等" は、モデルの予測がグラウンド トゥルースとコンテキスト的に類似していることを示し、正確で関連性のある結果を示唆しています。

次のステップ