如何使用 Azure AI Studio 評估生成式 AI 應用程式

發行項
09/27/2024

重要

本文中標示為 (預覽) 的項目目前處於公開預覽狀態。此預覽版本沒有服務等級協定，不建議將其用於生產工作負載。可能不支援特定功能，或可能已經限制功能。如需詳細資訊，請參閱 Microsoft Azure 預覽版增補使用條款。

在將生成式 AI 應用程式套用至大量資料集時，若要徹底評估其效能，可以起始評估程序。在此評估期間，您的應用程式會使用指定的資料集進行測試，並以基於數學的計量和 AI 輔助計量進行量化效能測量。此評估執行可讓您全面瞭解應用程式的功能和限制。

若要進行這項評估，您可以使用 Azure AI Studio 中的評估功能，這個全方位平台提供評估生成式 AI 模型效能和安全性的工具和功能。在 AI Studio 中，您可以記錄、檢視和分析詳細的評估計量。

在本文中，您將了解如何使用 Azure AI Studio UI 的內建評估計量，透過測試資料集或流程建立評估執行。如需更多彈性，您可以建立自訂評估流程，並採用自訂評估功能。或者，如果您的目標只有進行批次執行而不進行任何評估，也可以使用自訂評估功能。

必要條件

若要使用 AI 輔助的計量執行評估，您必須備妥下列項目：

下列其中一種格式的測試資料集：csv 或 jsonl。
Azure OpenAI 連線。
下列任一種模型的部署：GPT 3.5 模型、GPT 4 模型或 Davinci 模型。

使用內建評估計量建立評估

評估執行可讓您為測試資料集中的每個資料列產生計量輸出。您可以選擇一個或多個評估計量，以評估來自不同層面的輸出。您可以從 AI Studio 中的評估和提示流程頁面建立評估執行。隨後會出現評估建立精靈，引導您完成設定評估執行的流程。

透過評估頁面

從可折疊的左側功能表中，選取 [評估]>[+ 新增評估]。

透過流程頁面

從可折疊的左側功能表中，選取 [提示流程]>[評估]>[內建評估]。

基本資訊

當您從評估頁面開始評估時，必須先決定評估目標是什麼。藉由指定適當的評估目標，我們可以針對應用程式的特定性質量身打造評估，以確保計量精確且符合需求。目前我們支援兩種評估目標：

資料集：您已在測試資料集中具備模型產生的輸出。 提示流程：您已建立流程，而且您想要評估流程中的輸出。

進入評估建立精靈後，您可以提供評估執行的選用名稱，並選取最符合您應用程式目標的情境。我們目前支援下列情境：

含有內容的問題與答案：此情境設計係針對下列條件的應用程式：涉及回答使用者查詢，以及提供含有內容資訊的回應。
不含內容的問題與答案：此情境設計係針對下列條件的應用程式：涉及回答使用者查詢，以及提供不含內容的回應。

您可以使用說明面板來檢查常見問題，並引導您完成精靈。

如果您要評估提示流程，您可以選取要評估的流程。如果您是從 [流程] 頁面起始評估，我們會自動選取流程進行評估。如果您想要評估另一個流程，也可以選取不同的流程。請特別注意，在流程中可能會有多個節點，而每個節點可能都有自己的變體集。在這種情況下，您必須指定節點以及要在評估程式期間評估的變體。

設定測試資料

您可以選取自預先存在的資料集，或是上傳評估專用的新資料集。如果沒有在前一步驟中選取流程，測試資料集必須有模型產生的輸出以用於評估。

選擇現有的資料集：您可以從已建立的資料集集合中選擇測試資料集。
新增資料集：您可以從本機儲存體上傳檔案。我們只支援 .csv 和 .jsonl 檔案格式。
流程的資料對應：如果您選取要評估的流程，請確定您的資料行已設定為與要執行批次執行的流程所需的輸入一致，以便產生評量輸出。然後，就可以使用流程的輸出來執行評估。接著，在下一個步驟中設定評估輸入的資料對應。

選取計量

我們支援 Microsoft 策劃的兩種計量類型，以協助您全面評估應用程式：

效能和品質計量：這些計量會評估所產生內容的整體品質和連貫性。
風險和安全性計量：這些計量著重於識別潛在的內容風險，並確保所產生內容的安全性。

您可以參考表格，以取得我們在每個情境中所支援的完整計量清單。若想進一步了解每個計量定義及其計算方式的資訊，請參閱評估和監視計量。

案例	效能和品質計量	風險和安全性計量
含有內容的問題與答案	根據性、相關性、連貫性、流暢性、GPT 相似度、F1 分數	自殘相關內容、仇恨和不公平的內容、暴力內容、色情內容、受保護的材料、間接攻擊
不含內容的問題和答案	連貫性、流暢性、GPT 相似度、F1 分數	自殘相關內容、仇恨和不公平的內容、暴力內容、色情內容、受保護的材料、間接攻擊

使用 AI 輔助計量進行效能和品質評估時，您必須針對計算程序指定 GPT 模型。選擇 Azure OpenAI 連線和使用 GPT-3.5、GPT-4 或 Davinci 模型的部署以進行計算。

對於風險和安全性計量，您不需要提供連線和部署。 Azure AI Studio 安全評估後端服務會佈建 GPT-4 模型，以產生內容風險嚴重性分數並說明理由，讓您可以評估應用程式的內容傷害。

您可以設定閾值來計算內容傷害計量的瑕疵率 (自殘相關內容、仇恨和不公平的內容、暴力內容、色情內容)。缺陷率的計算方式是採用執行個體超過閾值的嚴重性層級 (非常低、低、中、高) 百分比。根據預設，我們會將閾值設定為「中」。

針對受保護的材料和間接攻擊，瑕疵率會計算為輸出為 'true' 的執行個體百分比 (瑕疵率 = (#trues / #instances) × 100)。

注意

AI 輔助的風險和安全計量是由 Azure AI Studio 安全性評估後端服務裝載，僅適用於下列區域：美國東部 2、法國中部、英國南部、瑞典中部

評估的資料對應：您必須指定資料集中的哪些資料行對應評估所需的輸入。不同的評估計量需要不同類型的資料輸入，才能進行精確的計算。

注意

如果您要從資料進行評估，「答案」應該對應至資料集 ${data$answer} 的答案資料行。如果您要從流程進行評估，則「答案」應該來自流程輸出 ${run.outputs.answer}。

如需每個計量的具體資料對應需求指引，請參閱下表提供的資訊：

問題解答計量需求

計量	問題	回答	上下文	有根據事實
根據性	需要：Str	需要：Str	需要：Str	N/A
連貫性	需要：Str	需要：Str	N/A	N/A
流暢度	需要：Str	需要：Str	N/A	N/A
相關性	需要：Str	需要：Str	需要：Str	N/A
GPT 相似度	需要：Str	需要：Str	N/A	需要：Str
F1 分數	需要：Str	需要：Str	N/A	需要：Str
自我傷害相關內容	需要：Str	需要：Str	N/A	N/A
仇恨和不公平的內容	需要：Str	需要：Str	N/A	N/A
暴力內容	需要：Str	需要：Str	N/A	N/A
性內容	需要：Str	需要：Str	N/A	N/A
受保護的資料	需要：Str	需要：Str	N/A	N/A
間接攻擊	需要：Str	需要：Str	N/A	N/A

問題：問題解答配對中，由使用者提出的問題
答案：由模型產生問題的回應作為答案
內容：產生回應時參照的來源 (也就是基礎文件)
有根據事實：使用者/人類產生的問題回應，作為真實答案

檢閱並完成

完成所有必要的設定之後，您可以檢閱並接著選取 [提交] 以提交評估執行。

使用自訂評估流程建立評估

您可以開發您自己的評估方法：

在流程頁面：在可摺疊的左側功能表中，選取 [提示流程]>[評估]>[自訂評估]。

在評估工具程式庫中檢視和管理評估工具

評估工具程式庫是可讓您查看評估工具詳細資料和狀態的集中式位置。您可以檢視和管理 Microsoft 策展的評估工具。

提示

您可以透過提示流程 SDK 使用自訂評估工具。如需更多資訊，請參閱使用提示流程 SDK 進行評估。

評估工具程式庫也會啟用版本管理。您可以比較不同版本的工作、視需要還原舊版，以及更輕鬆地與其他人員共同作業。

若要使用 AI Studio 中的評估工具程式庫，請移至專案的 [評估] 頁面，然後選取 [評估工具程式庫] 索引標籤。

您可以選取評估工具的名稱以查看更多詳細資料。您可以查看名稱、描述和參數，檢查與評估工具相關聯的任何檔案。以下是一些 Microsoft 策展的評估工具範例：

若是 Microsoft 策展的效能和品質評估工具，您可以在詳細資料頁面上檢視註釋提示。您可以根據您的資料和使用提示流程 SDK 的目標變更參數或準則，調整這些提示以適用於您自己的使用案例。例如，您可以選取 Groundedness-Evaluator，並檢查顯示計算計量方法的 Prompty 檔案。
若是 Microsoft 策展的風險和安全性評估工具，您可以查看計量的定義。例如，您可以選取 Self-Harm-Related-Content-Evaluator，了解其意義以及 Microsoft 如何決定此安全計量的各種嚴重性層級

下一步

深入了解如何評估您的生成式 AI 應用程式：

共用方式為