在 Azure AI Studio 遊樂場中手動評估提示

重要

本文中標示為 (預覽) 的項目目前處於公開預覽狀態。 此預覽版本沒有服務等級協定,不建議將其用於生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款

當您開始使用提示工程時,應該一次測試一個不同的輸入,以評估提示非常耗費時間的效率。 這是因為檢查內容篩選是否正常運作、回應是否正確等等事項很重要。

為了簡化此程序,您可以在 Azure AI Studio 中使用手動評估,這是一種評估工具,可讓您在單一介面中根據您的測試資料持續逐一查看和評估提示。 您也可以手動對輸出、模型的回應進行評分,以協助您對提示感到有信心。

手動評估可協助您開始了解提示的執行效能,並逐一查看您的提示,以確保您達到所需的信賴度等級。

在本文中,您會了解:

  • 產生您的手動評估結果
  • 為模型回應評分
  • 逐一查看您的提示並且重新評估
  • 儲存並比較結果
  • 使用內建計量進行評估

必要條件

若要產生手動評估結果,您必須準備好下列項目:

  • 下列其中一種格式的測試資料集:csv 或 jsonl。 如果您沒有可用的資料集,我們也支援透過 UI 手動輸入資料。

  • 下列任一種模型的部署:GPT 3.5 模型、GPT 4 模型或 Davinci 模型。 若要深入了解如何建立部署,請參閱部署模型

注意

目前,僅針對聊天和完成工作類型支援 Azure OpenAI 模型手動評估。

產生您的手動評估結果

從 [遊樂場] 中,選取 [手動評估],開始根據測試資料和提示手動檢閱模型回應的程序。 您的提示會自動轉換為您的 [手動評估],現在您只需要新增據以評估提示的測試資料。

這可以使用 [輸入] 資料行中的文字輸入框手動完成。

您也可以使用 [匯入資料] 來選擇專案中其中一個先前現有資料集,或上傳 CSV 或 JSONL 格式的資料集。 載入您的資料之後,系統會提示您適當地對應資料行。 完成並選取 [匯入] 之後,資料就會適當地填入下列資料行。

產生手動評估結果的螢幕擷取畫面。

注意

您可以將多達 50 個輸入資料列新增至手動評估。 如果您的測試資料有超過 50 個輸入資料列,我們將會上傳輸入資料行中的前 50 個輸入資料列。

現在已新增您的資料,您可以選取 [執行],以模型的回應填入輸出資料行。

為模型回應評分

您可以為每個回應提供優劣評等,以評估提示輸出。 根據您提供的評等,您可以在快速摘要中檢視這些回應分數。

快速摘要中回應分數的螢幕擷取畫面。

逐一查看您的提示並且重新評估

根據摘要,您可能會想要對提示進行變更。 您可以使用上述提示控制項來編輯提示設定。 可以是更新系統訊息、變更模型或編輯參數。

進行編輯之後,您可以選擇全部重新執行以更新整個資料表,或專注於重新執行第一次不符合預期的特定資料列。

儲存並比較結果

填入結果之後,您可以選取 [儲存結果] 與小組共用進度,或稍後從您離開的地方繼續進行手動評估。

儲存結果的螢幕擷取畫面。

您也可以藉由在 [手動評估] 下的 [評估] 索引標籤中儲存及檢視,以比較不同手動評估的優劣評等。

下一步

深入了解如何評估您的生成式 AI 應用程式:

深入了解損害風險降低技巧