在 Azure AI Studio 遊樂場中手動評估提示

重要

本文中標示為 (預覽) 的項目目前處於公開預覽狀態。此預覽版本沒有服務等級協定，不建議將其用於生產工作負載。可能不支援特定功能，或可能已經限制功能。如需詳細資訊，請參閱 Microsoft Azure 預覽版增補使用條款。

當您開始使用提示工程時，應該一次測試一個不同的輸入，以評估提示非常耗費時間的效率。這是因為檢查內容篩選是否正常運作、回應是否正確等等事項很重要。

為了簡化此程序，您可以在 Azure AI Studio 中使用手動評估，這是一種評估工具，可讓您在單一介面中根據您的測試資料持續逐一查看和評估提示。您也可以手動對輸出、模型的回應進行評分，以協助您對提示感到有信心。

手動評估可協助您開始了解提示的執行效能，並逐一查看您的提示，以確保您達到所需的信賴度等級。

在本文中，您會了解：

必要條件

若要產生手動評估結果，您必須準備好下列項目：

注意

目前，僅針對聊天和完成工作類型支援 Azure OpenAI 模型手動評估。

從 [遊樂場] 中，選取 [手動評估]，開始根據測試資料和提示手動檢閱模型回應的程序。您的提示會自動轉換為您的 [手動評估]，現在您只需要新增據以評估提示的測試資料。

這可以使用 [輸入] 資料行中的文字輸入框手動完成。

您也可以使用 [匯入資料] 來選擇專案中其中一個先前現有資料集，或上傳 CSV 或 JSONL 格式的資料集。載入您的資料之後，系統會提示您適當地對應資料行。完成並選取 [匯入] 之後，資料就會適當地填入下列資料行。

注意

您可以將多達 50 個輸入資料列新增至手動評估。如果您的測試資料有超過 50 個輸入資料列，我們將會上傳輸入資料行中的前 50 個輸入資料列。

現在已新增您的資料，您可以選取 [執行]，以模型的回應填入輸出資料行。

您可以為每個回應提供優劣評等，以評估提示輸出。根據您提供的評等，您可以在快速摘要中檢視這些回應分數。

根據摘要，您可能會想要對提示進行變更。您可以使用上述提示控制項來編輯提示設定。可以是更新系統訊息、變更模型或編輯參數。

進行編輯之後，您可以選擇全部重新執行以更新整個資料表，或專注於重新執行第一次不符合預期的特定資料列。

填入結果之後，您可以選取 [儲存結果] 與小組共用進度，或稍後從您離開的地方繼續進行手動評估。

您也可以藉由在 [手動評估] 下的 [評估] 索引標籤中儲存及檢視，以比較不同手動評估的優劣評等。

深入了解如何評估您的生成式 AI 應用程式：