步驟 3: 從利害關係人意見反應策劃評估集

醒目提示評估集的工作流程

如需本節中的範例程式碼,請參閱 GitHub 存放庫

預期時間:10 - 60 分鐘。 時間會根據您的利害關係人所提供的回覆品質而有所不同。 如果回覆混亂或包含許多無關的查詢,您將需要花更多時間篩選和清除資料。

概觀和預期的結果

此步驟會啟動評估集,其中包含利害關係人透過使用檢閱應用程式所提供的意見反應。 請注意,您可以啟動只包含問題的評估集,因此即使您的利害關係人只與應用程式聊天,也提供意見反應,您也可以遵循此步驟。

如需代理程式評估評估集的架構,請參閱 代理程式評估輸入架構。 本節其餘部分會參考此結構描述中的欄位。

在此步驟結束時,您將會有包含下列項目的評估集:

  • 大拇指豎起的要求 👍:
    • request:由使用者輸入。
    • expected_response:由使用者編輯的回覆。 如果使用者未編輯回覆,則為模型所產生的回覆。
  • 大拇指朝下的要求 👎:
    • request:由使用者輸入。
    • expected_response:由使用者編輯的回覆。 如果使用者未編輯回覆,則回覆為 null。
  • 沒有意見反應的要求 (沒有豎起大拇指 👍 或大拇指朝下 👎)
    • request:由使用者輸入。

針對所有要求,如果使用者從 retrieved_context 中選取區塊的豎起大拇指 👍,則區塊的 doc_uri 會包含在 expected_retrieved_context 問題中。

重要

Databricks 建議評估集包含至少 30 個問題以開始使用。 閱讀評估集深入探討,以深入了解什麼是「良好」評估集。

需求

  • 利害關係人已使用您的 POC 並提供意見反應。
  • 先前步驟的所有需求。

指示

  1. 開啟 04_create_evaluation_set筆記本,然後按下 [全部執行]
  2. 檢查評估集以瞭解包含的資料。 您必須驗證評估集是否包含一組具代表性且具有挑戰性的問題。 視需要調整評估集。
  3. 根據預設,您的評估集會儲存至 00_global_config 筆記本中以 EVALUATION_SET_FQN 設定的 Delta 資料表。

後續步驟

既然您已經有評估集,請使用它來評估 POC 應用程式的品質、成本和延遲。 請參閱步驟 4. 評估 POC 的品質

< 上一步:步驟 2。部署POC並收集意見反應

下一步:步驟 4。評估POC品質 >