定義「品質」:評估集

本文說明評估集及其如何協助確保應用程式的品質。

什麼是評估集?

為了測量品質,Databricks 建議建立人為標記的評估集。 評估集是一組策劃且具代表性的查詢,以及應擷取的正確支援檔,以及基礎真相答案和(選擇性地) 。 人類輸入在這個程式中非常重要,因為它可確保評估集能準確地反映使用者的期望和需求。

策展人類標籤可能是一個耗時的程式。 您可以建立只包含問題的評估集,並隨著時間新增基礎真相回應,以開始使用。 馬賽克 AI 代理程式評估 可以評估您的鏈結品質,但沒有地面真相,不過,如果地面真相可用,它會計算其他計量,例如答案正確性。

良好評估集的元素

良好的評估集具有下列特性:

  • 代表: 準確地反映應用程式在生產環境中遇到的各種要求。
  • 具有挑戰性: 集合應包含困難且多樣化的案例,以有效測試模型的功能。 在理想情況下,它包含對抗範例,例如嘗試提示插入的問題,或嘗試從 LLM 產生不當響應的問題。
  • 持續更新: 必須定期更新集合,以反映應用程式在生產環境中使用的方式、已編製索引數據的變更本質,以及應用程式需求的任何變更。

Databricks 建議評估集中至少 30 個問題,最好是 100 - 200。 最佳評估集會隨著時間成長,以包含1,000個問題。

定型、測試和驗證集

為了避免過度學習,Databricks 建議將您的評估集分割成定型、測試和驗證集:

  • 訓練集: 約 70% 的問題。 用於初始階段來評估每個實驗,以識別最高的潛在實驗。
  • 測試集: 約 20% 的問題。 用於評估定型集中執行最高的實驗。
  • 驗證集: 約 10% 的問題。 用於將實驗部署到生產環境之前的最終驗證檢查。

馬賽克 AI 代理程式評估可協助您建立評估集,方法是為項目關係人提供網頁型聊天介面,以提供應用程式輸出的意見反應。 鏈結的輸出和專案關係人意見反應會儲存在 Delta 數據表中,然後可以策劃成評估集。 如需範例程式代碼的實作一節中的實作指示,請參閱 策劃評估集