定義「品質」：評估集

發行項
08/17/2024

本文說明評估集及其如何協助確保應用程式的品質。

什麼是評估集？

為了測量品質，Databricks 建議建立人為標記的評估集。評估集是一組策劃且具代表性的查詢，以及應擷取的正確支援檔，以及基礎真相答案和（選擇性地）。人類輸入在這個程式中非常重要，因為它可確保評估集能準確地反映使用者的期望和需求。

策展人類標籤可能是一個耗時的程式。您可以建立只包含問題的評估集，並隨著時間新增基礎真相回應，以開始使用。馬賽克 AI 代理程式評估可以評估您的鏈結品質，但沒有地面真相，不過，如果地面真相可用，它會計算其他計量，例如答案正確性。

良好評估集的元素

良好的評估集具有下列特性：

代表： 準確地反映應用程式在生產環境中遇到的各種要求。
具有挑戰性： 集合應包含困難且多樣化的案例，以有效測試模型的功能。在理想情況下，它包含對抗範例，例如嘗試提示插入的問題，或嘗試從 LLM 產生不當響應的問題。
持續更新： 必須定期更新集合，以反映應用程式在生產環境中使用的方式、已編製索引數據的變更本質，以及應用程式需求的任何變更。

Databricks 建議評估集中至少 30 個問題，最好是 100 - 200。最佳評估集會隨著時間成長，以包含1,000個問題。

定型、測試和驗證集

為了避免過度學習，Databricks 建議將您的評估集分割成定型、測試和驗證集：

訓練集： 約 70% 的問題。用於初始階段來評估每個實驗，以識別最高的潛在實驗。
測試集： 約 20% 的問題。用於評估定型集中執行最高的實驗。
驗證集： 約 10% 的問題。用於將實驗部署到生產環境之前的最終驗證檢查。

馬賽克 AI 代理程式評估可協助您建立評估集，方法是為項目關係人提供網頁型聊天介面，以提供應用程式輸出的意見反應。鏈結的輸出和專案關係人意見反應會儲存在 Delta 數據表中，然後可以策劃成評估集。如需範例程式代碼的實作一節中的實作指示，請參閱策劃評估集。