評估驅動開發工作流程

本節將逐步引導您完成 Databricks 建議的開發工作流程,以建置、測試及部署高品質的 RAG 應用程式:評估驅動開發。 此工作流程是以馬賽克研究小組建議的最佳做法為基礎,以建置和評估高品質的 RAG 應用程式。 Databricks 建議下列評估驅動工作流程:

  1. 定義需求。
  2. 收集項目關係人關於快速概念證明的意見反應(POC)。
  3. 評估POC的品質。
  4. 反覆診斷並修正質量問題。
  5. 部署至生產環境
  6. 在生產環境中監視。

評估驅動開發工作流程

評估驅動開發有兩個核心概念:

  • 計量:定義高質量的意義。

    類似於您每年設定商務目標的方式,您需要定義使用案例的高品質意義。 馬賽克 AI 代理程式評估提供一組建議的計量可供使用,其中最重要的是答案正確性或正確性 - RAG 應用程式是否提供正確的答案?

  • 評估集:客觀測量計量。

    若要客觀測量品質,您需要評估集,其中包含由人類驗證的已知良好答案的問題。 本指南會逐步引導您完成開發和反覆精簡此評估集的程式。

錨定計量和評估集可提供下列優點:

  • 您可以在開發期間反覆且自信地精簡應用程式的品質,而不再猜測變更是否導致改善。
  • 當您自信地表示,當您能夠自信地陳述應用程式時,與商務項目關係人保持一致會變得更加直接,「我們知道我們的應用程式正確回答我們業務最關鍵的問題,而且不會幻覺」。

如需說明評估驅動工作流程的逐步解說,請從 必要條件:收集需求開始。