步驟 5：找出品質問題的根本原因

已醒目提示逐一查看步驟的工作流程

如需本節中的範例程式碼，請參閱 GitHub 存放庫。

預期時間：60 分鐘。

需求

品質問題最可能的根本原因是擷取和產生步驟。若要先判斷焦點的位置，請使用您在上一個步驟中執行的 Mosaic AI 代理程式評估 LLM 評委輸出，找出影響您應用程式品質的最頻繁根本原因。

評估集的每個資料列都會標記如下：

此方法取決於您的評估集是否包含問題的基礎性回覆。這些回覆會儲存在 expected_response 中。如果您已有 expected_response 可用，請使用資料表根本原因分析，如果有基準真相可用。否則，請使用資料表根本原因分析，如果無法使用基準真相。

注意

如果您已經為每個問題擷取了人為標記的基準真相文件，您可以選擇用 retrieval/ground_truth/document_recall/average 的分數來取代 retrieval/llm_judged/chunk_relevance/precision/average 的分數。

區塊相關性精確度	根據性	正確性	與查詢的相關性	問題摘要	根本原因	整體評分
<50%	失敗	失敗	失敗	擷取很差。	`Improve Retrieval`	失敗
<50%	失敗	失敗	通過	LLM 會產生相關的回覆，但擷取很差。例如，LLM 會忽略擷取，並使用其訓練知識來回答。	`Improve Retrieval`	失敗
<50%	失敗	通過	通過或失敗	擷取品質很差，但 LLM 無論怎樣，都能得到正確的答案。	`Improve Retrieval`	失敗
<50%	通過	失敗	失敗	回覆是以擷取為基礎，但擷取不佳。	`Improve Retrieval`	失敗
<50%	通過	失敗	通過	已擷取內容中的相關回覆，但擷取可能與預期的答案無關。	`Improve Retrieval`	失敗
<50%	通過	通過	通過或失敗	擷取會尋找足夠的資訊，讓 LLM 正確回答。	無	通過
>50%	失敗	失敗	通過或失敗	幻覺。	`Improve Generation`	失敗
>50%	失敗	通過	通過或失敗	幻覺，正確，但會產生不在內容中的詳細資料。	`Improve Generation`	失敗
>50%	通過	失敗	失敗	良好的擷取，但 LLM 不提供相關的回覆。	`Improve Generation`	失敗
>50%	通過	失敗	通過	良好的擷取和相關回覆，但不正確。	`Improve Generation`	失敗
>50%	通過	通過	通過	沒有問題。	無	通過

區塊相關性精確度	根據性	與查詢的相關性	問題摘要	根本原因	整體評分
<50%	失敗	失敗	擷取品質不佳。	`Improve Retrieval`	失敗
<50%	失敗	通過	擷取品質不佳。	`Improve Retrieval`	失敗
<50%	通過	失敗	回覆是以擷取為基礎，但擷取不佳。	`Improve Retrieval`	失敗
<50%	通過	通過	以擷取的內容和相關內容為根據的相關回覆，但擷取很差。	`Improve Retrieval`	通過
>50%	失敗	失敗	幻覺。	`Improve Generation`	失敗
>50%	失敗	通過	幻覺。	`Improve Generation`	失敗
>50%	通過	失敗	良好的擷取和地面，但 LLM 不提供相關的回覆。	`Improve Generation`	失敗
>50%	通過	通過	良好的擷取和相關回覆。收集基準真相，以瞭解答案是否正確。	無	通過

請參閱下列頁面來偵錯您所識別的問題：