38-RAG评测与优化

为什么需要对 RAG 进行评测？

在探索和优化 RAG 系统的过程中，如何有效评估其性能是迭代优化的关键。没有评测就无法对比不同方案的优劣，也无法知道优化是否真的有效。

如何构建 RAG 测试集

构建评测数据集需要包含四列：

question：要评估的问题
ground_truths：问题的真实答案
answer：RAG 预测的答案
contexts：RAG 用于生成答案的相关上下文列表

自动生成测试集步骤

准备 RAG 使用的文档，分块后嵌入存入向量数据库；
随机选择一个块作为根上下文，检索 K 个相邻上下文，拼接成更大的上下文；
使用大模型基于该上下文生成指定数量的问题和答案；
重复多次，得到足够多的问题-答案对；
在 RAG 上运行这些问题，收集预测答案和使用的上下文。

提示模板示例

Your task is to formulate exactly {num_questions} questions from given context 
and provide the answer to each one.
End each question with a '?' character and then in a newline write 
the answer to that question using only the context provided.
Separate each question/answer pair by "XXX"
Each question must start with "question:".
Each answer must start with "answer:".

Rules:
1. The question should make sense to humans even when read without the given context.
2. The question should be fully answered from the given context.
3. The question should be framed from a part of context that contains important information.
4. The answer should not contain any links.
5. The question should be of moderate difficulty.
6. Avoid compound questions that can be split into multiple.
7. The question should not exceed 10 words, abbreviate where possible.

context: {context}

RAG 评估方法

主要分为两类：独立评估和端到端评估。

独立评估

独立评估分别对检索模块和生成模块单独评估。

检索模块评估指标

命中率 (Hit Rate)：正确文档是否出现在 Top-k 中；
平均倒数排名 (MRR)：正确文档排名的倒数平均值；
归一化折扣累积增益 (NDCG)：考虑排名位置的加权指标；
精确度 (Precision)：检索结果中相关文档的比例；
召回率 (Recall)：所有相关文档中被检索到的比例；
上下文精确度：相关文档都排在前列的比例。

生成模块评估指标

答案相关性 (Answer Relevancy)：评估生成答案和问题的相关性，评分 0-1：
- 低分：答案不完整或包含冗余信息；
- 高分：答案精准回答问题。
忠实度 (Faithfulness)：评估生成答案和检索上下文的事实一致性：
- 检查答案中的每个陈述是否都能从上下文中得到支持；
- 高分：所有陈述都和上下文一致，没有幻觉。
答案正确性：评估生成答案和基准答案的匹配程度，评分 0-1。

端到端评估

端到端评估对 RAG 生成的最终答案进行整体评估：

无标签评估：评估答案的准确性、相关性、无害性；
有标签评估：计算准确率、精确匹配等指标。

主流评估框架

RAGAS

RAGAS 是一个基于大语言模型的全自动 RAG 评估框架：

核心指标：

答案忠实度：利用 LLM 将答案分解为多个陈述，检验每个陈述与上下文的一致性，最终得分 = 支持的陈述数 / 总陈述数。
答案相关性：使用 LLM 根据答案生成可能的问题，计算生成问题与原问题的相似度平均得分。
上下文相关性：LLM 筛选出与问题直接相关的句子，得分 = 相关句子数 / 总句子数。

ARES

ARES 通过少量标注数据 + 合成数据实现高效评估：

核心流程：

生成合成数据集：使用 LLM 从目标语料生成合成问题和答案，创建正负样本；
训练 LLM 裁判：用合成数据微调轻量级 LLM，让它评估上下文相关性、答案忠实度、答案相关性；
排名与置信区间：使用训练好的裁判对不同 RAG 系统打分，结合手动验证集生成统计置信区间。

优点：比全人工标注成本低很多，精度接近全人工评估。

RAG-Fusion

RAG-Fusion 是一种检索优化策略，解决了用户查询表达不完整、单一查询覆盖不足的问题。

核心思想

RAG-Fusion 通过多查询生成 + 结果融合提升召回质量：

多查询生成：让大语言模型基于原始查询从多个角度生成多个不同的查询；
独立检索：每个生成的查询分别检索得到一组结果；
逆向排名融合（RRF）：将多个查询的检索结果融合，重新排序；
生成回答：将融合后的 Top-k 文档拼接作为上下文，让大模型生成回答。

工作流程

点击放大查看

逆向排名融合（RRF）

RRF 不依赖检索分数的绝对值，只利用相对排名，融合效果稳定：

python

def reciprocal_rank_fusion(results_list, k=60):
    """
    results_list: 每个查询返回的文档ID列表（按相关性排序）
    """
    scores = {}
    for doc_ids in results_list:
        for rank, doc_id in enumerate(doc_ids):
            if doc_id not in scores:
                scores[doc_id] = 0
            scores[doc_id] += 1 / (rank + k)
    # 按融合分数降序排序
    return sorted(scores.items(), key=lambda x: x[1], reverse=True)

RAG-Fusion 优缺点

优点：

提高相关文档召回率，覆盖更多角度；
自动纠正用户查询的拼写错误；
帮助分解复杂查询，处理表达模糊的提问。

缺点：

多次检索增加延迟和成本；
可能超出大模型上下文窗口限制；
需要控制生成查询数量，避免信息泛滥。

Self-RAG

Self-RAG 让大模型自己对检索结果进行筛选和反思，解决了传统 RAG 无差别使用所有检索结果的问题。

核心思想

传统 RAG 不管检索到的上下文是否相关，都全部拼接到 Prompt 中让大模型生成。Self-RAG 让大模型主动判断是否需要检索，以及检索结果是否可用：

按需检索：大模型判断是否需要检索，仅在需要时调用检索；
片段反思：对每个检索片段，大模型检查是否相关，选择符合需要的片段；
引用来源：生成结果会引用相关片段，便于查证事实。

创新点：反思令牌

Self-RAG 在模型词汇表中加入了特殊的反思令牌：

Retrieve：表示是否需要检索；
Critique：对检索结果的相关性、完整性进行评价。

模型会生成反思令牌来控制检索流程，实现自我反思。

推理过程

模型根据问题判断是否需要检索；
如果需要，检索得到 Top-k 段落；
对每个段落，模型生成反思令牌评估质量；
选择性使用高质量段落生成最终答案；
可以通过调整阈值控制行为，更追求事实性还是更追求创造力。

常见 RAG 痛点及解决方案

痛点	解决方案
内容缺失（答案不在知识库中却给出错误回答）	优化数据源质量，改进提示明确让模型在不知道时承认
关键文档排名低（正确答案在检索结果中但排名靠后）	增加重排序步骤，调参 chunk_size 和 top_k，使用参数搜索找最优
检索到文档但生成没用到	优化检索策略，微调 embedding 模型，提示压缩去除噪声
无法从上下文中提取答案（干扰信息太多）	清理数据，使用 LongLLMLingua 提示压缩，LongContextReorder 重排序
格式错误（无法生成要求的格式）	更精确的提示，提供示例，使用输出解析器（Pydantic/Guardrails）
回答过于笼统，细节不足	查询优化（路由/改写/分解），HyDE 查询改写，逐步深入检索
大数据处理性能瓶颈	并行处理，多分片并行 ingestion，提高处理速度
结构化数据查询难	Chain-of-table，Mix-Self-Consistency，结合程序合成
复杂 PDF 表格提取难	使用版面分析+表格识别，EmbeddedTablesUnstructuredRetriever
主模型故障	备用模型路由（Neutrino/OpenRouter）
安全挑战	Llama Guard 输入输出审核，内容分类

RAG 未来发展方向

垂直优化：深入研究长上下文处理、鲁棒性、RAG 与微调协同、工程实践；
水平扩展：拓展到更多模态（图像、音频、视频、代码）；
生态系统：完善评估体系，增强可解释性，完善工具链。

面试常见问题

1. RAG 有哪些主要评估指标？

回答要点：

检索层面：命中率、MRR、NDCG、Precision、Recall；
生成层面：答案相关性、忠实度（事实一致性）、正确性；
端到端：准确率、人工评估。

2. RAGAS 的原理是什么？

回答要点：

基于大语言模型全自动评估；
评估三个核心指标：答案忠实度、答案相关性、上下文相关性；
每个指标都通过 prompting 大模型完成，不需要手动标注。

3. 什么是 RAG-Fusion？为什么它能提升效果？

回答要点：

生成多个查询，每个查询检索后用 RRF 融合排名；
解决单一查询覆盖不足、用户表达不清的问题；
提高召回率，能从多个角度理解用户意图。

4. Self-RAG 和传统 RAG 有什么区别？

回答要点：

传统 RAG：不管相关性，无差别使用所有检索结果；
Self-RAG：让大模型自己判断是否需要检索，筛选检索结果；
通过特殊反思令牌训练模型，实现自我反思，只使用高质量检索结果；
减少无关信息干扰，提高事实准确性。

5. RAG 最常见的痛点有哪些？对应的解决方案？

回答要点：

内容缺失→改进提示+数据源；
关键文档排名低→重排序+调参；
上下文噪声→提示压缩+重排序；
格式错误→更好的提示+输出解析器；
回答不详细→查询分解+重写。

38-RAG评测与优化

为什么需要对 RAG 进行评测？

在探索和优化 RAG 系统的过程中，如何有效评估其性能是迭代优化的关键。没有评测就无法对比不同方案的优劣，也无法知道优化是否真的有效。

如何构建 RAG 测试集

构建评测数据集需要包含四列：

question：要评估的问题
ground_truths：问题的真实答案
answer：RAG 预测的答案
contexts：RAG 用于生成答案的相关上下文列表

自动生成测试集步骤

准备 RAG 使用的文档，分块后嵌入存入向量数据库；
随机选择一个块作为根上下文，检索 K 个相邻上下文，拼接成更大的上下文；
使用大模型基于该上下文生成指定数量的问题和答案；
重复多次，得到足够多的问题-答案对；
在 RAG 上运行这些问题，收集预测答案和使用的上下文。

提示模板示例

Your task is to formulate exactly {num_questions} questions from given context 
and provide the answer to each one.
End each question with a '?' character and then in a newline write 
the answer to that question using only the context provided.
Separate each question/answer pair by "XXX"
Each question must start with "question:".
Each answer must start with "answer:".

Rules:
1. The question should make sense to humans even when read without the given context.
2. The question should be fully answered from the given context.
3. The question should be framed from a part of context that contains important information.
4. The answer should not contain any links.
5. The question should be of moderate difficulty.
6. Avoid compound questions that can be split into multiple.
7. The question should not exceed 10 words, abbreviate where possible.

context: {context}

RAG 评估方法

主要分为两类：独立评估和端到端评估。

独立评估

独立评估分别对检索模块和生成模块单独评估。

检索模块评估指标

命中率 (Hit Rate)：正确文档是否出现在 Top-k 中；
平均倒数排名 (MRR)：正确文档排名的倒数平均值；
归一化折扣累积增益 (NDCG)：考虑排名位置的加权指标；
精确度 (Precision)：检索结果中相关文档的比例；
召回率 (Recall)：所有相关文档中被检索到的比例；
上下文精确度：相关文档都排在前列的比例。

生成模块评估指标

答案相关性 (Answer Relevancy)：评估生成答案和问题的相关性，评分 0-1：
- 低分：答案不完整或包含冗余信息；
- 高分：答案精准回答问题。
忠实度 (Faithfulness)：评估生成答案和检索上下文的事实一致性：
- 检查答案中的每个陈述是否都能从上下文中得到支持；
- 高分：所有陈述都和上下文一致，没有幻觉。
答案正确性：评估生成答案和基准答案的匹配程度，评分 0-1。

端到端评估

端到端评估对 RAG 生成的最终答案进行整体评估：

无标签评估：评估答案的准确性、相关性、无害性；
有标签评估：计算准确率、精确匹配等指标。

主流评估框架

RAGAS

RAGAS 是一个基于大语言模型的全自动 RAG 评估框架：

核心指标：

答案忠实度：利用 LLM 将答案分解为多个陈述，检验每个陈述与上下文的一致性，最终得分 = 支持的陈述数 / 总陈述数。
答案相关性：使用 LLM 根据答案生成可能的问题，计算生成问题与原问题的相似度平均得分。
上下文相关性：LLM 筛选出与问题直接相关的句子，得分 = 相关句子数 / 总句子数。

ARES

ARES 通过少量标注数据 + 合成数据实现高效评估：

核心流程：

生成合成数据集：使用 LLM 从目标语料生成合成问题和答案，创建正负样本；
训练 LLM 裁判：用合成数据微调轻量级 LLM，让它评估上下文相关性、答案忠实度、答案相关性；
排名与置信区间：使用训练好的裁判对不同 RAG 系统打分，结合手动验证集生成统计置信区间。

优点：比全人工标注成本低很多，精度接近全人工评估。

RAG-Fusion

RAG-Fusion 是一种检索优化策略，解决了用户查询表达不完整、单一查询覆盖不足的问题。

核心思想

RAG-Fusion 通过多查询生成 + 结果融合提升召回质量：

多查询生成：让大语言模型基于原始查询从多个角度生成多个不同的查询；
独立检索：每个生成的查询分别检索得到一组结果；
逆向排名融合（RRF）：将多个查询的检索结果融合，重新排序；
生成回答：将融合后的 Top-k 文档拼接作为上下文，让大模型生成回答。

工作流程

点击放大查看

逆向排名融合（RRF）

RRF 不依赖检索分数的绝对值，只利用相对排名，融合效果稳定：

python

def reciprocal_rank_fusion(results_list, k=60):
    """
    results_list: 每个查询返回的文档ID列表（按相关性排序）
    """
    scores = {}
    for doc_ids in results_list:
        for rank, doc_id in enumerate(doc_ids):
            if doc_id not in scores:
                scores[doc_id] = 0
            scores[doc_id] += 1 / (rank + k)
    # 按融合分数降序排序
    return sorted(scores.items(), key=lambda x: x[1], reverse=True)

RAG-Fusion 优缺点

优点：

提高相关文档召回率，覆盖更多角度；
自动纠正用户查询的拼写错误；
帮助分解复杂查询，处理表达模糊的提问。

缺点：

多次检索增加延迟和成本；
可能超出大模型上下文窗口限制；
需要控制生成查询数量，避免信息泛滥。

Self-RAG

Self-RAG 让大模型自己对检索结果进行筛选和反思，解决了传统 RAG 无差别使用所有检索结果的问题。

核心思想

传统 RAG 不管检索到的上下文是否相关，都全部拼接到 Prompt 中让大模型生成。Self-RAG 让大模型主动判断是否需要检索，以及检索结果是否可用：

按需检索：大模型判断是否需要检索，仅在需要时调用检索；
片段反思：对每个检索片段，大模型检查是否相关，选择符合需要的片段；
引用来源：生成结果会引用相关片段，便于查证事实。

创新点：反思令牌

Self-RAG 在模型词汇表中加入了特殊的反思令牌：

Retrieve：表示是否需要检索；
Critique：对检索结果的相关性、完整性进行评价。

模型会生成反思令牌来控制检索流程，实现自我反思。

推理过程

模型根据问题判断是否需要检索；
如果需要，检索得到 Top-k 段落；
对每个段落，模型生成反思令牌评估质量；
选择性使用高质量段落生成最终答案；
可以通过调整阈值控制行为，更追求事实性还是更追求创造力。

常见 RAG 痛点及解决方案

痛点	解决方案
内容缺失（答案不在知识库中却给出错误回答）	优化数据源质量，改进提示明确让模型在不知道时承认
关键文档排名低（正确答案在检索结果中但排名靠后）	增加重排序步骤，调参 chunk_size 和 top_k，使用参数搜索找最优
检索到文档但生成没用到	优化检索策略，微调 embedding 模型，提示压缩去除噪声
无法从上下文中提取答案（干扰信息太多）	清理数据，使用 LongLLMLingua 提示压缩，LongContextReorder 重排序
格式错误（无法生成要求的格式）	更精确的提示，提供示例，使用输出解析器（Pydantic/Guardrails）
回答过于笼统，细节不足	查询优化（路由/改写/分解），HyDE 查询改写，逐步深入检索
大数据处理性能瓶颈	并行处理，多分片并行 ingestion，提高处理速度
结构化数据查询难	Chain-of-table，Mix-Self-Consistency，结合程序合成
复杂 PDF 表格提取难	使用版面分析+表格识别，EmbeddedTablesUnstructuredRetriever
主模型故障	备用模型路由（Neutrino/OpenRouter）
安全挑战	Llama Guard 输入输出审核，内容分类

RAG 未来发展方向

垂直优化：深入研究长上下文处理、鲁棒性、RAG 与微调协同、工程实践；
水平扩展：拓展到更多模态（图像、音频、视频、代码）；
生态系统：完善评估体系，增强可解释性，完善工具链。

面试常见问题

1. RAG 有哪些主要评估指标？

回答要点：

检索层面：命中率、MRR、NDCG、Precision、Recall；
生成层面：答案相关性、忠实度（事实一致性）、正确性；
端到端：准确率、人工评估。

2. RAGAS 的原理是什么？

回答要点：

基于大语言模型全自动评估；
评估三个核心指标：答案忠实度、答案相关性、上下文相关性；
每个指标都通过 prompting 大模型完成，不需要手动标注。

3. 什么是 RAG-Fusion？为什么它能提升效果？

回答要点：

生成多个查询，每个查询检索后用 RRF 融合排名；
解决单一查询覆盖不足、用户表达不清的问题；
提高召回率，能从多个角度理解用户意图。

4. Self-RAG 和传统 RAG 有什么区别？

回答要点：

传统 RAG：不管相关性，无差别使用所有检索结果；
Self-RAG：让大模型自己判断是否需要检索，筛选检索结果；
通过特殊反思令牌训练模型，实现自我反思，只使用高质量检索结果；
减少无关信息干扰，提高事实准确性。

5. RAG 最常见的痛点有哪些？对应的解决方案？

回答要点：

内容缺失→改进提示+数据源；
关键文档排名低→重排序+调参；
上下文噪声→提示压缩+重排序；
格式错误→更好的提示+输出解析器；
回答不详细→查询分解+重写。

大模型面试

大模型面试

38-RAG评测与优化

38-RAG评测与优化

为什么需要对 RAG 进行评测？

如何构建 RAG 测试集

自动生成测试集步骤

提示模板示例

RAG 评估方法

独立评估

检索模块评估指标

生成模块评估指标

端到端评估

主流评估框架

RAGAS

ARES

RAG-Fusion

核心思想

工作流程

逆向排名融合（RRF）

RAG-Fusion 优缺点

Self-RAG

核心思想

创新点：反思令牌

推理过程

常见 RAG 痛点及解决方案

RAG 未来发展方向

面试常见问题

1. RAG 有哪些主要评估指标？

2. RAGAS 的原理是什么？

3. 什么是 RAG-Fusion？为什么它能提升效果？

4. Self-RAG 和传统 RAG 有什么区别？

5. RAG 最常见的痛点有哪些？对应的解决方案？

38-RAG评测与优化

38-RAG评测与优化

为什么需要对 RAG 进行评测？

如何构建 RAG 测试集

自动生成测试集步骤

提示模板示例

RAG 评估方法

独立评估

检索模块评估指标

生成模块评估指标

端到端评估

主流评估框架

RAGAS

ARES

RAG-Fusion

核心思想

工作流程

逆向排名融合（RRF）

RAG-Fusion 优缺点

Self-RAG

核心思想

创新点：反思令牌

推理过程

常见 RAG 痛点及解决方案

RAG 未来发展方向

面试常见问题

1. RAG 有哪些主要评估指标？

2. RAGAS 的原理是什么？

3. 什么是 RAG-Fusion？为什么它能提升效果？

4. Self-RAG 和传统 RAG 有什么区别？

5. RAG 最常见的痛点有哪些？对应的解决方案？