幻觉缓解策略

概述

幻觉无法完全根除，但可以从数据、模型、推理多个层面进行缓解。本文介绍主流的幻觉缓解方法。

一、基于数据的方法

1. 构建高质量训练数据

人工筛选标注：对于特定任务，可以人工构建高质量数据集，但大模型预训练阶段不可行
自动数据过滤：训练模型识别低质量/虚假数据，过滤掉不可靠内容
加权可信数据源：对维基百科、教科书等经过人工审核的数据赋予更高权重，减少不可信数据源影响
去重：对训练数据去重，减少重复数据导致的模型偏见

2. 构建高质量评测基准

构建细粒度的幻觉评估基准，帮助准确评估幻觉严重程度，推动研究。

二、模型层面方法

1. 检索增强生成（RAG）

检索增强是目前最有效、最常用的幻觉缓解方法：

核心思想：在生成前先从外部知识库检索相关事实，将检索结果作为上下文输入模型，让模型基于检索到的事实生成回答，减少编造。

优势：

可以引入最新知识，解决知识截止日期问题
生成内容可溯源，可核查
显著减少事实错误，业界广泛应用

2. 知识编辑

核心思想：直接修改模型参数中存储的错误知识，更新为正确知识，从根源解决错误知识导致的幻觉。

代表方法：ROME、MEMIT等，可以精准修改模型中特定知识，不影响其他知识。

3. 改进解码策略

降低采样随机性：多样性和事实性是trade-off，减少随机性可以提升事实准确性
事实核心采样：根据生成位置动态调整采样范围，句子后半段更保守，减少事实错误
主动检测修复：检测低置信度生成，主动检索验证修复，阻止幻觉传播

4. 训练方法优化

强化学习：将事实一致性作为奖励函数，用RLHF优化模型，减轻幻觉
多任务学习：加入事实核查、纠错等辅助任务，提升模型事实意识
可控生成：把幻觉程度作为可控属性，用可控生成技术调节
草图先行：先生成内容骨架，再基于骨架生成详细内容，减少偏离

5. 后处理校正

训练一个小的校正模型，专门检测并修复大模型生成的幻觉错误。

三、推理阶段方法

1. 事实核查与验证

在生成过程中或生成后，引入额外的事实核查步骤：

SelfCheckGPT：多次采样不同输出，检查一致性。如果多次生成结果发散矛盾，说明很可能是幻觉
外部NLI模型验证：用自然语言推理模型判断生成内容是否被源文档蕴含
基于QA的验证：从生成内容提取问题，用QA模型基于源文档回答，对比答案一致性

2. 多生成一致性校验

核心思想：如果模型真的掌握知识，多次生成应该事实一致；如果是胡编，多次生成结果会发散矛盾。

做法：

多次采样生成不同回答（改变温度等参数）
计算不同回答之间的语义一致性
一致性低的判定为幻觉

3. 置信度引导的检索验证

研究发现，模型输出的logit置信度可以作为幻觉信号：

置信度低的片段更容易产生幻觉
对低置信度片段，主动检索知识验证修复
可以阻止幻觉在生成过程中传播

四、典型方法介绍

SelfCheckGPT

核心：多次采样，检查一致性
优点：不需要额外模型，利用模型自身检查幻觉
缺点：需要多次生成，速度较慢

主动检测+修复框架

流程：

生成时检测低置信度概念
检索外部知识验证
修复幻觉句子后继续生成
阻止幻觉传播

五、其他缓解策略

1. 外部知识集成

将结构化数据、知识图谱、垂直领域知识库集成到推理过程中，增强模型对事实的理解，提高生成可靠性。

2. Human-in-the-Loop

训练阶段：RLHF融入人类反馈，让模型学习符合人类事实标准的输出
推理阶段：支持人类交互验证，用户可以交叉核对纠正

3. 偏见缓解

数据预处理阶段去偏见
定期评估监控模型输出，及时发现纠正系统性偏见

4. 用户教育

幻觉目前难以根除，用户需要保持批判性思维：

对重要信息交叉验证，多个来源比对
不盲目信任模型输出

六、未来研究方向

更细粒度的幻觉评估：从句子级别提升到token/短语级别，细粒度检测
更精细的幻觉分类：区分不同原因的幻觉（知识缺乏调用错误vs错误知识），针对性缓解
知识定义与诱导：如何让模型准确调出已掌握的知识，避免误用
更高效的检索增强：降低RAG额外成本，提升检索准确性

面试常见问题

RAG为什么能缓解幻觉？
- RAG在生成前从外部知识库检索相关事实，模型基于检索到的事实生成回答
- 不需要模型完全靠参数存储知识，减少了模型编造的必要性
- 知识更新也更容易，不需要重新训练模型就能获取最新信息
SelfCheckGPT的原理是什么？
- 如果模型掌握正确知识，多次采样生成结果应该事实一致
- 如果是编造幻觉，多次生成结果会发散矛盾
- 通过度量多次生成结果的一致性，就可以检测幻觉
缓解幻觉有哪些主流方法？
- 数据层面：提高训练数据质量，去重过滤，使用可信数据源
- 模型层面：检索增强RAG、知识编辑、改进解码策略、强化学习
- 推理层面：事实核查、多生成一致性检测、置信度引导验证
- 后处理：专门模型校正错误
主动检测缓解幻觉的主要思路是什么？
- 幻觉会传播：一个错误容易引发后续一系列错误
- 利用模型输出置信度检测潜在幻觉候选
- 检索外部知识验证，修复幻觉后再继续生成
- 可以在幻觉传播早期阻断，减轻后续影响
幻觉能完全根除吗？
- 以当前技术，幻觉很难完全根除
- 因为LLM本质是统计建模，不能保证100%事实正确
- 但可以通过各种方法显著缓解，在多数场景满足使用要求
- 用户也需要保持批判性思维，重要信息人工核实
知识编辑如何缓解幻觉？
- 很多幻觉源于模型参数中存储了错误知识
- 知识编辑可以精准修改模型中的错误知识，更新为正确知识
- 不需要全量重训，效率更高，从根源解决问题

幻觉缓解策略

概述

幻觉无法完全根除，但可以从数据、模型、推理多个层面进行缓解。本文介绍主流的幻觉缓解方法。

一、基于数据的方法

1. 构建高质量训练数据

人工筛选标注：对于特定任务，可以人工构建高质量数据集，但大模型预训练阶段不可行
自动数据过滤：训练模型识别低质量/虚假数据，过滤掉不可靠内容
加权可信数据源：对维基百科、教科书等经过人工审核的数据赋予更高权重，减少不可信数据源影响
去重：对训练数据去重，减少重复数据导致的模型偏见

2. 构建高质量评测基准

构建细粒度的幻觉评估基准，帮助准确评估幻觉严重程度，推动研究。

二、模型层面方法

1. 检索增强生成（RAG）

检索增强是目前最有效、最常用的幻觉缓解方法：

核心思想：在生成前先从外部知识库检索相关事实，将检索结果作为上下文输入模型，让模型基于检索到的事实生成回答，减少编造。

优势：

可以引入最新知识，解决知识截止日期问题
生成内容可溯源，可核查
显著减少事实错误，业界广泛应用

2. 知识编辑

核心思想：直接修改模型参数中存储的错误知识，更新为正确知识，从根源解决错误知识导致的幻觉。

代表方法：ROME、MEMIT等，可以精准修改模型中特定知识，不影响其他知识。

3. 改进解码策略

降低采样随机性：多样性和事实性是trade-off，减少随机性可以提升事实准确性
事实核心采样：根据生成位置动态调整采样范围，句子后半段更保守，减少事实错误
主动检测修复：检测低置信度生成，主动检索验证修复，阻止幻觉传播

4. 训练方法优化

强化学习：将事实一致性作为奖励函数，用RLHF优化模型，减轻幻觉
多任务学习：加入事实核查、纠错等辅助任务，提升模型事实意识
可控生成：把幻觉程度作为可控属性，用可控生成技术调节
草图先行：先生成内容骨架，再基于骨架生成详细内容，减少偏离

5. 后处理校正

训练一个小的校正模型，专门检测并修复大模型生成的幻觉错误。

三、推理阶段方法

1. 事实核查与验证

在生成过程中或生成后，引入额外的事实核查步骤：

SelfCheckGPT：多次采样不同输出，检查一致性。如果多次生成结果发散矛盾，说明很可能是幻觉
外部NLI模型验证：用自然语言推理模型判断生成内容是否被源文档蕴含
基于QA的验证：从生成内容提取问题，用QA模型基于源文档回答，对比答案一致性

2. 多生成一致性校验

核心思想：如果模型真的掌握知识，多次生成应该事实一致；如果是胡编，多次生成结果会发散矛盾。

做法：

多次采样生成不同回答（改变温度等参数）
计算不同回答之间的语义一致性
一致性低的判定为幻觉

3. 置信度引导的检索验证

研究发现，模型输出的logit置信度可以作为幻觉信号：

置信度低的片段更容易产生幻觉
对低置信度片段，主动检索知识验证修复
可以阻止幻觉在生成过程中传播

四、典型方法介绍

SelfCheckGPT

核心：多次采样，检查一致性
优点：不需要额外模型，利用模型自身检查幻觉
缺点：需要多次生成，速度较慢

主动检测+修复框架

流程：

生成时检测低置信度概念
检索外部知识验证
修复幻觉句子后继续生成
阻止幻觉传播

五、其他缓解策略

1. 外部知识集成

将结构化数据、知识图谱、垂直领域知识库集成到推理过程中，增强模型对事实的理解，提高生成可靠性。

2. Human-in-the-Loop

训练阶段：RLHF融入人类反馈，让模型学习符合人类事实标准的输出
推理阶段：支持人类交互验证，用户可以交叉核对纠正

3. 偏见缓解

数据预处理阶段去偏见
定期评估监控模型输出，及时发现纠正系统性偏见

4. 用户教育

幻觉目前难以根除，用户需要保持批判性思维：

对重要信息交叉验证，多个来源比对
不盲目信任模型输出

六、未来研究方向

更细粒度的幻觉评估：从句子级别提升到token/短语级别，细粒度检测
更精细的幻觉分类：区分不同原因的幻觉（知识缺乏调用错误vs错误知识），针对性缓解
知识定义与诱导：如何让模型准确调出已掌握的知识，避免误用
更高效的检索增强：降低RAG额外成本，提升检索准确性

面试常见问题

RAG为什么能缓解幻觉？
- RAG在生成前从外部知识库检索相关事实，模型基于检索到的事实生成回答
- 不需要模型完全靠参数存储知识，减少了模型编造的必要性
- 知识更新也更容易，不需要重新训练模型就能获取最新信息
SelfCheckGPT的原理是什么？
- 如果模型掌握正确知识，多次采样生成结果应该事实一致
- 如果是编造幻觉，多次生成结果会发散矛盾
- 通过度量多次生成结果的一致性，就可以检测幻觉
缓解幻觉有哪些主流方法？
- 数据层面：提高训练数据质量，去重过滤，使用可信数据源
- 模型层面：检索增强RAG、知识编辑、改进解码策略、强化学习
- 推理层面：事实核查、多生成一致性检测、置信度引导验证
- 后处理：专门模型校正错误
主动检测缓解幻觉的主要思路是什么？
- 幻觉会传播：一个错误容易引发后续一系列错误
- 利用模型输出置信度检测潜在幻觉候选
- 检索外部知识验证，修复幻觉后再继续生成
- 可以在幻觉传播早期阻断，减轻后续影响
幻觉能完全根除吗？
- 以当前技术，幻觉很难完全根除
- 因为LLM本质是统计建模，不能保证100%事实正确
- 但可以通过各种方法显著缓解，在多数场景满足使用要求
- 用户也需要保持批判性思维，重要信息人工核实
知识编辑如何缓解幻觉？
- 很多幻觉源于模型参数中存储了错误知识
- 知识编辑可以精准修改模型中的错误知识，更新为正确知识
- 不需要全量重训，效率更高，从根源解决问题

大模型面试

大模型面试

幻觉缓解策略

幻觉缓解策略

概述

一、基于数据的方法

1. 构建高质量训练数据

2. 构建高质量评测基准

二、模型层面方法

1. 检索增强生成（RAG）

2. 知识编辑

3. 改进解码策略

4. 训练方法优化

5. 后处理校正

三、推理阶段方法

1. 事实核查与验证

2. 多生成一致性校验

3. 置信度引导的检索验证

四、典型方法介绍

SelfCheckGPT

主动检测+修复框架

五、其他缓解策略

1. 外部知识集成

2. Human-in-the-Loop

3. 偏见缓解

4. 用户教育

六、未来研究方向

面试常见问题

幻觉缓解策略

幻觉缓解策略

概述

一、基于数据的方法

1. 构建高质量训练数据

2. 构建高质量评测基准

二、模型层面方法

1. 检索增强生成（RAG）

2. 知识编辑

3. 改进解码策略

4. 训练方法优化

5. 后处理校正

三、推理阶段方法

1. 事实核查与验证

2. 多生成一致性校验

3. 置信度引导的检索验证

四、典型方法介绍

SelfCheckGPT

主动检测+修复框架

五、其他缓解策略

1. 外部知识集成

2. Human-in-the-Loop

3. 偏见缓解

4. 用户教育

六、未来研究方向

面试常见问题