幻觉缓解策略
概述
幻觉无法完全根除,但可以从数据、模型、推理多个层面进行缓解。本文介绍主流的幻觉缓解方法。
一、基于数据的方法
1. 构建高质量训练数据
- 人工筛选标注:对于特定任务,可以人工构建高质量数据集,但大模型预训练阶段不可行
- 自动数据过滤:训练模型识别低质量/虚假数据,过滤掉不可靠内容
- 加权可信数据源:对维基百科、教科书等经过人工审核的数据赋予更高权重,减少不可信数据源影响
- 去重:对训练数据去重,减少重复数据导致的模型偏见
2. 构建高质量评测基准
构建细粒度的幻觉评估基准,帮助准确评估幻觉严重程度,推动研究。
二、模型层面方法
1. 检索增强生成(RAG)
检索增强是目前最有效、最常用的幻觉缓解方法:
核心思想:在生成前先从外部知识库检索相关事实,将检索结果作为上下文输入模型,让模型基于检索到的事实生成回答,减少编造。
优势:
- 可以引入最新知识,解决知识截止日期问题
- 生成内容可溯源,可核查
- 显著减少事实错误,业界广泛应用
2. 知识编辑
核心思想:直接修改模型参数中存储的错误知识,更新为正确知识,从根源解决错误知识导致的幻觉。
代表方法:ROME、MEMIT等,可以精准修改模型中特定知识,不影响其他知识。
3. 改进解码策略
- 降低采样随机性:多样性和事实性是trade-off,减少随机性可以提升事实准确性
- 事实核心采样:根据生成位置动态调整采样范围,句子后半段更保守,减少事实错误
- 主动检测修复:检测低置信度生成,主动检索验证修复,阻止幻觉传播
4. 训练方法优化
- 强化学习:将事实一致性作为奖励函数,用RLHF优化模型,减轻幻觉
- 多任务学习:加入事实核查、纠错等辅助任务,提升模型事实意识
- 可控生成:把幻觉程度作为可控属性,用可控生成技术调节
- 草图先行:先生成内容骨架,再基于骨架生成详细内容,减少偏离
5. 后处理校正
训练一个小的校正模型,专门检测并修复大模型生成的幻觉错误。
三、推理阶段方法
1. 事实核查与验证
在生成过程中或生成后,引入额外的事实核查步骤:
- SelfCheckGPT:多次采样不同输出,检查一致性。如果多次生成结果发散矛盾,说明很可能是幻觉
- 外部NLI模型验证:用自然语言推理模型判断生成内容是否被源文档蕴含
- 基于QA的验证:从生成内容提取问题,用QA模型基于源文档回答,对比答案一致性
2. 多生成一致性校验
核心思想:如果模型真的掌握知识,多次生成应该事实一致;如果是胡编,多次生成结果会发散矛盾。
做法:
- 多次采样生成不同回答(改变温度等参数)
- 计算不同回答之间的语义一致性
- 一致性低的判定为幻觉
3. 置信度引导的检索验证
研究发现,模型输出的logit置信度可以作为幻觉信号:
- 置信度低的片段更容易产生幻觉
- 对低置信度片段,主动检索知识验证修复
- 可以阻止幻觉在生成过程中传播
四、典型方法介绍
SelfCheckGPT
- 核心:多次采样,检查一致性
- 优点:不需要额外模型,利用模型自身检查幻觉
- 缺点:需要多次生成,速度较慢
主动检测+修复框架
流程:
- 生成时检测低置信度概念
- 检索外部知识验证
- 修复幻觉句子后继续生成
- 阻止幻觉传播
五、其他缓解策略
1. 外部知识集成
将结构化数据、知识图谱、垂直领域知识库集成到推理过程中,增强模型对事实的理解,提高生成可靠性。
2. Human-in-the-Loop
- 训练阶段:RLHF融入人类反馈,让模型学习符合人类事实标准的输出
- 推理阶段:支持人类交互验证,用户可以交叉核对纠正
3. 偏见缓解
- 数据预处理阶段去偏见
- 定期评估监控模型输出,及时发现纠正系统性偏见
4. 用户教育
幻觉目前难以根除,用户需要保持批判性思维:
- 对重要信息交叉验证,多个来源比对
- 不盲目信任模型输出
六、未来研究方向
- 更细粒度的幻觉评估:从句子级别提升到token/短语级别,细粒度检测
- 更精细的幻觉分类:区分不同原因的幻觉(知识缺乏调用错误vs错误知识),针对性缓解
- 知识定义与诱导:如何让模型准确调出已掌握的知识,避免误用
- 更高效的检索增强:降低RAG额外成本,提升检索准确性
面试常见问题
-
RAG为什么能缓解幻觉?
- RAG在生成前从外部知识库检索相关事实,模型基于检索到的事实生成回答
- 不需要模型完全靠参数存储知识,减少了模型编造的必要性
- 知识更新也更容易,不需要重新训练模型就能获取最新信息
-
SelfCheckGPT的原理是什么?
- 如果模型掌握正确知识,多次采样生成结果应该事实一致
- 如果是编造幻觉,多次生成结果会发散矛盾
- 通过度量多次生成结果的一致性,就可以检测幻觉
-
缓解幻觉有哪些主流方法?
- 数据层面:提高训练数据质量,去重过滤,使用可信数据源
- 模型层面:检索增强RAG、知识编辑、改进解码策略、强化学习
- 推理层面:事实核查、多生成一致性检测、置信度引导验证
- 后处理:专门模型校正错误
-
主动检测缓解幻觉的主要思路是什么?
- 幻觉会传播:一个错误容易引发后续一系列错误
- 利用模型输出置信度检测潜在幻觉候选
- 检索外部知识验证,修复幻觉后再继续生成
- 可以在幻觉传播早期阻断,减轻后续影响
-
幻觉能完全根除吗?
- 以当前技术,幻觉很难完全根除
- 因为LLM本质是统计建模,不能保证100%事实正确
- 但可以通过各种方法显著缓解,在多数场景满足使用要求
- 用户也需要保持批判性思维,重要信息人工核实
-
知识编辑如何缓解幻觉?
- 很多幻觉源于模型参数中存储了错误知识
- 知识编辑可以精准修改模型中的错误知识,更新为正确知识
- 不需要全量重训,效率更高,从根源解决问题