LLM 幻觉
关于大模型幻觉与『H-神经元』
https://arxiv.org/abs/2512.01797
🔹 最新清华大学等机构的论文作者的一篇研究发现,确实存在一种与『幻觉』现象(LLM 生成看似合理但错误的信息)相关的神经元子集,作者把它们称为『H-Neurons』(幻觉相关神经元)。这些神经元数量极少,约占全部神经元的 0.1% 以下,但它们的激活可以可靠预测模型开始产生幻觉的时刻,并且对模型行为有因果影响。
🔹 控制这些神经元的激活会改变模型的『过度服从』(over-compliance)行为(也就是在自己不确定时仍然给出肯定、甚至错误答案),这些神经元在模型预训练阶段就已经形成,而且在后续微调过程中变化不大,说明这种机制是早期学习中积累的、根深蒂固的,不是简单的误差或训练集问题。
🔹 独立于这篇具体工作,OpenAI 等研究组从更宏观的角度分析为何大模型会『一本正经胡说八道』——核心原因是当前训练和评估机制本身就奖励猜测式输出而不是承认不确定性。也就是说,模型在许多情况下选择去『猜一个看起来合理的答案』,因为这在训练目标和评估里比说『我不知道』得分更高。这种机制导致它们宁愿生成错误信息也不愿表现出不确定性。
🔹 更基础的理解是:大语言模型是基于预测下一个词的概率分布生成文本的。对于不确定、不常见或没有明确知识支持的问题,它无法判断真伪,只能根据统计推断最可能的下一词,从而生成看似连贯但实际上不真实的信息。这种统计预测的本质导致了幻觉现象在许多情况下难以彻底消除。
因此,可以总结为:
- H-Neurons 的研究提供了一种微观机制解释,它指出极少数神经元在实际生成错误信息时起了关键作用,并且这种机制在预训练过程中就出现了。
- 模型本质和训练目标导致它偏好生成连贯输出而非承认不确定性,这也是『胡说八道』现象的一个根本原因。
- 当前研究认为这种幻觉现象无法完全根除,但可以通过改进训练和评估方式(比如奖励承认不确定、惩罚错误自信)、知识检索增强、校验机制等手段来降低。