语言模型为何会产生幻觉
文章目录
- 语言模型为何会产生幻觉
- 幻觉是什么?
- 应试导向
- 更优的评估体系
- 幻觉如何源于下词预测
- 结论
- ❤️ 一起学AI
这篇论文的目的是:分析问什么LLM 普遍会产生幻觉,他们提出理想的解决方式是业界一致性去推出更优的评估体系
解决方案其实很简单。对自信错误的惩罚力度应大于对不确定性的惩罚,同时对恰当表达不确定性的行为给予部分奖励。 这个理念并非新颖。某些标准化考试早已采用负分制惩罚错误答案,或对空题给予部分奖励以遏制盲猜行为。多个研究团队也探索过兼顾不确定性与校准的评估体系。
我们的观点不同。仅在现有体系外添加几项新测试远远不够。必须更新广泛使用的基于准确率的评估体系,使其计分机制能有效遏制猜测行为。若主要评分机制持续奖励幸运猜测,模型将不断强化这种猜测行为。修复评分机制将推动幻觉抑制技术的广泛应用,无论新近研发还是既有成果。
语言模型为何会产生幻觉
- 针对 Why Language Models Hallucinate 论文, OpenAI 官方的总结如下
- https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/
- Why Language Models Hallucinate 论文翻译
摘录于此,作为笔记
在 OpenAI,我们致力于提升 AI 系统的实用性与可靠性。尽管语言模型能力日益增强,但“幻觉”现象始终是难以彻底解决的顽固难题。即模型自信生成虚假答案的情况。我们的新研究论文(在新窗口中打开)指出,语言模型产生幻觉的原因在于标准训练与评估流程鼓励猜测而非承认不确定性。
ChatGPT 同样存在幻觉现象。GPT‑5 在推理过程中显著减少了幻觉发生率,但仍会出现。幻觉仍是所有大型语言模型的根本性挑战,我们正全力推进进一步降低其发生率。
幻觉是什么?
幻觉是指语言模型生成的看似合理却错误的陈述。即使面对看似简单的问题,幻觉也可能以出人意料的方式出现。例如当我们向某常用聊天机器人询问本文作者 Adam Tauman Kalai 的博士论文标题时,它自信地给出三个不同答案——均不正确。询问其生日时,它给出三个不同日期,同样全部错误。
应试导向
幻觉现象持续存在,部分原因在于当前评估方法设置了错误的激励机制。虽然评估本身不会直接导致幻觉,但多数评估方式衡量模型性能的方式,鼓励模型进行猜测而非如实反馈不确定性。
可将其类比为选择题考试。若你不知答案却随意猜测,或许能侥幸答对。而空着不答则必然得零分。同理,当模型仅以准确率(即完全答对的题目比例)作为评分标准时,它们就会倾向于猜测而非承认“不知道”。
再举一例:假设语言模型被问及某人生日却不知答案。若它猜测“9 月 10 日”,则有 1/365 的概率猜中。而说“不知道”则必然得零分。在数千道测试题中,这种猜测型模型最终在评分机制中的表现会优于承认不确定性的谨慎模型。
对于存在唯一“正确答案”的问题,可将模型回复分为三类:准确回复、错误回复以及不妄加猜测的弃权。弃权体现了谦逊,这也是 OpenAI 的核心价值观之一。多数评分机制以准确率为模型排序依据,但错误比弃权更严重。我们的模型规范(在新窗口中打开)明确指出:与其提供可能错误的自信信息,不如表明不确定性或请求澄清。
就准确性而言,较旧的 OpenAI o4-mini 模型表现略胜一筹。然而其错误率(即产生幻觉的概率)显著更高。在不确定时采取策略性猜测虽能提升准确率,却会增加错误和幻觉的发生。
在数十次评估中取平均值时,多数基准测试仅提取准确率指标,但这导致了正确与错误之间的虚假二分法。在 SimpleQA 这类简单评估中,某些模型能达到近 100% 准确率从而消除幻觉。但在更具挑战性的评估及实际应用中,准确率必然低于 100%——因存在诸多无法确定答案的情形:信息缺失、小型模型推理能力有限、或存在需澄清的歧义等。
尽管如此,仅以准确率为标准的评分机制仍主导着模型评估体系,促使开发人员倾向于构建盲目猜测而非保留不确定性的模型。这正是当前模型即便日益先进,仍会产生幻觉——自信给出错误答案而非承认不确定性——的重要原因。
更优的评估体系
解决方案其实很简单。对自信错误的惩罚力度应大于对不确定性的惩罚,同时对恰当表达不确定性的行为给予部分奖励。这个理念并非新颖。某些标准化考试早已采用负分制惩罚错误答案,或对空题给予部分奖励以遏制盲猜行为。多个研究团队也探索过兼顾不确定性与校准的评估体系。
我们的观点不同。仅在现有体系外添加几项新测试远远不够。必须更新广泛使用的基于准确率的评估体系,使其计分机制能有效遏制猜测行为。若主要评分机制持续奖励幸运猜测,模型将不断强化这种猜测行为。修复评分机制将推动幻觉抑制技术的广泛应用,无论新近研发还是既有成果。
幻觉如何源于下词预测
我们已探讨过幻觉难以根除的原因,但这些高度具体的事实性错误究竟从何而来?毕竟大型预训练模型很少出现拼写错误或括号错配等其他类型错误。差异根源在于数据中存在的模式类型。
语言模型首先通过预训练学习,即在海量文本中预测下一个词。与传统机器学习问题不同,每个语句都没有“真/假”标签。模型仅接触流畅语言的正例,且必须近似整体分布。
当缺乏标记为错误的示例时,区分有效语句与无效语句尤为困难。即便存在标签,某些错误仍不可避免。理解原理可参考更简单的类比。图片识别中,若数百万张猫狗照片被标注为“猫”或“狗”,算法便能可靠分类。但若改为按宠物生日标注照片。由于生日本质上随机,无论算法多么先进,此任务必然产生错误。
预训练中同样遵循此原理。拼写和括号遵循固定模式,因此随规模扩大错误会消失。但像宠物生日这类任意低频事实无法仅凭模式预测,因而导致幻觉。我们的分析解释了哪些类型的幻觉会源于下词预测。理想情况下,预训练后的后续阶段应消除这些幻觉,但如前文所述,实际效果并不完全成功。
结论
我们希望本文提出的统计视角能厘清幻觉本质,并纠正常见误解:
主张:提高准确率就能消除幻觉,因为 100% 准确的模型永远不会产生幻觉。
发现:准确率永远无法达到 100%,因为无论模型规模、搜索能力或推理能力如何,某些现实世界的问题本质上无法解答。
主张:幻觉现象不可避免。
发现:并非如此,因为语言模型在不确定时可选择保持沉默。
主张:避免幻觉需要特定程度的智能,而这仅能通过大型模型实现。
发现:小型模型更易认知自身局限。例如面对毛利语问题时,不懂毛利语的小型模型可直接回应“我不知道”,而掌握部分毛利语的模型则需评估回答信心。如论文所述,“校准”所需计算量远低于追求绝对准确性。
主张:幻觉是现代语言模型中神秘的故障现象。
发现:我们已理解幻觉产生的统计机制及其在评估中的奖励机制。
主张:要衡量幻觉,只需建立有效的幻觉评估体系。
发现:幻觉评估方法已有发表。但面对数百种惩罚谦逊、奖励猜测的传统准确率评估体系时,优质幻觉评估收效甚微。根本之道在于重构所有核心评估指标,使其奖励不确定性表达。
我们最新模型已显著降低幻觉率,并将持续努力进一步减少语言模型输出自信错误的概率。
❤️ 一起学AI
- ❤️ 如果文章对你有些许帮助、蟹蟹各位读者大大点赞、评论鼓励博主的每一分认真创作