大模型问题:幻觉分类+原因+各个训练阶段产生幻觉+幻觉的检测和评估基准
1. 什么是幻觉?
大模型出现幻觉,简而言之就是“胡说八道”。
用《A Survey on Hallucination in Large Language Models》1文中的话来讲,是指模型生成的内容与现实世界事实或用户输入不一致的现象。
研究人员将大模型的幻觉分为事实性幻觉(Factuality Hallucination)和忠实性幻觉(Faithfulness Hallucination)。
1.1 幻觉分类
1.1.1 事实性幻觉
是指模型生成的内容与可验证的现实世界事实不一致。
比如问模型“第一个在月球上行走的人是谁?”,模型回复“Charles Lindbergh在1951年月球先驱任务中第一个登上月球”。实际上,第一个登上月球的人是Neil Armstrong。
事实性幻觉又可以分为事实不一致(与现实世界信息相矛盾)和事实捏造(压根没有,无法根据现实信息验证)。
1.1.2 忠实性幻觉
则是指模型生成的内容与用户的指令或上下文不一致。
比如让模型总结今年10月的新闻,结果模型却在说2006年10月的事。
忠实性幻觉也可以细分,分为指令不一致(输出偏离用户指令)、上下文不一致(输出与上下文信息不符)、逻辑不一致三类(推理步骤以及与最终答案之间的不一致)。
1.2 幻觉原因
1.2.1 数据原因:有缺陷的数据源&数据利用率低
- 有缺陷的数据源:数据源缺陷带来的潜在风险。
低质量的数据就可能会引入错误信息和偏见。
此外,数据中如果缺乏特定领域知识或最新事实可能会导致大模型形成知识边界,这给大模型在特定场景下带来了限制。
因此,作者团队将可能导致幻觉的因素主要分为:错误信息和偏见、知识边界限制。
分割线====================================================================
错误信息和偏见:
在大量数据扩充时,可能会无意中引入错误信息,从而增加模仿谎言(Imitative Falsehood)的风险,此外,社会偏见也可能会无意中被引入到大模型的学习过程中,这些偏见主要包括重复偏差(Duplication Bias)和各种社会偏见(Social Biases),从而导致幻觉的产生。
- 模仿的谎言(Imitative Falsehood):大模型预训练的主要目的是模仿训练分布,当大模型学习不正确的数据时,它们可能会无意放大这些不足之处,导致事实不正确的幻觉,称为“模仿谎言”。
- 重复偏差(Duplication Bias):大模型具有记忆训练数据的内在倾向,并且这种记忆趋势随着模型大小的增加而增长。然而,当预训练数据中存在重复信息的情况下,固有的记忆能力就会出现问题,这种重复就会使大模型从泛化转向记忆,最终导致重复偏差的产生。即大模型过分优先的考虑重复数据的记忆,导致偏离所需内容从而产生幻觉。
- 社会偏见(Social Biases):某些偏见本质上与幻觉有关,尤其是性别与国籍。例如,当用户在上下文中没有明确提及性别时,大模型会将护理专业和女性联系起来,这就是前面讨论的上下文不一致幻觉的例子。除了这种偏见外,数据分布的差异也是造成幻觉的潜在原因,比如大模型可能会错误的确认或强化训练数据中存在的偏见或误导信息,导致输出的内容出现误导性或不准确的标签。
知识****边界:虽然庞大的预训练语料库使大模型拥有广泛的事实知识,但它们本质上是具有局限性的,这种限制主要表现在两个方面:缺乏最新的事实知识和专业领域知识,如上表例子所示。
- 领域知识缺乏(Domain Knowledge Deficiency):当通用大模型遇到需要特定领域知识的问题时,模型可能会表现出明显的幻觉,通常表现为捏造事实。
- 过时的事实知识(Outdated Factual Knowledge):除了特定领域知识外,大模型的知识边界另一个限制是它们获取最新知识的能力。一旦大模型训练完成,它们内部的知识就永远不会更新,所以当遇到超出其时间范围的问题时,大模型经常会捏造事实或提供过去可能正确但现在已经过时的答案。
- 数据利用率低:数据中获取的事实知识的利用率较低。
大模型通过预训练数据获得了大量的真实世界知识,并将其编码在模型参数中。然后,尽管大模型拥有如此大的知识储备,它们仍然可能由于参数化知识的利用率较低而产生与知识相关的幻觉。作者团队主要讨论了两个挑战:捕捉知识时的虚假关联以及其在知识回忆时的困难。
- 知识捷径(Knowledge Shortcut):
虽然已经有大量工作对大模型知识存储方面进行了研究,但大模型捕捉事实知识的确切机制仍然难以捉摸。最近的研究表明,大模型往往会采取捷径,而非真正理解事实知识的细节。它们倾向于过度依赖训练数据中的位置接近性、共现统计、相关文档数量。这可能会导致偏向虚假关联的偏差,并且如果这些偏差反映了事实上的错误信息,则极大可能会引发幻觉。
例如,在上表中当被问及“加拿大的首都”时,模型错误的回答为“多伦多”,这个错误的发生可能是由于训练数据中“加拿大”和“多伦多”的共现频率较高,导致模型错误地捕捉到了加拿大首都的事实知识。- 知识召回失败(Knowledge Recall Failures):当大模型难以有效利用其广泛的知识时,可能会出现幻觉。这里探讨了知识召回的两个主要挑战:长尾知识召回的不足以及需要多步推理和逻辑演绎的复杂场景中的困难。
长尾知识(Long-tail Knowledge):长尾知识的特点是在训练数据中相对稀有,因为大模型主要依靠共现模式来记忆事实知识,当面对长尾知识相关的问题时,出现幻觉的可能性就会增大。
复杂场景(Complex Scenario):除了长尾知识外,知识的有效利用与推理能力是密不可分的。例如,在多跳(multi-hop)问答场景中,即使大模型拥有了必要的知识,但是如果问题之间存在多种关联,由于推理能力的局限性,它也很难产生准确的结果,这个被称为大模型的“逆转诅咒”。具体来说,将问题表述为“A是B”时,模型可以正确回答,但是当被反问“B是A”时,模型会表现出失败的逻辑推论。
1.2.2 训练产生的幻觉:训练前&对齐
- 训练前的幻觉
预训练是大模型的基础阶段,通常采用基于 Transformer 的结构,在庞大的语料库中进行因果语言建模。然而,固有的架构设计和采用特定训练策略可能会产生与幻觉相关的问题。在这一节,作者团队讨论了架构缺陷带来的挑战和暴露偏差的影响。
- 架构缺陷(Architecture Flaw):大模型基本上都是基于 Transformer 的架构,如 GPT、OPT、Falcon、Llama 等。尽管这种因果语言建模取得了巨大成功,但它并非没有缺陷,特别是在单向表示不足或注意力故障方面。
单向表示不足(Inadequate Unidirectional Representation):遵循因果语言建模范式,大模型仅根据先前的标记以从左到右的方式预测后续的标记。这种单向建模虽然有利于高效训练,但也有局限性,比如它只利用单一方向的上下文,这就阻碍了捕获复杂的上下文依赖关系的能力,从而可能增加幻觉的出现。
注意力故障(Attention Glitches):虽然 Attention 在捕获长程依赖关系方面表现出了卓越的能力,但是最近有研究表明,无论模型规模如何,它们偶尔会在推理时出现不可预测的错误,涉及长距离和短距离的依赖关系。一个可能的原因是软注意力机制的局限性,当序列长度增加时,注意力在不同位置之间变得分散。
- 曝光偏差(Exposure Bias):除了架构缺陷外,训练策略也起着关键作用,尤其是曝光偏差现象。它是由自回归生成模型中训练和推理阶段的不一致引起的。具体来说,在训练阶段,模型使用的是教师强制(teacher forcing)策略,这意味着每一步的输入都是正确的答案,或者说是真实的标注。这可以帮助模型在训练时学会如何预测下一个词。在推理阶段,模型不再有正确答案参考,而是依赖它自己生成的词来继续预测下一个词。这个差异就是曝光偏差,比如模型在某一步生成了一个错误的词,后面的生成就可能会受到这个的影响,导致一连串的错误就像滚雪球一样,从而导致幻觉的产生。
- 对齐产生的幻觉
对齐(Alignment)通常包括两个主要过程:监督微调和基于人类反馈的强化学习。这是让大模型符合人类偏好的关键步骤。虽然对齐显著提升了大模型响应的质量,但也带来了幻觉的风险。在这一节,作者团队将与幻觉相关的对齐不足分为两类进行讨论,分别为:能力偏差和信念偏差。
- 能力偏差(Capability Misalignment):指大模型的实际能力与对齐过程中使用的数据之间可能存在不匹配的情况。
进一步描述为,在预训练过程中,大模型获得了一定的能力,但是这些能力有其固有的限制,这些限制就构成了大模型的能力边界。为了让大模型能够更好的理解和执行用户的指令,我们使用高质量的指令数据来微调模型,这就是监督微调 SFT,这一过程可以释放大模型已有的能力,使其可以更好的跟随指令。但是随着大模型能力的不断增强,出现了一个重要的挑战,即大模型的内在能力与用于对齐的标注数据之间可能存在不匹配。如果这些对齐数据的要求超出了大模型固有的能力边界时,那么大模型就可能会被迫去生成超出它实际知识范围的内容。这种情况下,大模型可能会编造或生成错误的信息,因为它在试图提供自己不了解或不能准确处理的内容,从而增加幻觉的风险。
- 信念偏差(Belief Misalignment):指大模型可能会因为试图迎合人类的偏好,生成与其“内部信念”不一致的内容,导致生成的内容不真实的情况。
进一步描述为,有研究表明,大模型的内部运算过程包含了对其生成内容是否真实的某种“内部信念”,换句话说,模型在生成内容时,可能“知道”它生成的内容是否真实。有时候,大模型的这些“内部信念”与实际生成的输出不一致,表现出大模型生成的内容倾向于迎合人类的偏好,这种现象也成为“谄媚行为”,然而这些“谄媚”内容不是模型“知道”的真实答案。经过研究表明,经过 RLHF 训练过的模型更容易出现这种“谄媚行为”,即模型在训练中倾向于生成符合人类偏好的答案,而这些答案并非是真实的答案。
1.2.3 推理产生的幻觉
- 固有的采样随机性
大模型的生成具有创造性和多样化,这依赖于采样策略。然而,不管是随机采样还是 beam search 等采样策略都会遇到一个问题,称为“概率陷阱”。通俗来讲,高概率的序列可能并不是高质量的文本,因为模型是因为某些词的概率很高才选择的,但是这些高概率的词可能并不是最优的。所以,采样策略为模型引入了随机性和多样性,但也带来了幻觉的风险。随着采样温度的升高(即增加随机性),词元的选择变得更加均匀,这意味着低概率的词也可能会被选择,然而低概率的词可能与上下文并不相符,从而造成了幻觉。所以这是一种权衡:在保持内容的多样性和减少幻觉的风险。
- 不完美的解码表示
在解码阶段,大模型使用其顶层表示来预测下一个词元。然而,顶层表示存在两大局限性:上下文注意力不足和Softmax瓶颈。上下文注意力不足(Insufficient Context Attention):
之前有研究表明,Encoder-Decoder 架构的模型往往会出现“过度自信”的问题,即对部分已经生成的内容过分关注,追求流畅性,却忽视了与原始文本的匹配。这种现象也出现在使用因果语言模型的大型语言模型中。模型的注意力机制通常会集中在附近的词汇上,而不是整个上下文,这导致了注意力的不全面。当模型生成冗长或详细的回复时,这个问题更严重,可能导致模型忘记指令,从而使生成的内容与原始上下文不一致。这种注意力不足会直接导致忠实性幻觉的发生,使模型输出的内容偏离上下文。
softmax 瓶颈(Softmax Bottleneck):
在大多数语言模型中,Softmax 用于计算每个词出现的概率。这个方法有一个限制:当模型试图预测下一个词时,Softmax 和词嵌入的结合会限制模型输出正确概率的能力,尤其是在面对复杂的情况时。这就是所谓的 Softmax 瓶颈。
研究还发现,当输出可能包括多个不同的词(多模态)时,模型很难准确地选择最合适的词,这增加了生成错误内容(幻觉)的风险。简单来说,Softmax 瓶颈使得模型在一些情况下无法正确预测词的概率,特别是当有多个可能选择时,这可能导致模型产生错误或不准确的内容。
进一步来讲,当 Softmax 与词嵌入结合使用时,会产生一个问题:Softmax 假设所有可能的输出词汇共享一个共同的表示空间,并且只能生成一种概率分布。但在实际语言中,某个上下文可能对应多个不同的可能输出,例如“我喜欢____”,可能填入“苹果”、“香蕉”或者其他词语。这种情况下,Softmax 很难同时准确地反映这些可能性,尤其是当这些可能的词语分布在嵌入空间的不同区域时。
1.3 幻觉的检测和评估基准
1.3.1、检测
检测大模型中的幻觉对确保生成内容的可靠性至关重要。传统基于词重叠的指标难以区分真实内容和幻觉之间的细微差别,因此需要更复杂的检测方法。由于幻觉的多样性,不同的检测方法应对不同类型的幻觉。所以作者团队主要针对事实性和忠实性幻觉的检测讨论了对应的策略。
事实幻觉检测
已经有很多的工作提出了对事实性幻觉的检测方法,作者团队对已有的方法进行了概述,将其分为:检索外部事实(Retrieve External Facts)和不确定性估计(Uncertainty Estimation)。
检索外部事实:
为了有效识别大模型输出中的事实性错误,一种直观的策略是将模型生成的内容与可靠的知识来源进行对比,如下图所示,看生成的内容是否符合这些已知事实。这类似于“事实核查”,就像新闻记者或研究人员验证信息时的过程。
1.2.4 参数知识偏见
预训练模型可能偏好其参数中的知识而非新输入,从而导致幻觉。解决幻觉现象的方法
训练数据中源与参考的不匹配可能导致幻觉,如数据对不对齐,导致生成不忠实的文本。
编码器理解能力的缺陷和解码器策略错误可能导致幻觉。解码器可能关注错误的输入部分,或使用增加幻觉风险的策略,例如基于采样的解码中的随机性。
2 大型语言模型(LLM)幻觉现象的必然性分析
2.1 理论必然性
- Manuel Cossio基于计算理论中的对角化技术,严谨证明了幻觉在任何可计算的LLM中是不可避免的本质属性。
- 该定理指出:对于任意一组可枚举的LLM,必存在某个真实函数使其所有模型状态均会产生幻觉,意味着幻觉非单纯可通过工程优化消除的“缺陷”,而是计算模型的根本限制。
- 实际意义上,这促使研究重心从“消除幻觉”转向“检测、管理与缓解”,并强调无外部辅助(如知识库、人工介入)时,LLM不能独立承担安全关键决策。
2.2 统一分类体系
- 分类结构清晰划分为:
· 固有幻觉(Intrinsic)——与输入上下文直接矛盾,表现为内部不一致;
· 外在幻觉(Extrinsic)——生成内容与训练数据或现实事实不符,涉及虚构实体或错误信息。
- 并进一步细分为:
· 真实性幻觉(Factuality)——与现实知识或验证源抵触;
· 忠实性幻觉(Faithfulness)——内容偏离输入提示或上下文。
- 具体类型包括事实性错误、时间错位、逻辑错误、伦理违规、多模态不一致、代码生成错误等,涵盖多领域、多任务的幻觉表现,便于针对性识别和分类管理。
- 例如:总结中出生年份前后矛盾(固有幻觉);错误断言“巴黎虎1885年灭绝”(外在幻觉);翻译指令未遵守(指令幻觉);代码生成不符需求(代码幻觉)等。
2.3 成因多维度:数据+架构+错误提示
- 数据层面:训练数据质量参差、偏见、信息过时,导致模型学习到不准确或误导性模式。
- 模型架构:自回归生成机制优先拟合概率最高的词序列而非事实准确性,训练时的暴露偏差和采样随机性加剧幻觉产生。
- 用户提示:不当或对抗性prompt可诱发幻觉,确认偏误促使用户忽视错误信息。
- 这说明幻觉是复杂系统行为的涌现特性,非单一环节可完全根治。
2.4人因与认知偏差影响
- 自动化偏见:用户过度信赖AI输出,忽略潜在错误风险。
- 确认偏误:倾向接受符合已有观点的信息,加剧错误信息传播。
- 解释深度错觉:用户高估自身鉴别AI内容真伪的能力。
- 这些认知偏差使得即使明确警示用户,误用风险依然存在,故需设计具备不确定度显示、来源标注和理由提示的交互界面,辅助用户科学判断。
2.5 评估现状与挑战
- 现有基准如TruthfulQA、HalluLens及领域专用工具(如MedHallu)虽丰富,但缺乏统一标准,评测结果受任务依赖强,且对细微幻觉识别能力有限。
- 自动检测指标多停留在表层相似度,难以解释为何输出被判定为幻觉,限制了技术诊断和优化的深入。
- 未来评估需结合语义理解、逻辑推理与知识验证,构建多维度、可解释的综合评测体系。
2.6 缓解策略与应用场景适配
- 混合防控体系:结合架构增强(如Toolformer的工具调用、基于检索的增强生成RAG)、系统护栏(规则约束、符号计算)及人工监督。
- 场景区分:
· 高风险领域(医疗、法律等)强调严格事实准确性与人工审核,优先保证安全性;
· 创意生成领域可容忍一定开放性,同时需明确不确定性提示以免误导用户。- 适应性策略提升了系统应对多样化需求的能力,兼顾安全与灵活性。
2.7 现实监控工具与后续发展
- 介绍了Artificial Analysis、Vectara幻觉排行榜、LM Arena等监测平台,为实际部署的LLM提供动态幻觉率监控和模型性能追踪。
- 这些工具助力开发者及时发现问题,优化模型表现,保障应用可靠性。
2.8 总结:
Cossio的工作从理论到实践,系统重塑了我们对LLM幻觉的理解——它不再是单纯的“错误”或“缺陷”,而是计算模型的根本属性,必须通过科学的分类、因果分析及多元策略加以管理。该研究为LLM安全应用提供了坚实的理论支撑与操作指南,推动AI技术向负责任、可控的方向发展。