大语言模型出现幻觉的本质
具体可拆解为以下4层本质原因,结合理查德·萨顿的理论(LLM缺乏“基准真相”“真实世界反馈”)进一步阐释:
一、本质1:核心任务偏差——目标是“语言连贯”,而非“事实正确”
LLM的底层目标是预测下一个词的概率分布,核心优化指标是“生成文本的语言统计连贯性”(如语法通顺、语义关联符合人类语言习惯),而非“输出内容与真实世界事实的一致性”。
- 模型的训练逻辑是:从互联网海量文本中学习“词与词的高频关联模式”(如“爱因斯坦”常与“相对论”“物理学家”关联,“电灯”常与“发明”“爱迪生”关联),生成时优先满足“上下文语义通顺”,而非“事实逻辑正确”。
- 举例:当用户问“爱因斯坦发明了什么”,若训练数据中“爱因斯坦”与“发明”的关联偶有噪音(如误写文本),模型可能因“爱因斯坦+发明”的统计关联性,输出“爱因斯坦发明了电灯”——它并非“故意说谎”,而是为了满足“语言连贯”的目标,忽略了“发明电灯的是爱迪生”这一真实事实。
- 萨顿的批判直指这一点:LLM是“没有目标的模仿者”,其任务不涉及“改变或验证真实世界”,自然缺乏对“事实正确性”的底层追求。
二、本质2:知识来源缺陷——依赖“被动文本”,缺乏“真实世界基准真相”
LLM的知识完全来自人类已生成的文本数据(如互联网文章、书籍、对话),而非“与真实世界的直接互动反馈”,这导致其缺乏判断“事实是否符合物理/逻辑规律”的“基准真相”(Ground Truth)。
- 人类获取知识的核心路径是“文本学习+现实验证”:比如知道“杯子掉地上会碎”,不仅来自文本描述,更来自“亲手摔杯子观察结果”的真实体验——这种“现实反馈”会校准知识的正确性,避免错误。
- 但LLM没有“现实体验”:它对“杯子掉地上会碎”的理解,仅来自文本中“杯子+掉地上+碎”的统计关联,若文本中存在“杯子掉地上不会碎”的错误描述,模型也会将其作为“有效知识”学习,甚至生成“用玻璃杯子砸地板不会碎”的幻觉内容。
- 萨顿将此概括为:LLM构建的是“人类描述世界的模型”,而非“世界本身的模型”——前者是文本符号的统计集合,后者是基于真实规律的逻辑体系,两者的脱节必然导致幻觉。
三、本质3:知识表示缺陷——“分布式向量”无法承载“结构化事实逻辑”
LLM用分布式向量(词嵌入) 表示知识,这种方式是“模糊的、统计性的”,无法像人类一样构建“结构化的事实逻辑体系”,导致模型难以判断“事实的因果/归属关系”。
- 人类的知识是“结构化的”:比如我们明确知道“发明者-发明物”的对应关系(爱迪生→电灯,爱因斯坦→相对论),这种逻辑是清晰的、可校验的;
- 而LLM的知识是“向量关联的”:“爱迪生”“电灯”“爱因斯坦”“相对论”都被编码为高维向量,模型通过向量相似度判断关联度——若“爱因斯坦”与“电灯”的向量因某些文本噪音产生较高相似度,模型就可能错误地将两者关联,生成“爱因斯坦发明电灯”的幻觉。
- 简单说:LLM只能“记住词的关联频率”,却无法“理解事实的逻辑归属”——它没有“谁做了什么”的结构化认知,只有“哪些词常一起出现”的统计记忆。
四、本质4:缺乏“事实校验机制”——无法主动验证输出的正确性
人类生成内容后,会通过“查阅资料、逻辑推理、现实实验”主动校验事实(如写完“爱因斯坦发明电灯”后,会想到“不对,应该是爱迪生”,进而修正);但LLM没有“主动校验环节”,生成即输出,无法自我修正事实错误。
- 即使部分LLM(如ChatGPT)加入了“检索增强(RAG)”技术(生成前先查权威资料),也只是“被动补充文本信息”,而非“主动用真实世界规律校验”——若检索到的资料本身有错误,或模型无法判断资料的权威性,仍会生成幻觉。
- 萨顿的强化学习(RL)路线恰好相反:RL智能体通过“与环境互动→获取反馈→修正行为”的闭环,能主动验证“行为是否符合现实规律”(如下棋时“落子是否会输”有明确的环境反馈),因此不存在“脱离现实的幻觉”——这也反衬出LLM“无反馈、无校验”的缺陷。
总结:AI幻觉的本质是“统计性语言生成与真实世界事实的脱节”
LLM的幻觉不是“模型的错误”,而是其技术路线的“固有属性”——它以“语言连贯”为目标,依赖“被动文本”学习知识,用“统计向量”表示信息,且缺乏“真实世界反馈校验”,导致生成内容可能符合语言习惯,却违背事实规律。
若要从根本上减少幻觉,需突破LLM的“纯文本统计学习”框架——如萨顿主张的“强化学习+真实世界互动”,让AI通过与现实的直接反馈,建立“事实逻辑与语言生成的绑定”,而非仅依赖文本中的词频关联。