当前位置：首页 > news >正文

大语言模型中的幻觉

news 2025/10/3 11:16:20

一、幻觉的定义与类型

1、定义

2、几个属性

3、类型

（1）内在幻觉:

（2）外在幻觉

（3）事实性幻觉

（4）忠实性幻觉

二、幻觉的成因

1、数据角度

（1）错误信息与偏见

（2）知识边界

2、训练角度

（1）预训练

（2）对齐

3、推理角度

三、幻觉的检测

1、针对事实性幻觉

2、检测忠实性幻觉

四、幻觉的缓解

五、挑战与未来

在AI领域，“幻觉”指的是大语言模型生成了不真实、不准确，甚至是完全错误的信息，但它们表现得很自信，好像是真的一样~~~【正儿八经说假话hhhh】

一、幻觉的定义与类型

1、定义

在自然语言生成(NLG)中，幻觉指模型生成了与现实世界事实、输入上下文或基础知识不一致的内容，尽管这些内容通常语言流畅、结构合理，甚至逻辑自治，但本质上却是虚假的错误的或无法证实的。简而言之，幻觉是指模型在缺乏支持证据的情况下所产生的虚构输出。

2、几个属性

(1)语言流畅性强，内容表面上合理易读，难以直接辨识
(2)真实性缺失，与事实或输入存在明显出入，或完全无中生有
(3)自信表达，模型倾向于以肯定句式输出幻觉内容，增强其迷惑性
(4)缺乏可验证性，幻觉内容往往无法从输入或外部知识源进行查证
(5)具有潜在危害性，在医疗、法律、金融等高风险场景中，幻觉可能误导用户判断，导致严重

3、类型

通常，自然语言生成任务中的幻觉可以分为两种主要类型:内在幻觉和外在幻觉

（1）内在幻觉:

指模型输出的内容与输入中提供的信息存在直接冲突或事实矛盾。例如，在文本摘要任务中，原文提到“该公司成立于2010年"，而模型却生成了"该公司成立于2005年”。这类幻觉可通过对比输入输出内容进行显式识别。

（2）外在幻觉

指模型输出的内容在输入中找不到直接依据或支持，即生成了超出原始信息范围的内容。尽管这些内容可能不明显错误，但由于缺乏证据，其真实性无法确认。例如，模型在回答问
题时凭空补充用户未提及的细节或情节

然而，在大语言模型时代，模型的多功能能力促进了其在各个领域的广泛应用，突出了现有特定任务分类范例的局限性。考虑到大语言模型非常强调以用户为中心的交互，并优先考虑与用户指令的-致性，再加上幻觉主要在事实层面上浮现的事实，幻觉分为事实性幻觉和忠实性幻觉。

（3）事实性幻觉

事实性幻觉分为两种主要类型:事实矛盾和事实虚构。

事实矛盾（生成内容与客观事实直接冲突）

例子：用户问 “爱因斯坦发明了什么？”，模型回答 “爱因斯坦发明了电灯”（实际电灯由爱迪生发明，与事实矛盾）

、事实虚构（生成不存在的虚假信息）、

例子：用户问 “《三体》的作者是谁？”，模型回答 “《三体》的作者是刘慈欣和王小明”（王小明为虚构人物，实际作者仅刘慈欣）。

（4）忠实性幻觉

忠实性幻觉分为三种类型:指令不一致，上下文不一致和逻辑不一致

指令不一致：生成内容违背用户明确的指令要求。
- 例：用户要求 “用中文总结这篇英文论文”，模型却用英文生成了完整翻译（未遵守 “中文总结” 的指令）。
上下文不一致：生成内容与对话历史或给定上下文信息冲突。
- 例：上文提到 “小明今年 10 岁”，模型后续回答 “小明上大学了”（与前文年龄信息矛盾）。
逻辑不一致：生成内容内部存在逻辑矛盾，无法自洽。
- 例：模型描述 “这个箱子是空的，但里面装着一本书”（“空的” 与 “装着书” 逻辑冲突）。