当前位置: 首页 > news >正文

【LLM】Openai分析大模型出现幻觉的原因

note

  • 大模型幻觉的原因:标准的训练和评估程序更倾向于对猜测进行奖励,而不是在模型勇于承认不确定时给予奖励。
  • 要减少幻觉,需调整现有评估基准的评分方式,而非仅增加幻觉专项评测。通过显式引入置信目标,可以引导模型更诚实地表达不确定性
  • 通过“Is-It-Valid”(IIV)二元分类问题的形式化分析,我们证明生成错误与分类错误之间存在数学关联:生成错误率至少是IIV分类错误率的两倍。这一结果表明,即使训练数据完全正确,模型仍会因统计压力而产生幻觉。
  • 当前主流评测(如MMLU、GPQA)采用二元评分(正确1分/错误0分),实际上鼓励模型在不确定时猜测。论文建议:
    • 引入显式置信度阈值(如只允许>90%确信的回答)
    • 修改评分规则:正确+1分,错误-t/(1-t)分,IDK得0分

文章目录

  • note
  • 一、大模型的幻觉
    • 1、幻觉出现的原因(统计学角度):
      • (1)关于"生成错误率至少是IIV分类错误率的两倍"的含义
      • (2)两者的内在关联
    • 2、预训练阶段的错误分析​​:
    • 3、后训练阶段的幻觉持续存在​​:
  • 二、如何缓解现状
  • Reference

一、大模型的幻觉

论文标题:Why Language Models Hallucinate
论文地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

幻觉问题:幻觉是语言模型生成的看似合理但却错误的陈述。

1、幻觉出现的原因(统计学角度):

  • 我们提出了一种理论框架,将语言模型的幻觉问题归因于二元分类错误的统计特性。具体而言,幻觉源于模型在不确定时倾向于“猜测”而非承认不确定性,这与训练和评估过程中对猜测行为的奖励机制密切相关。
  • 通过“Is-It-Valid”(IIV)二元分类问题的形式化分析,我们证明生成错误与分类错误之间存在数学关联:生成错误率至少是IIV分类错误率的两倍。这一结果表明,即使训练数据完全正确,模型仍会因统计压力而产生幻觉。

(1)关于"生成错误率至少是IIV分类错误率的两倍"的含义

  1. 理论框架
    论文提出了"Is-It-Valid (IIV)"二元分类问题:给定一个生成文本,判断其是否有效(+)或错误(-)。通过将语言模型生成任务转化为IIV分类问题,建立了生成错误率(err)与IIV误分类率(err_iiv)的数学关系:

    err≥2⋅erriiv−∣V∣∣E∣−δ\text{err} \geq 2 \cdot \text{err}_{\text{iiv}} - \frac{|\mathcal{V}|}{|\mathcal{E}|} - \delta err2erriivEVδ

  2. 关键发现

    • 生成错误的下界由IIV分类错误率决定,系数2表明生成错误更易发生
    • 当模型难以区分有效/错误文本时(err_iiv高),生成错误率会显著升高
    • δ代表模型校准误差,良好校准的模型(δ≈0)更符合该下界
  3. 实例说明
    在生日查询案例中,模型三次输出不同错误日期(03-07, 15-06, 01-01),而正确答案应在秋季。这说明模型对日期有效性的判断存在较高IIV误分类率,导致生成错误率更高。

以GPT5-thinking-mini、openai o4-mini模型在SimpleQA benchmark举例(如下表):单看accuracy rate指标,后者甚至高2%,但是gpt4的错误率(如幻觉率)高很多,即不确定的情况可以进行猜测,这样从大盘层面看可能会提升accuracy,但不代表就幻觉很低。
在这里插入图片描述

(2)两者的内在关联

  1. 统计本质
    在这里插入图片描述

    图1显示当数据存在不可学习模式(如随机事实)时,IIV分类器会产生错误,进而通过2倍关系放大生成错误。

  2. 训练数据影响

    • 高singleton rate → IIV分类困难 → 高err_iiv → 更高生成错误
    • 论文表1展示的博士论文标题幻觉案例(三个模型均输出错误标题)正是singleton效应的体现

2、预训练阶段的错误分析​​:

  • 在预训练阶段,模型通过最小化交叉熵损失来拟合语言分布,但这一目标本身会导致模型在无法区分正确与错误陈述时生成幻觉。
  • 我们进一步分析了“任意事实”(Arbitrary Facts)场景,即某些事实在训练数据中仅出现一次(singleton rate)。在此情况下,模型对这些事实的幻觉率至少与singleton rate成正比。

关于"singleton rate与幻觉率成正比"的解释:

  1. 核心概念

    • Singleton rate:训练数据中仅出现一次的事实占比(如某人生日仅在讣告中出现一次)
    • Missing Mass:未在训练数据中出现的事件的总概率(Good-Turing估计)
  2. 理论关系
    论文证明对于任意事实集合,当训练数据中存在singleton时:
    err≥sr−2min⁡∣Ec∣−O(1/N)\text{err} \geq \text{sr} - \frac{2}{\min|\mathcal{E}_c|} - O(1/\sqrt{N}) errsrminEc2O(1/N)

  3. 实证影响

    • 若20%生日事实在训练数据中仅出现一次,模型对生日问题的幻觉率至少20%。-> 大概就是说长尾训练数据,很难让模型学清楚
    • 这种现象源于统计学习的基本限制:罕见事实的泛化能力弱

3、后训练阶段的幻觉持续存在​​:

  • 后训练阶段(如RLHF)旨在减少幻觉,但当前的主流评估基准(如MMLU、GPQA等)普遍采用二元评分(0/1),鼓励模型在不确定时猜测而非表达不确定性。
  • 我们提出“显式置信目标”(explicit confidence targets)作为解决方案,即在评估中明确设置置信阈值,对不确定的回答给予部分奖励,从而减少幻觉的激励。

当下很多LLM评测benchmark都是二分类(对/错)的形式:
在这里插入图片描述

二、如何缓解现状

  1. 评估体系改革
    当前主流评测(如MMLU、GPQA)采用二元评分(正确1分/错误0分),实际上鼓励模型在不确定时猜测。论文建议:

    • 引入显式置信度阈值(如只允许>90%确信的回答)
    • 修改评分规则:正确+1分,错误-t/(1-t)分,IDK得0分
  2. 技术改进方向

    • 预训练阶段:增强对singleton事实的识别
    • 后训练阶段:建立"行为校准"机制,使模型能根据置信度阈值动态选择响应策略

Reference

[1] https://openai.com/index/why-language-models-hallucinate/
[2] Why Language Models Hallucinate


文章转载自:

http://MWV1SOgm.nrgdc.cn
http://o9m55fUh.nrgdc.cn
http://lLg3SSvO.nrgdc.cn
http://GlCWoaJr.nrgdc.cn
http://CASDx6cW.nrgdc.cn
http://pJLDBVFL.nrgdc.cn
http://IQBBHhuJ.nrgdc.cn
http://T5VWC4Gr.nrgdc.cn
http://qvr0OdnI.nrgdc.cn
http://NFJpYVaO.nrgdc.cn
http://4nkZmug0.nrgdc.cn
http://HSv9zFGU.nrgdc.cn
http://8tbkPkHd.nrgdc.cn
http://0A2N9EUz.nrgdc.cn
http://kTBRU30g.nrgdc.cn
http://PTDWvYn4.nrgdc.cn
http://zukEZ6D7.nrgdc.cn
http://TK2tiH2M.nrgdc.cn
http://1fq7U2eT.nrgdc.cn
http://ebpWFqXs.nrgdc.cn
http://Vz0HIKRb.nrgdc.cn
http://zSOZLoHK.nrgdc.cn
http://93EfEKbT.nrgdc.cn
http://hncuHrGq.nrgdc.cn
http://TkdBYVpp.nrgdc.cn
http://KqZ1tfxR.nrgdc.cn
http://SNMmavAM.nrgdc.cn
http://rv9Y4Fty.nrgdc.cn
http://qZouYVwZ.nrgdc.cn
http://qprYRz5M.nrgdc.cn
http://www.dtcms.com/a/370753.html

相关文章:

  • C++算法学习——链表
  • 驱动——Platform
  • LeetCode 139. 单词拆分 - 动态规划解法详解
  • 开源AI智能名片链动2+1模式S2B2C商城小程序服务提升复购率和转介绍率的研究
  • HTTP协议——Cookie的相关概念和使用
  • redis的数据类型:Hash
  • PiscCode使用 Mediapipe 实时人脸表情识别与可视化
  • EG2104 SOP-8 带SD功能 内置600V功率MOS管 栅极驱动芯片
  • 【审核问题——托管式首次进入APP展示隐私政策弹窗】
  • MySQL+Canal同步ES延时问题全链路解决方案
  • 【高等数学】第十一章 曲线积分与曲面积分——第三节 格林公式及其应用
  • Android Kotlin 动态注册 Broadcast 的完整封装方案
  • OceanBase容量统计:租户、数据库、表大小
  • SpringAMQP
  • 软件设计师备考-(十四)数据库设计
  • Fast DDS原生程序ROS2 Rviz Debug工具接入--Overview
  • 深入理解 Next.js 的路由机制
  • 鸿蒙 BLE 蓝牙智能设备固件升级之DFU升级方式(Nordic芯片)
  • 5-10数组元素添加和删除(数组基础操作)
  • echarts实现两条折线区域中间有线连接,custom + renderItem(初级版)
  • 机器人控制器开发(传感器层——奥比大白相机适配)
  • 深入解析 JavaScript 中的 call、apply、bind:用法、差异与面试题
  • LangChain实战(十八):构建ReAct模式的网页内容摘要与分析Agent
  • OpenRouter:一站式 AI 模型调用平台,免费畅享千问、DeepSeek 等顶级模型
  • Python基础(①⑧Queue)
  • 小型磨床设计cad+三维图+设计说明书
  • EMS 抗扰度在边缘计算产品电路设计的基本问题
  • 拯救珍贵回忆:AI照片修复让老照片重获新生
  • 一款免费易用且打造的全功能媒体播放器
  • 记一次uniapp微信小程序开发scss变量失效的问题