当前位置: 首页 > news >正文

大模型的超大激活值研究

说明现象的论文:Massive Activations in Large Language Models

解释原因的论文:Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

一、大模型存在超大激活值

在这里插入图片描述
从特征维度和 token 来看,它们固定在很少的几个特征维度上,和输入内容没关系。

位置上主要分三类:

有的只在序列开头的 token(比如 LLaMA2-13B);
有的在开头 token 和第一个句号、换行符这些分隔符 token 上(比如 LLaMA2-7B);
还有的除了开头和分隔符,还在 “and”“of” 这类语义简单的词上(比如 Mixtral-8x7B)。

超大激活值的作用

超大激活值是 LLM 中固定但重要的偏置项。
缺了不行,必须要有。

在这里插入图片描述

二、超大激活值产生的原因

论文发现这些激活值和注意力头试图不更新隐藏状态的行为有关。为了实现完全的零更新,输入到softmax的值需要变得越来越大,这导致了网络其他部分的异常值。

提出的解决方法:
在这里插入图片描述

🌟 核心概念回顾

  • 隐藏状态(Hidden State):在Transformer的每一层中,输入经过自注意力和前馈网络后,会更新一个隐藏表示(即 token 的向量表征)。
  • 残差连接 + LayerNorm:Transformer 的标准结构是: 输出 = LayerNorm(输入 + 自注意力输出) 然后再接 LayerNorm(上一步结果 + 前馈网络输出) → 所以,如果自注意力或前馈网络的输出是
    0,那么隐藏状态就完全不被更新

🔍 论文的核心发现:为什么会出现“大规模激活”?

✅ 1. 模型“希望”某些token的隐藏状态保持不变
  • 在长序列中,有些token(比如句首的“[CLS]”、标点、或重复词)可能对当前语义贡献很小。
  • 模型学习到:“不更新这些token的隐藏状态”能提升性能(例如减少噪声、稳定表示、节省计算资源)。
  • 这是一种隐式优化目标——不是显式编程的,而是通过训练自动学到的策略。
✅ 2. 如何让隐藏状态“不更新”?
  • 在残差结构中,要让隐藏状态不变,必须让自注意力模块的输出 ≈ 0
  • 但自注意力模块的输出是由 softmax(QK^T) * V 得到的。
  • 要让 softmax 输出趋近于零向量(即所有位置权重都接近0),唯一办法是:

    让 QK^T 中的所有值变得非常小(负无穷大)

→ 但这里有个矛盾:如果所有 QK^T 都很小,那 softmax 就会输出均匀分布(≈ 1/n),而不是零!

✅ 3. 所以模型找到了一个“取巧”的方式 —— 让某个位置的 QK^T 变得极大正数!
  • 假设我们想让第 i 个 token 的隐藏状态不被其他 token 影响(即它自己不更新)。
  • 那么,模型会让:
    • 对于第 i 个 token 的 query:Q_i 与所有 K_j 的点积 Q_i · K_j → -∞(除了 j=i)
    • 但对于 j=i(自己):Q_i · K_i → +∞(极大正值)
  • 这样,softmax(QK^T) 会变成: softmax([ -∞, -∞, ..., +∞, -∞, ... ]) ≈ [0, 0, ..., 1, 0, ...]
  • 即:注意力权重完全集中在自己身上(self-attention)。
  • 那么自注意力输出 = 1 × V_i = V_i
  • 最终残差连接:hidden_state_new = LayerNorm(hidden_state_old + V_i)
  • 如果 V_i ≈ hidden_state_old,那么 hidden_state_new ≈ hidden_state_old几乎没更新!
✅ 4. 但 V_i 是由前面的线性变换生成的 → 它不可能天然等于 hidden_state_old
  • 所以模型只能强迫 V_i 极大(通过放大权重或激活值),使得:
    • V_i 的幅值远超原始 hidden_state_old
    • 从而即使加上去,经过 LayerNorm 后,也能“压住”原始值,实现“伪不变”

→ 这就是为什么会出现 “大规模激活”:为了制造一个巨大的 V_i,必须在前馈网络或注意力计算中产生极端大的中间激活值(比如 10⁵
倍于正常值)。


⚠️ 结果:网络中出现异常值(outliers)

  • 这些“大规模激活”是系统性的、非随机的,它们是模型为达成“零更新”目标而主动构建的数学机制。
  • 它们导致:
    • 注意力概率高度集中(几乎100% attention on one token)
    • 前馈网络中的神经元输出出现极端值(如 1000 vs 正常 0.01)
    • 数值不稳定风险(浮点溢出、精度损失)
    • 模型行为变得“脆弱”——轻微扰动可能导致注意力崩溃

💡 类比:就像你想让一辆车停住,但刹车失灵了,于是你选择把油门踩到底再猛踩刹车——虽然车停了,但引擎快烧了。


✅ 总结一句话:

“大规模激活”是模型为实现“隐藏状态零更新”这一高效策略,被迫在数值上制造极端异常值的结果。这种策略虽然有效,却牺牲了数值稳定性,暴露了Transformer架构在优化目标与数值实现之间的深层矛盾。


参考:
https://zhuanlan.zhihu.com/p/689959264
https://papers.cool/arxiv/search?highlight=1&query=Quantizable+Transformers+Removing+Outliers+by+Helping+Attention+Heads+Do+Nothing


文章转载自:

http://NfD7EqL3.nxbzz.cn
http://oTZtUMV6.nxbzz.cn
http://0sId2QLE.nxbzz.cn
http://LUHQVoHB.nxbzz.cn
http://Yfao42QX.nxbzz.cn
http://1TBGSetL.nxbzz.cn
http://etk0h93T.nxbzz.cn
http://hBsP6W54.nxbzz.cn
http://yf1evt62.nxbzz.cn
http://UhOs4QLI.nxbzz.cn
http://GnNg2RBx.nxbzz.cn
http://FMcAQ4lh.nxbzz.cn
http://6cdrfm7C.nxbzz.cn
http://GBMtnvTL.nxbzz.cn
http://4dR231ic.nxbzz.cn
http://6N8ncMqK.nxbzz.cn
http://RNJ8q5jP.nxbzz.cn
http://k2MX8f7r.nxbzz.cn
http://86hEXGoB.nxbzz.cn
http://YJPhlDkw.nxbzz.cn
http://pEQT6zIe.nxbzz.cn
http://MCNDdfy4.nxbzz.cn
http://qZDmLkti.nxbzz.cn
http://b0WJu9RJ.nxbzz.cn
http://WCj5JXIm.nxbzz.cn
http://TveDtp5q.nxbzz.cn
http://KMDRvg2D.nxbzz.cn
http://u61PsgYr.nxbzz.cn
http://HMi9VTPx.nxbzz.cn
http://5gGqqRGo.nxbzz.cn
http://www.dtcms.com/a/388303.html

相关文章:

  • ES项目如何导入 CommonJS 文件 import 报错 does not provide an export named ‘default‘
  • 深度学习笔记:线性回归与 Softmax 回归
  • 深度学习入门基石:线性回归与 Softmax 回归精讲
  • 从线性回归到 Softmax 回归:深度学习入门核心知识全解析
  • zehpyr启动流程
  • 【FreeRTOS】调度器挂起与恢复全解析
  • 什么是信息安全性测试?如何选择第三方检测机构?
  • SSM框架——Spring、SpingMVC、Mybatis
  • MongoDB+cpolar:跨环境数据库管理的无缝方案
  • Java 泛型详解:从基础到实践
  • Python与GDAL库进行遥感图像处理:一个完整的实战教程
  • 构建AI智能体:三十六、决策树的核心机制(二):抽丝剥茧简化专业术语推理最佳分裂点
  • computeIfAbsent用法讲解
  • freertos代码结构
  • C++底层刨析章节一:STL概述与设计哲学:深入理解C++标准模板库的核心
  • 多态的原理与实现机制
  • [C++]异常
  • Windows PE 文件结构详解:从入口到执行的旅程
  • LLM 处理 PDF 表格的最佳方法:从解析到高效利用
  • 自动驾驶中的传感器技术50——Radar(11)
  • WALL-OSS--自变量机器人--2025.9.8--开源
  • GJOI 9.11/9.13 题解
  • 基于Spark的用户实时分析
  • 什么是 Conda 环境?
  • RK3506开发板QT Creator开发手册,交叉编译工具链与QT应用示例,入门必备
  • 颠覆3D生成,李飞飞团队新研究实现3D场景「无限探索」,AI构建世界模型能力跨越式进化
  • 3D 大模型生成虚拟世界
  • AI技术全景图:从大模型到3D生成,探索人工智能的无限可能
  • 一天认识一种模型方法--3D人体建模 SMPL
  • World Labs 的核心技术介绍:生成持久、可导航的 3D 世界