当前位置: 首页 > news >正文

西安网站建设云速百度登录个人中心官网

西安网站建设云速,百度登录个人中心官网,好制作网站公司,东莞市企业网站建设平台说明现象的论文:Massive Activations in Large Language Models 解释原因的论文:Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing 一、大模型存在超大激活值 从特征维度和 token 来看,它们固定在很少的…

说明现象的论文:Massive Activations in Large Language Models

解释原因的论文:Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

一、大模型存在超大激活值

在这里插入图片描述
从特征维度和 token 来看,它们固定在很少的几个特征维度上,和输入内容没关系。

位置上主要分三类:

有的只在序列开头的 token(比如 LLaMA2-13B);
有的在开头 token 和第一个句号、换行符这些分隔符 token 上(比如 LLaMA2-7B);
还有的除了开头和分隔符,还在 “and”“of” 这类语义简单的词上(比如 Mixtral-8x7B)。

超大激活值的作用

超大激活值是 LLM 中固定但重要的偏置项。
缺了不行,必须要有。

在这里插入图片描述

二、超大激活值产生的原因

论文发现这些激活值和注意力头试图不更新隐藏状态的行为有关。为了实现完全的零更新,输入到softmax的值需要变得越来越大,这导致了网络其他部分的异常值。

提出的解决方法:
在这里插入图片描述

🌟 核心概念回顾

  • 隐藏状态(Hidden State):在Transformer的每一层中,输入经过自注意力和前馈网络后,会更新一个隐藏表示(即 token 的向量表征)。
  • 残差连接 + LayerNorm:Transformer 的标准结构是: 输出 = LayerNorm(输入 + 自注意力输出) 然后再接 LayerNorm(上一步结果 + 前馈网络输出) → 所以,如果自注意力或前馈网络的输出是
    0,那么隐藏状态就完全不被更新

🔍 论文的核心发现:为什么会出现“大规模激活”?

✅ 1. 模型“希望”某些token的隐藏状态保持不变
  • 在长序列中,有些token(比如句首的“[CLS]”、标点、或重复词)可能对当前语义贡献很小。
  • 模型学习到:“不更新这些token的隐藏状态”能提升性能(例如减少噪声、稳定表示、节省计算资源)。
  • 这是一种隐式优化目标——不是显式编程的,而是通过训练自动学到的策略。
✅ 2. 如何让隐藏状态“不更新”?
  • 在残差结构中,要让隐藏状态不变,必须让自注意力模块的输出 ≈ 0
  • 但自注意力模块的输出是由 softmax(QK^T) * V 得到的。
  • 要让 softmax 输出趋近于零向量(即所有位置权重都接近0),唯一办法是:

    让 QK^T 中的所有值变得非常小(负无穷大)

→ 但这里有个矛盾:如果所有 QK^T 都很小,那 softmax 就会输出均匀分布(≈ 1/n),而不是零!

✅ 3. 所以模型找到了一个“取巧”的方式 —— 让某个位置的 QK^T 变得极大正数!
  • 假设我们想让第 i 个 token 的隐藏状态不被其他 token 影响(即它自己不更新)。
  • 那么,模型会让:
    • 对于第 i 个 token 的 query:Q_i 与所有 K_j 的点积 Q_i · K_j → -∞(除了 j=i)
    • 但对于 j=i(自己):Q_i · K_i → +∞(极大正值)
  • 这样,softmax(QK^T) 会变成: softmax([ -∞, -∞, ..., +∞, -∞, ... ]) ≈ [0, 0, ..., 1, 0, ...]
  • 即:注意力权重完全集中在自己身上(self-attention)。
  • 那么自注意力输出 = 1 × V_i = V_i
  • 最终残差连接:hidden_state_new = LayerNorm(hidden_state_old + V_i)
  • 如果 V_i ≈ hidden_state_old,那么 hidden_state_new ≈ hidden_state_old几乎没更新!
✅ 4. 但 V_i 是由前面的线性变换生成的 → 它不可能天然等于 hidden_state_old
  • 所以模型只能强迫 V_i 极大(通过放大权重或激活值),使得:
    • V_i 的幅值远超原始 hidden_state_old
    • 从而即使加上去,经过 LayerNorm 后,也能“压住”原始值,实现“伪不变”

→ 这就是为什么会出现 “大规模激活”:为了制造一个巨大的 V_i,必须在前馈网络或注意力计算中产生极端大的中间激活值(比如 10⁵
倍于正常值)。


⚠️ 结果:网络中出现异常值(outliers)

  • 这些“大规模激活”是系统性的、非随机的,它们是模型为达成“零更新”目标而主动构建的数学机制。
  • 它们导致:
    • 注意力概率高度集中(几乎100% attention on one token)
    • 前馈网络中的神经元输出出现极端值(如 1000 vs 正常 0.01)
    • 数值不稳定风险(浮点溢出、精度损失)
    • 模型行为变得“脆弱”——轻微扰动可能导致注意力崩溃

💡 类比:就像你想让一辆车停住,但刹车失灵了,于是你选择把油门踩到底再猛踩刹车——虽然车停了,但引擎快烧了。


✅ 总结一句话:

“大规模激活”是模型为实现“隐藏状态零更新”这一高效策略,被迫在数值上制造极端异常值的结果。这种策略虽然有效,却牺牲了数值稳定性,暴露了Transformer架构在优化目标与数值实现之间的深层矛盾。


参考:
https://zhuanlan.zhihu.com/p/689959264
https://papers.cool/arxiv/search?highlight=1&query=Quantizable+Transformers+Removing+Outliers+by+Helping+Attention+Heads+Do+Nothing

http://www.dtcms.com/a/483339.html

相关文章:

  • 哪些行业做网站推广的多网站首页制作代码
  • 汽车HIL测试:电子开发的关键验证环节
  • 小说网站怎么做权重适配网站建设模版
  • 2.1 欧拉集群安装Keystone认证服务
  • pq|二维前缀和
  • 西安商城网站开发品牌营销型网站建设
  • vector,咕咕咕!
  • <数据集>药丸缺陷识别数据集<目标检测>
  • Java 在AWS上使用SDK凭证获取顺序
  • 百度手机网站自助建站青岛硅谷网站建设
  • 做响应式网站的物流微信商城网站案例展示
  • 【java】springboot分库分表 12 种分片算法(下)
  • Java多线程编程实战技巧深度解析:从并发基础到高吞吐架构的艺术
  • Nginx 自动化脚本安装方案
  • 巩义网站建设托管邹平建设项目网站公示
  • ETF网格交易覆盖率缺口与满仓踏空风险量化模型
  • 数据结构入门 (八):寻访节点的“路线图” —— 二叉树的深度与广度遍历
  • 复兴区建设局网站永久免费云储存空间
  • 线程池参数调整
  • Unity学习之Addressables可寻址系统
  • SQL优化手段有哪些
  • 建设银行江苏分行网站一键生成图片
  • php框架做网站的好处福田网站制作
  • 合并多个excel到一个excel中
  • 多因子模型识别供需共振:AI量化系统捕捉“白银突破52美元”的结构性动能
  • 网站建设公司哪里好企业微信小程序制作
  • 【前端学习】仿Deepseek官网AI聊天网站React
  • 2018年10月四川省自考《信息组织》试题
  • 统计期刊介绍——Journal of Statistical Software(JSS)
  • 漳州开发区人才网北京网站优化公司