当前位置: 首页 > news >正文

在1688做公司网站前端开发语言的特点是

在1688做公司网站,前端开发语言的特点是,怎么在网上销售,一般设计网站页面用什么软件Qwen团队新发现:大模型推理能力的提高仅由少数高熵 Token 贡献 不要让低概率token主导了LLM的强化学习过程 一 低概率词元问题 论文:Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs 在RL训练过程中,低概率词元&#xff08…

Qwen团队新发现:大模型推理能力的提高仅由少数高熵 Token 贡献
不要让低概率token主导了LLM的强化学习过程

一 低概率词元问题

论文:Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs

在RL训练过程中,低概率词元(low-probability tokens)因其巨大的梯度幅值,在模型更新中产生了不成比例的主导效应。这种“梯度主导”现象会严重抑制对模型性能至关重要的高概率词元的有效学习,从而阻碍了模型能力的进一步提升。
本文首先从理论上溯源了这一现象,揭示了其内在机理:对于一个典型的LLM,任何词元在网络中间层产生的梯度范数,其大小与( 1-兀)成正比,其中兀是该词元的生成概率。这一关系清晰地表明,词元概率越低,其梯度贡献越大,反之则越小。

基于这一核心洞察,提出了两种旨在恢复梯度平衡、简单而高效的方法,以缓解低概率词元的过度主导:
在这里插入图片描述

二 高熵token

论文:Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

token 熵” 并不是针对于某个特定 token,而是在特定位置 t,对解码不确定性的度量
在这里插入图片描述

作者发现,生成推理链时每个位置的 token 熵值极度不均衡:只有少数 token 以高熵生成,而大多数 token 以低熵输出。具体地,80% 的token 熵低于0.67
在这里插入图片描述
熵最高的 token 通常用于连接两个连续推理部分之间的逻辑关系,比如wait、however 和 unless 等(对比或转折),thus 和 also(递进或补充),since 和 because (因果关系);在数学推导中,suppose、assume、given 和 define 等 token 频繁出现,用于引入假设、已知条件或定义
熵最低的 token 则倾向于完成当前句子部分或结束单词的构建,均表现出高度的确定性

为了验证高熵 token 对推理性能的关键作用,作者通过控制解码温度来调整这些 token 在生成过程中的随机性。
结果表明,适当提高高熵 token 的熵值可以提高推理正确率;反之,强行降低其熵值则会显著损害性能。这充分证明了在关键分叉 token 处保持较高的不确定性和探索度,对提高推理质量大有裨益。可见,少数高熵 token 确实是推理过程中应重点关注的“要害”
在这里插入图片描述

作者设计了这样的实验:利用 DAPO 算法训练 Qwen3-14B 模型,保存不同训练阶段下的 checkpoint,分别在各种数学推理基准上进行采样,识别各中间模型的高熵 token,然后分别计算这些它们与原始模型、训练完毕后的模型对应的高熵 token 重叠率,结果如下
在这里插入图片描述
可见在 RL 训练过程中,尽管与基础模型的重叠逐渐减少,但在收敛时(第 1360 步),基础模型的重叠率仍保持在 86% 以上,这表明 RL 训练在很大程度上保留了基础模型的高熵 token

那么具体的熵值又是如何变化呢?下图是作者的统计结果,可见基础模型中初始熵较高的 token 在 RL 后往往表现出更大的熵增,这与三中的实验结论不谋而合,表明 RL 带来推理性能提升的原因之一,很可能就是因为高熵 token 的不确定性更强了,提高了大模型推理的灵活性
在这里插入图片描述

http://www.dtcms.com/a/512637.html

相关文章:

  • 少儿教育网站建设价格免费看电视剧的网站在线观看
  • (四)从零学 React Props:数据传递 + 实战案例 + 避坑指南
  • 上传自己做的网站吗关键词优化百家号
  • 连云港做网站公司校园网的规划与设计
  • DeepSeek-OCR:视觉压缩的革命性突破——当OCR遇上LLM的“降维打击“
  • 盐城网站开发市场做网站怎么去工信部缴费
  • ps做游戏网站伊宁网站建设优化
  • 【高等数学笔记-极限(7)】函数连续
  • !for_each_process 命令详解
  • 住房与城乡建设网站引流客户的最快方法是什么
  • 江西网站开发的公司wordpress插件看访问者数量
  • 10.21
  • SharedFlow和StateFlow的方案选择-屏幕旋转设计
  • ps做素材下载网站有哪些wordpress用什么框架
  • 网站建设除凡科外还有哪些wordpress主题 添加自定义菜单
  • 怎么做视频网站教程什么是网络营销报价
  • DMA直接存储器访问
  • 电话销售怎么做 网站临沂森拓网络科技有限公司
  • 在网上招标做兼职的网站建设网站装配式建筑楼房
  • 360°客户视图:MDM/CDP如何驱动实时个性化服务?
  • JavaScript 与 React 工程化实践对比
  • 【完整源码+数据集+部署教程】【天线&其他】建筑损毁程度检测评估系统源码&数据集全套:改进yolo11-Parc
  • 24991-53-5,Amine-PEG-Amine的化学结构与反应活性
  • Java:创建、读取或更新 Excel 文档
  • 广州免费建站找哪家网站企业备案资料
  • (二)Flutter插件之Android插件开发
  • 贵港seo关键词整站优化ps如何做psd模板下载网站
  • 雄安做网站优化的公司企业官方网站的作用
  • 中国建设行业峰会官方网站营销公司有哪些
  • 用wireshark进行手机app抓包教程-2025最新