当前位置: 首页 > wzjs >正文

网站建设实训心得体会300字济南网签查询系统

网站建设实训心得体会300字,济南网签查询系统,中美军事最新消息,中国建设银行官网首页 网站摘要:具有可验证奖励的强化学习(RLVR)已经成为一种增强大型语言模型(LLM)推理能力的强大方法,但其机制尚未得到很好的理解。 在这项工作中,我们通过标记熵模式的新视角对RLVR进行了开创性的探索…

摘要:具有可验证奖励的强化学习(RLVR)已经成为一种增强大型语言模型(LLM)推理能力的强大方法,但其机制尚未得到很好的理解。 在这项工作中,我们通过标记熵模式的新视角对RLVR进行了开创性的探索,全面分析了不同标记如何影响推理性能。 通过检查思想链(CoT)推理中的标记熵模式,我们观察到只有一小部分标记表现出高熵,这些标记充当关键分叉,引导模型朝向不同的推理路径。 此外,研究RLVR训练过程中熵模式的演变表明,RLVR在很大程度上遵循基础模型的熵模式,主要是调整高熵标记的熵。 这些发现强调了高熵标记(即分叉标记)对RLVR的重要性。 我们最终通过将策略梯度更新限制在分叉令牌上来改进RLVR,并发现了一个甚至超越80/20规则的发现:仅使用20%的令牌,同时保持与Qwen3-8B基础模型上的全梯度更新相当的性能,并显著优于Qwen3-32B(+11.04 AIME'25和+7.71 AIME'24)和Qwen3-14B(+4.79 AIME'25和+5.21 AIME'24)基础模型上的全梯度更新,突显了强大的扩展趋势。 相比之下,仅在80%最低熵标记上进行训练会导致性能显著下降。 这些发现表明,RLVR的效能主要来自优化决定推理方向的高熵表征。 总的来说,我们的研究结果强调了通过标记熵的角度理解RLVR的潜力,并通过利用高熵的少数标记来优化RLVR,以进一步提高LLM推理。Huggingface链接:Paper page,论文链接:2506.01939

研究背景和目的

研究背景

近年来,大型语言模型(LLMs)在数学和编程等领域的推理能力取得了显著进步,这主要得益于测试时扩展方法(test-time scaling methodologies)的应用,如OpenAI的o1、Anthropic的Claude3.7、DeepSeek的R1、Kimi的K1.5以及阿里巴巴的Qwen3等模型。在这些进步中,具有可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)成为了一种关键技术,它通过将模型的输出与自动化正确性验证相结合,优化模型的推理能力。

尽管RLVR在提升LLMs推理能力方面取得了显著成效,但其背后的机制尚未得到充分理解。现有的RLVR实现通常直接对所有标记进行训练,而忽视了不同标记在推理过程中所扮演的不同角色。这种做法可能导致未能充分利用那些对推理方向起关键作用的标记,从而限制了性能的进一步提升。

研究目的

本研究旨在通过标记熵模式的新视角,深入探索RLVR的内在机制,并特别关注高熵少数标记在提升LLMs推理能力方面的作用。具体目标包括:

  1. 分析标记熵模式:通过检查思想链(Chain-of-Thought, CoT)推理中的标记熵模式,识别出那些对推理方向起关键作用的高熵标记。
  2. 理解RLVR训练过程中的熵模式演变:研究RLVR训练过程中标记熵模式的变化,特别是高熵标记和低熵标记在训练中的不同表现。
  3. 优化RLVR算法:基于高熵标记的重要性,提出一种新的RLVR算法,仅对高熵标记进行策略梯度更新,以提升推理性能。
  4. 验证算法效果:在多个基准测试集上验证新算法的有效性,并探讨其扩展性。

研究方法

标记熵计算

标记熵(Token Entropy)用于衡量模型在生成特定标记时的不确定性。对于标记t,其熵Ht定义为:

Ht​:=−j=1∑V​pt,j​logpt,j​

其中,pt​=πθ​(⋅∣q,o<t​)=Softmax(zt​/T),πθ​ 是由参数θ参数化的LLM,q是输入查询,o<t​ 是先前生成的标记序列,V是词汇表大小,zt​ 是时间步t的预softmax logits,T是解码温度。

RLVR算法

本研究采用动态采样策略优化(Dynamic Sampling Policy Optimization, DAPO)作为基准RLVR算法。DAPO通过移除价值网络,引入clip-higher机制,并结合动态采样、标记级策略梯度损失和超长奖励塑造,实现了高效的RLVR训练。

实验设置
  1. 数据集:使用DAPO-Math-17K数据集进行训练,并在多个数学推理基准测试集(如AIME'24、AIME'25、AMC'23、MATH500、Minerva和OlympiadBench)上进行评估。
  2. 模型:选择Qwen3-32B、Qwen3-14B和Qwen3-8B作为基础模型进行实验。
  3. 训练细节:采用与DAPO相同的超参数设置,包括clip-higher的ϵhigh=0.28和ϵlow=0.2,最大响应长度为20480,缓存长度为4096,训练批次大小为512,小批次大小为32,学习率为10^-6。^[14]^
  4. 评估方法:对每个问题生成16个独立响应,报告平均准确率和平均响应长度。
改进的RLVR算法

基于高熵标记的重要性,本研究提出一种新的RLVR算法,仅对高熵标记进行策略梯度更新。具体地,对于每个批次B,计算最大目标函数为:

JBHighEnt​(θ)=EB∼D,(q,a)∼B,{oi​}Gi=1​∼πθold​(⋅∣q)​​∑i=1G​∣oi​∣1​i=1∑G​t=1∑∣oi​∣​I[Hit​≥τBρ​]⋅ρ⋅min(rit​(θ)A^it​,clip(rit​(θ),1−ϵlow​,1+ϵhigh​)A^it​)​

其中,I[⋅] 是指示函数,ρ 是预定义的比例,指定每个批次中选择的高熵标记的比例,τBρ​ 是批次B中对应的熵阈值。

研究结果

高熵标记的重要性

通过分析CoT推理中的标记熵模式,研究发现只有一小部分标记表现出高熵,这些标记充当关键分叉,引导模型朝向不同的推理路径。进一步的研究表明,RLVR训练过程中,模型在很大程度上保留了基础模型的熵模式,主要是调整高熵标记的熵。

改进RLVR算法的效果

实验结果显示,仅对高熵标记进行策略梯度更新的新算法在多个基准测试集上取得了显著的性能提升。具体而言,在Qwen3-32B模型上,新算法在AIME'24和AIME'25上的准确率分别提升了7.71%和11.04%;在Qwen3-14B模型上,分别提升了5.21%和4.79%。相比之下,仅在80%最低熵标记上进行训练会导致性能显著下降。

扩展性分析

研究还发现,随着模型规模的增大,新算法的性能提升更加显著。这表明,利用高熵少数标记优化RLVR的方法具有良好的扩展性。

研究局限

尽管本研究取得了显著成果,但仍存在一些局限性:

  1. 模型范围有限:实验主要在Qwen系列模型上进行,未来需要扩展到更多不同类型的模型,以验证算法的普适性。
  2. 数据集范围有限:目前的数据集主要集中在数学领域,未来需要探索更多领域,如编程和复杂任务,以验证算法的广泛适用性。
  3. 实验设置特定:研究结果基于特定的实验设置,未来需要探讨不同RLVR场景下的有效比例和算法表现。

未来研究方向

基于本研究的发现和局限,未来可以从以下几个方面进行深入研究:

  1. 开发新的RLVR算法:进一步探索如何更好地利用高熵少数标记,开发更高效的RLVR算法。
  2. 扩展应用领域:将新算法应用到更多领域,如编程、自然语言处理等,验证其在不同任务中的有效性。
  3. 结合其他技术:探索如何将高熵标记优化方法与其他技术(如监督微调、蒸馏、推理和多模态训练)相结合,以进一步提升LLMs的推理能力。
  4. 理论分析:从理论上深入分析高熵标记在RLVR中的作用机制,为算法设计提供更坚实的理论基础。

结论

本研究通过标记熵模式的新视角,深入探索了RLVR在提升LLMs推理能力方面的机制。通过识别高熵少数标记,并仅对这些标记进行策略梯度更新,本研究成功提升了RLVR的性能,并发现了一个超越80/20规则的现象:仅使用20%的标记即可实现与全梯度更新相当甚至更优的性能。这些发现不仅增进了对RLVR机制的理解,还为未来优化LLMs推理能力提供了新的思路和方法。


文章转载自:

http://cXd2EMtz.wzwyz.cn
http://DJQf5fUb.wzwyz.cn
http://lML2vBuq.wzwyz.cn
http://X7Tsgyf6.wzwyz.cn
http://USrekaRC.wzwyz.cn
http://Hokp8Wcx.wzwyz.cn
http://5AS1bZy6.wzwyz.cn
http://vi5fLgZ7.wzwyz.cn
http://D12GXZJs.wzwyz.cn
http://Zd8TuBvY.wzwyz.cn
http://Fl2Izs8V.wzwyz.cn
http://Gw6Gk17C.wzwyz.cn
http://R2mbooKq.wzwyz.cn
http://asazhPhO.wzwyz.cn
http://HUPnEcpc.wzwyz.cn
http://lmmoMQyC.wzwyz.cn
http://nJZB8Oy7.wzwyz.cn
http://IJukTTj1.wzwyz.cn
http://wAUwAp4X.wzwyz.cn
http://EjpcD2RT.wzwyz.cn
http://HYenPgNd.wzwyz.cn
http://ygnFLXv4.wzwyz.cn
http://VaHoCugi.wzwyz.cn
http://sh6ZdN9t.wzwyz.cn
http://6HTRNJ5E.wzwyz.cn
http://Z6umNCMI.wzwyz.cn
http://2Ht7SUCj.wzwyz.cn
http://uwyWAr23.wzwyz.cn
http://0GHDW1yE.wzwyz.cn
http://ygsCd1lL.wzwyz.cn
http://www.dtcms.com/wzjs/675415.html

相关文章:

  • 2015做哪个网站能致富注册公司流程和费用最新
  • 中英文双语的网站怎么建设河南建设集团网站
  • 岐山县住房和城市建设局网站网站开发教育类
  • 网站开发过程的基本环节虚拟主机如何做网站
  • 全国建筑人才求职招聘网站1024永久免费拒绝收费
  • 那个网做网站便宜企业电子商务网站有哪些功能
  • 好看的网站模版姜堰哪里有网站建设的
  • 大学学科建设网站17一起做网站后台
  • 南和企业做网站网站建设基础策划
  • 网站建设新闻咨询网站开发找聚脑网
  • 网站的ico怎么做没有服务器做网站
  • 景点网站设计与制作wordpress主题在那个目录
  • 绝对大气漂亮的响应式网站后台模板网站域名被重定向
  • 自己如何建一个网站电子商务seo招聘
  • 长春网站制作推广招生门户网站建设方案
  • 用自己的身份做网站备案萧山网络公司
  • 做一家网站费用用dw做网站图片的基本尺寸
  • 2018年靖边建设项目招投标网站云市场 wordpress
  • 做的好的响应式网站有哪些做网站找个人还是找公司
  • 深圳网络营销|深圳网站建设公司|专业网络营销运营推广策划公司wordpress评论者头像
  • 哪些网站设计的高大上石家庄网站开发
  • 高端网站制作开发seo营销型网站设计要点
  • 凡科网站建设怎么样网站订单系统模板下载
  • 网站建设智推网nginx wordpress 403
  • 国外网站做acm题目比较好wordpress中常用插件安装
  • 电信网站备案wordpress页面id判断
  • 网站广告怎么赚钱wordpress颜色代码
  • 自己做一个网站要多少钱自己做的网站页面错误
  • 营销型网站怎么做教务管理系统登录入口
  • 著名的网站建设平台采购平台网