当前位置: 首页 > wzjs >正文

北京网站备案代理让别人做一个网站需要多少钱

北京网站备案代理,让别人做一个网站需要多少钱,网站等比例缩放设计,田园官方网站建设颠覆传统!单样本熵最小化如何重塑大语言模型训练范式? 大语言模型(LLM)的训练往往依赖大量标注数据与复杂奖励设计,但最新研究发现,仅用1条无标注数据和10步优化的熵最小化(EM)方法…

颠覆传统!单样本熵最小化如何重塑大语言模型训练范式?

大语言模型(LLM)的训练往往依赖大量标注数据与复杂奖励设计,但最新研究发现,仅用1条无标注数据和10步优化的熵最小化(EM)方法,竟能在数学推理任务上超越传统强化学习(RL)。这一突破性成果或将改写LLM的训练规则,快来了解这场效率革命!

论文标题

One-shot Entropy Minimization

来源

arXiv:2505.20282v2 [cs.CL] + https://arxiv.org/abs/2505.20282

PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

文章核心

研究背景

大语言模型(LLM)的训练后优化(post-training)近年来发展迅猛,DeepSeek-R1、Kimi-K1.5和OpenAI o-series等模型展现出卓越的推理能力。然而,传统强化学习(RL)方法在应用中面临显著挑战:其不仅需要大量高质量标注数据,还需精心设计规则化奖励函数以最大化优势信号,同时防范“奖励黑客”问题。与之形成鲜明对比的是,熵最小化(EM)作为完全无监督方法,在训练效率与便捷性上具备潜在优势。本研究通过训练13,440个LLM,系统验证了EM仅用单条无标注数据和10步优化即可超越传统RL的可能性,为LLM训练后优化范式提供了全新思路。

研究问题

1. 数据效率低下:RL需数千条标注数据,而无监督方法的潜力尚未充分挖掘。

2. 训练复杂度高:RL需设计复杂奖励函数,且易出现“奖励黑客”(reward hacking)问题。

3. 收敛速度缓慢:RL通常需数千步训练,而高效优化方法亟待探索。

主要贡献

1. 单样本高效优化:提出One-shot Entropy Minimization(单样本熵最小化)方法,仅用1条无标注数据+10步优化,性能超越传统RL(如在Qwen2.5-Math-7B模型上,MATH500数据集得分提升25.8分)。

2. 理论机制创新:揭示EM与RL的核心目标一致(释放预训练模型潜力),但通过“对数几率右移”(logits shift)机制驱动模型行为,与RL的左移方向相反,更利于生成高概率正确路径。

3. 关键因素解析:发现温度参数(temperature)是训练与推理的核心变量,EM在推理时温度趋势与RL完全相反(EM随温度升高性能下降,RL反之)。

3. 范式重新定义:证明EM是“分布塑形工具”而非学习方法,其效果在10步内即可完成,后续训练 loss 下降与性能提升解耦。

方法论精要

1. 核心算法/框架

熵最小化算法:通过最小化生成token的条件熵 H t H_t Ht,迫使模型对预测更自信,仅计算生成token(非prompt部分)的熵。

数据选择策略:基于“方差筛选”选择最具不确定性的输入——计算模型在k次采样中的“pass@k准确率方差”,优先选择方差最高的prompt(如NuminaMath数据集中的风力压力计算问题)。

2. 关键参数设计原理

温度参数0.5:训练时温度过低会使分布过窄,过高则增加随机性,0.5时性能方差最大,易获峰值表现。

学习率 2 × 10 − 5 2×10^{-5} 2×105:10步快速收敛的最优选择,过大易导致过自信,过小则收敛缓慢。

3. 创新性技术组合

无监督+方差筛选:无需标注数据,仅通过模型自身预测的不确定性筛选有效输入,形成“熵敏感”训练信号。

对数几率分析:EM使logits分布右偏(skewness提升至1.54),集中概率质量于正确路径,而RL导致左偏(skewness降至0.02)。

4. 实验验证方式

数据集:数学推理基准(MATH500、Minerva Math、Olympiad Bench、AMC23),以及LLaMA-3.1-8B、Qwen2.5系列等多模型测试。

基线方法:OpenReasoner-Zero、SimpleRL-Zoo、Prime-Zero等RL模型,对比其在数据量(129k-230k)与训练步数(240-4000步)上的劣势。

实验洞察

1. 性能优势

  • Qwen2.5-Math-7B模型:EM 1-shot使MATH500从53.0提升至78.8(+25.8),Minerva Math从11.0至35.3(+24.3),平均提升24.7分,接近Prime-Zero-7B等SOTA模型。
  • 跨模型泛化:在Qwen2.5-7B-Instruct模型上,EM将平均准确率从43.12%提升至44.5%,且对弱模型(LLaMA-3.1-8B)也有29.6%→42.2%的提升。

2. 效率突破

  • 训练步数:仅10步收敛,较RL的数千步提升数百倍;单样本训练速度比RL快3个数量级。
  • 数据效率:1条数据效果超过RL的数千条,如EM 1-shot在AMC23上得分70.3,超越SimpleRL-Zoo(24k数据+4000步)的55.3分。

3. 消融研究

  • 温度影响:训练时温度0.5性能最佳,推理时温度与性能负相关(温度1.0时EM平均得分下降5%,RL上升3%)。

  • 训练顺序:EM先于RL可提升性能(如Qwen2.5-Math-7B+EM+RL在AMC23得70.3),而RL后接EM会导致性能下降(如SimpleRL-Zoo+EM得分降低5.9分)。

Future Works

1. 稳定化训练机制开发:针对EM训练中存在的随机性问题(相同设置下不同种子得分差异可达2倍),探索自适应早停策略或正则化方法,如基于损失-性能解耦点的动态终止准则,降低温度参数敏感性,构建更鲁棒的训练框架。

2. 跨领域泛化探索:当前EM主要验证于数学推理任务,未来将拓展至对话生成、代码补全、科学文献总结等多模态场景,研究序列级熵优化(如全句语义熵)与任务特定先验融合技术,验证其作为通用分布塑形工具的普适性。

3. 混合优化范式构建:探索EM与监督微调(SFT)、RL的协同机制,例如设计“EM预塑形→SFT精调→RL校准”的流水线,或开发动态熵-奖励联合优化目标,平衡模型自信度与外部对齐要求,解决RL后接EM导致的“对齐税”问题。


文章转载自:

http://y6GGOwT0.qxdrw.cn
http://aoN27r54.qxdrw.cn
http://bnX4ODrv.qxdrw.cn
http://cD9AITNG.qxdrw.cn
http://93aL6NbW.qxdrw.cn
http://jE1ZktPI.qxdrw.cn
http://T4GuSHKO.qxdrw.cn
http://3nvgI6rP.qxdrw.cn
http://Rr8lthEb.qxdrw.cn
http://osKZkocW.qxdrw.cn
http://SdZT7AbV.qxdrw.cn
http://JRBmN59m.qxdrw.cn
http://thoLJygo.qxdrw.cn
http://QB0EdRCX.qxdrw.cn
http://OOvmFZ4V.qxdrw.cn
http://Z6mZNB5b.qxdrw.cn
http://4WBxMkW0.qxdrw.cn
http://Kx6p6eQN.qxdrw.cn
http://UodsryFz.qxdrw.cn
http://84N6NXvZ.qxdrw.cn
http://2qvRJkEV.qxdrw.cn
http://xO0yUqY7.qxdrw.cn
http://pt0CCOrX.qxdrw.cn
http://TAFPrTOM.qxdrw.cn
http://wCecrbbi.qxdrw.cn
http://1FjUHGUV.qxdrw.cn
http://0tSPHu02.qxdrw.cn
http://JJN1lqXq.qxdrw.cn
http://BRnrAZIH.qxdrw.cn
http://3wEqYiEJ.qxdrw.cn
http://www.dtcms.com/wzjs/691768.html

相关文章:

  • 网站建设用什么服务器企业信息管理系统的组成不包括
  • 公司网站主页设计图片成都线上超市有哪些平台
  • 信阳做房产哪个网站好用在internet上建设网站
  • 网站移动字幕要怎么做企业网站设计过程中必须重视的问题之一
  • 白云网站 建设seo信科廊坊快速优化排名
  • 江苏营销型网站策划wordpress主题邮件模板下载
  • 网站设计 三把火科技企业安全文化建设做法
  • 做微信链接的网站如何利用php开源系统建立php网站
  • 深圳网站 商城制作网站项目上线流程
  • 微信小程序制作工具平台苏州seo排名优化
  • 做网站怎么存放视频合浦网站建设
  • 学生组织网站建设做网站前台要学哪些
  • 网站建设还能赚钱吗北京网站建设公司资讯
  • 网站代码多彩搜索引擎优化答案
  • 网站建设跟前端有什么区别上海建网站开发公司
  • 旅游网站如何建设昆明小程序制作
  • 怎么去跟客户谈网站建设wordpress app内
  • 网站建设询价函格式深圳博惠seo
  • 网站建设电销话术开场白建设网站公司价格
  • 国外做meta分析的网站网站建设费无形资产摊销
  • 华为云 搭建网站怎样做一个网络营销
  • 外贸公司网站模板免费驻马店北京网站建设
  • 官方网站焊工证查询大连哪里有手机自适应网站建设维护
  • 怎么创建一个博客网站吗wordpress添加贴吧表情
  • 上海网站公公司注册地址和实际经营地址不一样可以吗
  • 淘宝客建立网站微网站建设包括哪些方面
  • 在线视频下载网站如何做工信部网站域名备案
  • 怎做视频网站wordpress 修改默认路径
  • 化妆网站模板建筑人才网电话
  • 建设项目管理公司网站外汇平台网站建设