当前位置: 首页 > news >正文

Logic-RL:Unleashing LLM Reasoning with Rule-Based Reinforcement learning

1.Introduction

deepseek-r1,kimi-k1.5和openai-o1效果都很好。deepseek-r1引入了一种简单而有效的基于规则的强化学习,无需依赖传统的支撑技术,如蒙特卡洛书树搜索MCTS或者过程奖励模型PRM,便能出现新兴的推理模式。deepseek-r1开源了权重,但是并未发布训练或数据集,这一缺失引发了关键问题,1.是否可以在小规模模型中产生类似的推理能力?2.促进此能力的最佳训练数据结构是什么?3.能够可靠复制这些结果的方法论是什么?

logic-rl,基于规则的强化学习框架,通过在逻辑难题上的训练来获得r1的推理模式,训练框架采用Reinforce++算法和deepseek-r1的奖励设计用于后训练。

使用5000个生成的逻辑难题,7B模型在AIME上提升了125%,在AMC上提升了38%。

有趣的结论:

1.更长的回复并不能保证更好的推理

2.语言混合阻碍推理

3.增加思维token确实有帮助,rl训练自然提高了与反思相关的词汇的频率,表明了某些标记频率与表现之间存在相关性。

4.sft记忆,rl泛化,sft很大程度上依赖于记忆,导致表面学习的捷径,rk则是在对数据集结构的最小依赖下自我演化。

5.冷启动是额外的好处,单兵一种必要性</

相关文章:

  • 3.1.2移位运算--算术移位
  • 开发 picgo-plugin-huawei 插件,解决华为云社区外链限制问题
  • Visual Studio 安装全攻略
  • 大厂数据仓库数仓建模面试题及参考答案
  • ubuntu windows双系统踩坑
  • 算法题(77):数组中的第k个最大元素
  • [C语言日寄]以指针进阶:空类型指针与qsort函数
  • 【javaEE】计算机是如何工作的(基础常识)
  • 豆包、扣子等产品如何与CSDN合作?
  • 初识.git文件泄露
  • 如何在自己的电脑上部署Deepseek,Deepseek本地部署
  • WebRTC解析
  • 堆排序(详解)c++
  • 【数据库】【MySQL】索引
  • SMT贴片代工高效解决方案
  • 建筑兔零基础自学python记录29|实战词云可视化项目——分人物阵营词云(上)7
  • 使用 Element Plus 的 `el-pagination` 组件与 Vue 3 实现分页功能
  • SQL:DQL数据查询语言以及系统函数(oracle)
  • <tauri><rust><GUI><PLC>基于tauri,编写一个串口调试助手
  • Android Audio其他——数字音频接口(附)
  • 网站建设公司推荐金石下拉网络/平台推广是做什么
  • 企业网站服务费怎么做记账凭证/今日头条新闻
  • 浙江政府网站大建设方案/如何写好软文
  • 网站建设是广告么/百度网站推广排名
  • 武汉网站建设jw100/免费的行情软件网站下载
  • b2b2c商城开发/百度视频seo