当前位置: 首页 > news >正文

Logic-RL:Unleashing LLM Reasoning with Rule-Based Reinforcement learning

1.Introduction

deepseek-r1,kimi-k1.5和openai-o1效果都很好。deepseek-r1引入了一种简单而有效的基于规则的强化学习,无需依赖传统的支撑技术,如蒙特卡洛书树搜索MCTS或者过程奖励模型PRM,便能出现新兴的推理模式。deepseek-r1开源了权重,但是并未发布训练或数据集,这一缺失引发了关键问题,1.是否可以在小规模模型中产生类似的推理能力?2.促进此能力的最佳训练数据结构是什么?3.能够可靠复制这些结果的方法论是什么?

logic-rl,基于规则的强化学习框架,通过在逻辑难题上的训练来获得r1的推理模式,训练框架采用Reinforce++算法和deepseek-r1的奖励设计用于后训练。

使用5000个生成的逻辑难题,7B模型在AIME上提升了125%,在AMC上提升了38%。

有趣的结论:

1.更长的回复并不能保证更好的推理

2.语言混合阻碍推理

3.增加思维token确实有帮助,rl训练自然提高了与反思相关的词汇的频率,表明了某些标记频率与表现之间存在相关性。

4.sft记忆,rl泛化,sft很大程度上依赖于记忆,导致表面学习的捷径,rk则是在对数据集结构的最小依赖下自我演化。

5.冷启动是额外的好处,单兵一种必要性</

http://www.dtcms.com/a/35223.html

相关文章:

  • 3.1.2移位运算--算术移位
  • 开发 picgo-plugin-huawei 插件,解决华为云社区外链限制问题
  • Visual Studio 安装全攻略
  • 大厂数据仓库数仓建模面试题及参考答案
  • ubuntu windows双系统踩坑
  • 算法题(77):数组中的第k个最大元素
  • [C语言日寄]以指针进阶:空类型指针与qsort函数
  • 【javaEE】计算机是如何工作的(基础常识)
  • 豆包、扣子等产品如何与CSDN合作?
  • 初识.git文件泄露
  • 如何在自己的电脑上部署Deepseek,Deepseek本地部署
  • WebRTC解析
  • 堆排序(详解)c++
  • 【数据库】【MySQL】索引
  • SMT贴片代工高效解决方案
  • 建筑兔零基础自学python记录29|实战词云可视化项目——分人物阵营词云(上)7
  • 使用 Element Plus 的 `el-pagination` 组件与 Vue 3 实现分页功能
  • SQL:DQL数据查询语言以及系统函数(oracle)
  • <tauri><rust><GUI><PLC>基于tauri,编写一个串口调试助手
  • Android Audio其他——数字音频接口(附)
  • 如何用JAVA实现布隆过滤器?
  • git 的一些操作总结
  • 【入门音视频】音视频基础知识
  • java23种设计模式-工厂方法模式
  • 自学Linux系统软件编程七天
  • 【优选算法】四数之和
  • Python - 代码片段分享 - Excel 数据实时写入方法
  • 力扣LeetCode:1656 设计有序流
  • Python生成器250224
  • 代码随想录Day46 | 647.回文子串,516.最长回文子序列