当前位置：首页 > news >正文

Logic-RL:Unleashing LLM Reasoning with Rule-Based Reinforcement learning

news 2025/10/17 4:59:00

1.Introduction

deepseek-r1，kimi-k1.5和openai-o1效果都很好。deepseek-r1引入了一种简单而有效的基于规则的强化学习，无需依赖传统的支撑技术，如蒙特卡洛书树搜索MCTS或者过程奖励模型PRM，便能出现新兴的推理模式。deepseek-r1开源了权重，但是并未发布训练或数据集，这一缺失引发了关键问题，1.是否可以在小规模模型中产生类似的推理能力？2.促进此能力的最佳训练数据结构是什么？3.能够可靠复制这些结果的方法论是什么？

logic-rl，基于规则的强化学习框架，通过在逻辑难题上的训练来获得r1的推理模式，训练框架采用Reinforce++算法和deepseek-r1的奖励设计用于后训练。

使用5000个生成的逻辑难题，7B模型在AIME上提升了125%，在AMC上提升了38%。

有趣的结论：

1.更长的回复并不能保证更好的推理

2.语言混合阻碍推理

3.增加思维token确实有帮助，rl训练自然提高了与反思相关的词汇的频率，表明了某些标记频率与表现之间存在相关性。

4.sft记忆，rl泛化，sft很大程度上依赖于记忆，导致表面学习的捷径，rk则是在对数据集结构的最小依赖下自我演化。

5.冷启动是额外的好处，单兵一种必要性</

查看全文

http://www.dtcms.com/a/35223.html