当前位置：首页 > news >正文

【论文笔记】RL在LLM中的落地方法

news 2025/8/23 16:24:52

文章目录

数据合成（RLAIF）
- ReST
- Slef-rewarding LM
- Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning
泛化/自我提升
- Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision
- Small Language Models Need Strong Verifiers to Self-Correct Reasoning
Time-search
- Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
- Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models
- Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
- Retrieval Augmented Thought Process for Private Data Handling in Healthcare

数据合成（RLAIF）

优点：无需人工干预，机器自己给自己提供训练语料
缺点：可能过拟合
目前我比较认可的一种范式：“RLAIF”(http://arxiv.org/abs/2309.00267)，即通过 LLM 给予 LLM 反馈，实现一种 self-play+RL 的效果。
就像AlphaGo和AlphaZero的关系那样，AlphaZero在训练过程中，没有用到人类的棋谱。这种范式下，机器自己给自己提供训练语料、奖励函数，人类的能力不会成为瓶颈。
在这里插入图片描述

ReST

http://arxiv.org/abs/2308.08998, ReST（2023），早期数据合成方案，Grow 阶段生成多个输出预测、并打分构建数据集，在 Improve 阶段使用高质量数据进行 finetune；通过两个阶段的不断迭代，提升模型的性能。
类似 alphaGo，G 步骤就是不断自我对弈产生新的训练集，I 步骤就是通过训练迭代优化策略。
在这里插入图片描述
如Fig2所示，理想情况下，随着I轮数的增加，模型G步骤产生的策略，也能够获得更多Reward，提高最终数据集的数据质量，形成良性循环。
这个训练策略看起来比较简单，如果应用于数学/代码等领域，是否会有 reward hacking、overfitting 问题？后续有不少文章指出了这一点。

Slef-rewarding LM

http://arxiv.org/abs/2401.10020，2024，也很有名。给模型打分的不应该是人类，而应该是模型；这样人类的能力才不会成为瓶颈。
跟 ReST 做 SFT 不一样，这里是使用模型自己生成内容，自己打分形成偏好数据集，进行 DPO 训练生成下一代模型。

在这里插入图片描述
这张训练框架图画得很清晰了。根据 prompt 模型生成一系列回答 y，然后用模型评价并估计每个回答的奖励函数 r，如此一来，就可以生成一系列偏好数据集，用于 DPO 训练。
语言模型评估往往倾向于更长的回答，或许是一种 reward hacking 的表现。另外也有多样性丧失的风险。