当前位置：首页 > news >正文

A Survey of Learning from Rewards：从训练到应用的全面剖析

news 2025/7/1 13:36:11

A Survey of Learning from Rewards：从训练到应用的全面剖析

你知道大语言模型（LLMs）如何通过奖励学习变得更智能吗？这篇论文将带你深入探索。从克服预训练局限的新范式，到训练、推理各阶段的策略，再到广泛的应用领域，全方位展现LLMs奖励学习的奥秘，快来一探究竟吧！

📄 论文标题：Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models
🌐 来源：arXiv:2505.02686 [cs.CL] + 链接：https://www.arxiv.org/abs/2505.02686

PS: 整理了LLM、量化投资、机器学习方向的学习资料，关注同名公众号「 亚里随笔」即刻免费解锁

近年来，大语言模型（LLMs）发展迅速，从最初依赖预训练扩展，逐渐转向后训练和测试时扩展。在这一转变过程中，“从奖励中学习”成为关键范式，它如同夜空中的星星，指引着LLMs的行为。

1. 从奖励中学习的分类框架

为了更好地理解“从奖励中学习”，论文构建了统一概念框架。语言模型根据输入生成输出，奖励模型评估输出质量并给出奖励信号，学习策略则利用这些信号调整语言模型或输出。基于此框架，从奖励来源、奖励模型设计、学习阶段和学习方式四个维度对现有方法进行分类。

1. 奖励来源：主要有人类反馈和自动反馈。人类反馈基于人类判断，质量高但资源消耗大；自动反馈包括自我奖励、训练模型、预定义规则、知识和工具等，可扩展性强，但在可解释性等方面存在局限。

2. 奖励模型设计：涵盖模型架构（基于模型和无模型）、奖励格式（标量、评论和隐式）、评分模式（逐点和成对）和奖励粒度（结果级和过程级）四个关键维度。不同的设计选择会影响奖励模型的性能和应用场景。

3. 学习阶段：学习从奖励中发生在语言模型生命周期的不同阶段，包括训练时用奖励信号微调模型、推理时引导模型输出以及推理后优化输出，每个阶段都有其独特的作用和方法。

4. 学习方式：分为基于训练的策略（如强化学习和监督微调）和无训练的策略（如生成 - 排序、奖励引导解码和推理后校正），两种方式各有优劣，适用于不同的情况。

2. 训练时的奖励学习

在训练阶段，奖励学习有助于使LLMs更好地与人类偏好对齐，并提升测试时的推理能力。主要训练算法包括REINFORCE、PPO、DPO等。根据奖励设计不同，可分为以下几类：

标量奖励训练：通过训练专门的奖励模型或直接从源数据提取标量奖励。如RLHF基于人类偏好训练奖励模型，RLAIF则利用AI反馈替代人类标注，还有许多研究将其扩展到多模态任务。
评论奖励训练：使用生成式奖励模型生成自然语言评论，相比标量奖励更具灵活性和可解释性。例如Auto-J、CompassJudger-1等模型，还有一些采用混合结构的奖励模型。
隐式奖励训练：奖励信号隐含在训练数据结构中。像DPO通过对数似然差异编码隐式奖励，还有基于RSFT的方法，通过筛选高质量样本进行训练。
基于规则的奖励训练：依据特定规则验证输出获得奖励，如DeepSeek-R1通过定义准确性和格式奖励，使语言模型获得长思维链能力，后续有许多研究在此基础上进行扩展。
过程奖励训练：关注模型推理轨迹的中间步骤，采用过程奖励模型（PRM）进行评估。早期依赖人类注释，现在越来越多利用自动反馈，如WizardMath用GPT-4标注数学推理步骤。