当前位置: 首页 > news >正文

论文阅读:强化预训练

大型语言模型 (LLMs) 的惊人能力很大程度上归功于在海量文本语料库上进行下一词元预测 (Next-Token Prediction, NTP) 的规模化训练。与此同时,强化学习 (Reinforcement Learning, RL) 已成为微调 LLMs、使其与人类偏好对齐或增强特定技能(如复杂推理)的强大技术。然而,当前的 RL 应用面临规模化和泛化挑战。RLHF (基于人类反馈的强化学习) 依赖昂贵的人类标注数据,且易受奖励欺骗 (reward hacking)。RLVR (基于可验证奖励的强化学习) 虽然减轻了奖励欺骗,但通常受限于带有可验证答案的标注数据稀缺性,难以泛化到通用预训练。为此研究者提出了强化学习预训练。

论文地址:https://www.arxiv.org/pdf/2506.08007

这篇论文引入了强化预训练 (Reinforcement Pre-Training, RPT),这是一个连接可规模化的自监督预训练和 RL 强大能力的新范式。

核心思想:将下一词元预测重塑为推理任务

RPT 的核心思想是,将基础的下一词元预测任务重新定义为一个下一词元推理过程。对于预训练语料库中的任何给定上下文,模型被激励在预测下一个词元之前进行推理。模型会根据其对下一个词元的预测是否正确获得一个可验证的内在奖励,这个奖励直接来源于语料库中的真实下一词元。

这就像从只追求做出美味的“樱桃顶蛋糕”(仅预测下一词元)转变为制作美味的“樱桃蛋糕”(通过推理来预测下一词元)(如图 1 所示)。
在这里插入图片描述

图 1: 强化预训练 (RPT) 将下一词元预测重塑为推理任务。

在标准的下一词元预测中,模型直接估计下一个词元。而在下一词元推理中(如图 2 所示),模型在预测之前会生成一个思维链 (chain-of-thought)

在这里插入图片描述

图 2: 标准下一词元预测与下一词元推理的对比。

标准的下一词元预测目标是最大化给定上下文下真实下一词元的对数概率:

I N T P ( θ ) = ∑ t = 1 T log ⁡ P ( x t ∣ x 0 , x 1 , . . . , x t − 1 ; θ ) I_{NTP}(\theta) = \sum_{t=1}^{T} \log P(x_t | x_0, x_1, ..., x_{t-1}; \theta) INTP(θ)=t=1TlogP(xtx0,x1,...,xt1;θ)

其中 θ \theta θ 代表语言模型的参数, x 0 , . . . , x T x_0, ..., x_T x0,...,xT 是训练语料库中的序列。

在 RPT 中,模型 π θ \pi_\theta πθ 接收上下文 x < t x_{<t} x<t 后,生成包含思维链 c t c_t ct 和最终预测 y t y_t yt 的响应 o t = ( c t , y t ) o_t = (c_t, y_t) ot=(ct,yt)。奖励 r r r 的设定是基于预测 y y y 是否精确匹配真实后续序列 x > t x_{>t} x>t 的某个有效词元边界前缀(如图 3 所示):

在这里插入图片描述

图 3: 强化预训练过程示意图。

形式上,对于第 i 个输出 o i = ( c i , y i ) o_i = (c_i, y_i) oi=(ci,yi),奖励 r i r_i ri 定义为:

r i = { 1 if  y i = x > t [ 1 : l ] and  l ∈ L g t 0 otherwise r_i = \begin{cases} 1 & \text{if } y_i = x_{>t}[1:l] \text{ and } l \in \mathcal{L}_{gt} \\ 0 & \text{otherwise} \end{cases} ri={10if yi=x>t[1:l] and lLgtotherwise

其中 y i y_i yi 是预测的字节序列, x > t x_{>t} x>t 是真实后续序列的字节序列, l l l y i y_i yi 的字节长度, L g t \mathcal{L}_{gt} Lgt 是真实后续序列中词元的累积字节长度边界集合。如果预测的字节序列是真实后续序列的一个精确前缀且长度匹配某个有效词元边界,则奖励为 1,否则为 0。

模型训练的目标是最大化期望奖励:

J R P T ( θ ) = E ( x < t , x > t ) ∼ D , o ∼ π θ ( ⋅ ∣ x < t ) [ r ] J_{RPT}(\theta) = E_{(x_{<t}, x_{>t}) \sim \mathcal{D}, o \sim \pi_\theta(\cdot|x_{<t})} [r] JRPT(θ)=E(x<t,x>t)D,oπθ(x<t)[r]

其中 D \mathcal{D} D 是所有上下文-后续序列对的集合。

这种方法将海量的未标注文本数据转化为通用 RL 的大规模数据集,而无需外部标注。

RPT 的优势

RPT 提供了几个关键优势:

  1. 规模化和通用性: RPT 利用用于标准下一词元预测的未标注文本数据,将其转化为通用的 RL 数据集,无需外部标注。
  2. 最小化奖励欺骗: 使用直接的、基于规则的奖励信号(即预测下一个词元的正确性)能有效最小化复杂学习奖励模型常伴随的奖励欺骗风险。
  3. 促进理解和泛化: 通过明确鼓励下一词元推理模式,RPT 促进更深入的理解和泛化,而非仅仅死记硬背词元级的关联。
  4. 训练时推理: 预训练期间的内部推理过程使得模型能够为每个预测步骤分配更多“思考”或计算资源,这有助于提高下一词元预测准确性。

实验结果

论文通过实验验证了 RPT 的有效性:

  1. 语言建模性能: RPT 显著提高了下一词元预测的准确性。在 OmniMATH 数据集上,根据词元位置的难度划分,RPT-14B 在所有难度级别上都持续优于 R1-Distill-Qwen-14B。特别是在推理模式下,RPT-14B 的表现优于 R1-Distill-Qwen-14B 的标准预测和推理模式基线。甚至接近了更大模型 R1-Distill-Qwen-32B 的性能(见表 1 和图 4)。
EasyMediumHard
Standard next-token prediction
Qwen2.5-14B41.9030.0320.65
R1-Distill-Qwen-14B41.6029.4620.43
Next-token reasoning
R1-Distill-Qwen-14B3.311.661.41
RPT-14B45.1133.5623.75

表 1: 不同难度测试集上的下一词元预测准确性。

关键点: RPT 显著提高了下一词元预测准确性,尤其是在有挑战性的词元上。

  1. 规模化特性: RPT 的性能随着训练计算资源的增加而持续提升,表现出良好的规模化特性。通过幂律形式拟合(公式 5)验证了这一趋势(见图 5)。

P ( C ) = A C a + P ∗ P(C) = \frac{A}{C^a} + P^* P(C)=CaA+P

其中 P ( C ) P(C) P(C) 是验证集上的下一词元预测准确性, C C C 是训练计算资源, A , a , P ∗ A, a, P^* A,a,P 是估计参数。拟合曲线的高 R² 值表明其能准确捕捉性能趋势。

在这里插入图片描述

图 5: 强化预训练的下一词元预测准确性随训练计算资源增加而持续提升。

关键点: RPT 性能随训练计算资源增加而持续提升,展现出良好的规模化特性。

  1. RL 微调基础: RPT 为后续的强化学习微调提供了更强大的基础。在 RLVR 任务上的实验表明,经过 RPT 预训练的模型在进一步 RL 微调后能达到更高的性能上限,优于仅通过标准下一词元目标持续预训练的模型(见表 2)。
Before RLAfter RL
R1-Distill-Qwen-14B51.252.7
+ Continual NTP training10.713.0
RPT-14B56.358.3

表 2: 不同模型的强化学习微调性能。

关键点: RPT 为后续强化学习微调提供了更强大的预训练基础。

  1. 零样本任务性能: RPT 增强了模型在通用下游任务上的零样本性能。在 SuperGPQA 和 MMLU-Pro 等基准测试上,RPT-14B 在推理模式下持续优于基线模型(包括更大的 R1-Distill-Qwen-32B 的标准下一词元预测性能)(见表 3)。
SuperGPQAMMLU-Pro
Standard next-token prediction mode
R1-Distill-Qwen-14B32.048.4
R1-Distill-Qwen-32B37.256.5
Reasoning mode
R1-Distill-Qwen14B36.168.9
RPT-14B39.071.1

表 3: 通用领域零样本任务性能。

关键点: RPT 提升了模型在通用下游任务上的零样本性能

  1. 推理模式分析: RPT 训练的模型展现出与结构化问题解决不同的推理模式。例如,RPT-14B 在下一词元推理中更多使用了假设生成和演绎推理,而不是像解决问题时那样侧重分解问题(见图 6 和表 9)。这表明 RPT 能够诱导更具推断性的过程。

在这里插入图片描述

图 6: R1-Distill-Qwen-14B 在问题解决和 RPT-14B 在下一词元推理中使用的推理模式统计。

Pattern GroupKeywords
Transitionalternatively, think differently
Reflectionwait, initial answer, original answer, looking back, thought process
Breakdownbreak down, break this down
Hypothesisprobably, something like
Divergent Thinkingetc., or something, either, sometimes it refers, otherwise, exploring, options
Deductionsummarize, conclusion, conclude, finally, logically, consequently

表 9: 推理模式分组及关键词。

关键点: RPT 鼓励更具推断性的推理模式

贡献总结

这篇论文的主要贡献可以总结为:

  • 引入了强化预训练 (RPT),这是一个将下一词元预测重塑为基于强化学习的推理任务的新范式,利用了直接从预训练语料库中获得的内在可验证奖励
  • RPT 提供了一种可规模化且通用的 RL 预训练方法,通过基于规则的奖励最小化奖励欺骗,并通过鼓励下一词元推理模式促进泛化
  • RPT 显著提高了下一词元预测准确性并展现出良好的规模化特性,性能随训练计算资源的增加而持续提升。
  • RPT 为后续的强化学习微调提供了更强大的预训练基础,并增强了各种下游任务的零样本性能。

结论与未来工作

强化预训练 (RPT) 为大型语言模型的预训练提供了一个新颖且有前景的方向。通过将下一词元预测框定为一个可验证的推理任务并应用基于正确性的强化学习,RPT 使 LLMs 能够在预训练期间利用扩展的计算资源来构建更强的基础推理能力。实验证明了 RPT 在提高下一词元预测准确性、增强零样本性能以及为后续 RL 微调提供更好起点方面的有效性。

尽管如此,RPT 的初步探索也存在一些限制,例如主要使用了数学领域的语料库,并且预训练是从一个具备基础推理能力的模型初始化的。未来的工作可以进一步探索在更广泛的通用领域文本上的有效性,并研究从标准基础语言模型进行 RPT 训练的影响。

未来的方向包括:扩大训练语料库的大小和领域覆盖;增加训练计算资源以推进性能边界;建立强化预训练的规模化法则;以及探索将混合思维与 RPT 相结合,以实现细粒度的自适应推理。

Reference

https://www.arxiv.org/pdf/2506.08007

相关文章:

  • html打印合同模板
  • 人工智能AI
  • 《零基础读懂新能源汽车》——V2G/电池梯次利用/氢能源生态级技术拆解与商业预言
  • Java八股文——Spring「SpringBoot 篇」
  • 全连接层和卷积层
  • 学习threejs,使用TSL计算粒子鼠标特效
  • 【AI时代速通QT】第一节:C++ Qt 简介与环境安装
  • uniapp 腾讯云 COS 访问控制实战(细粒度权限管理)
  • PHP7+MySQL5.6 雪里开简易预约制访客管理系统V1.0
  • IGBT(绝缘栅双极型晶体管)简介
  • Vue3 + TypeScript + Element Plus 表格行按钮不触发 row-click 事件、不触发勾选行,只执行按钮的 click 事件
  • 基于开源AI智能名片链动2+1模式S2B2C商城小程序的新零售融合路径研究
  • elementui使用Layout布局-对齐方式
  • 零基础玩转物联网-串口转以太网模块如何快速实现与HTTP服务器通信
  • element-ui 的el-table,多选翻页后,之前选择的数据丢失问题处理
  • Flutter - 原生交互 - 相机Camera - 02
  • 深度学习小项目合集之音频语音识别-视频介绍下自取
  • Flutter 常用组件详解:Text、Button、Image、ListView 和 GridView
  • 【编译工具】(版本控制)Git + GitHub Actions:自动化工作流如何让我的开发效率提升200%?
  • 深度强化学习 | 详细推导随机/确定性策略梯度定理
  • 青岛个人网站制作/友情链接怎么弄
  • 做神马网站快速排/台州百度推广优化
  • 网站建设单页面推广模板/营销型网站建设套餐
  • 凡科做网站技巧/一键生成个人网站
  • 中国建设银行网站开通短信/佛山网站建设制作公司
  • 长沙模板建网站需要多久/公司企业网站制作