当前位置: 首页 > wzjs >正文

icp备案网站接入信息ip地址段网站的背景图怎么做的

icp备案网站接入信息ip地址段,网站的背景图怎么做的,ftp上传网站 需要什么文件,化妆品网站栏目策划大型语言模型 (LLMs) 的惊人能力很大程度上归功于在海量文本语料库上进行下一词元预测 (Next-Token Prediction, NTP) 的规模化训练。与此同时,强化学习 (Reinforcement Learning, RL) 已成为微调 LLMs、使其与人类偏好对齐或增强特定技能(如复杂推理&am…

大型语言模型 (LLMs) 的惊人能力很大程度上归功于在海量文本语料库上进行下一词元预测 (Next-Token Prediction, NTP) 的规模化训练。与此同时,强化学习 (Reinforcement Learning, RL) 已成为微调 LLMs、使其与人类偏好对齐或增强特定技能(如复杂推理)的强大技术。然而,当前的 RL 应用面临规模化和泛化挑战。RLHF (基于人类反馈的强化学习) 依赖昂贵的人类标注数据,且易受奖励欺骗 (reward hacking)。RLVR (基于可验证奖励的强化学习) 虽然减轻了奖励欺骗,但通常受限于带有可验证答案的标注数据稀缺性,难以泛化到通用预训练。为此研究者提出了强化学习预训练。

论文地址:https://www.arxiv.org/pdf/2506.08007

这篇论文引入了强化预训练 (Reinforcement Pre-Training, RPT),这是一个连接可规模化的自监督预训练和 RL 强大能力的新范式。

核心思想:将下一词元预测重塑为推理任务

RPT 的核心思想是,将基础的下一词元预测任务重新定义为一个下一词元推理过程。对于预训练语料库中的任何给定上下文,模型被激励在预测下一个词元之前进行推理。模型会根据其对下一个词元的预测是否正确获得一个可验证的内在奖励,这个奖励直接来源于语料库中的真实下一词元。

这就像从只追求做出美味的“樱桃顶蛋糕”(仅预测下一词元)转变为制作美味的“樱桃蛋糕”(通过推理来预测下一词元)(如图 1 所示)。
在这里插入图片描述

图 1: 强化预训练 (RPT) 将下一词元预测重塑为推理任务。

在标准的下一词元预测中,模型直接估计下一个词元。而在下一词元推理中(如图 2 所示),模型在预测之前会生成一个思维链 (chain-of-thought)

在这里插入图片描述

图 2: 标准下一词元预测与下一词元推理的对比。

标准的下一词元预测目标是最大化给定上下文下真实下一词元的对数概率:

I N T P ( θ ) = ∑ t = 1 T log ⁡ P ( x t ∣ x 0 , x 1 , . . . , x t − 1 ; θ ) I_{NTP}(\theta) = \sum_{t=1}^{T} \log P(x_t | x_0, x_1, ..., x_{t-1}; \theta) INTP(θ)=t=1TlogP(xtx0,x1,...,xt1;θ)

其中 θ \theta θ 代表语言模型的参数, x 0 , . . . , x T x_0, ..., x_T x0,...,xT 是训练语料库中的序列。

在 RPT 中,模型 π θ \pi_\theta πθ 接收上下文 x < t x_{<t} x<t 后,生成包含思维链 c t c_t ct 和最终预测 y t y_t yt 的响应 o t = ( c t , y t ) o_t = (c_t, y_t) ot=(ct,yt)。奖励 r r r 的设定是基于预测 y y y 是否精确匹配真实后续序列 x > t x_{>t} x>t 的某个有效词元边界前缀(如图 3 所示):

在这里插入图片描述

图 3: 强化预训练过程示意图。

形式上,对于第 i 个输出 o i = ( c i , y i ) o_i = (c_i, y_i) oi=(ci,yi),奖励 r i r_i ri 定义为:

r i = { 1 if  y i = x > t [ 1 : l ] and  l ∈ L g t 0 otherwise r_i = \begin{cases} 1 & \text{if } y_i = x_{>t}[1:l] \text{ and } l \in \mathcal{L}_{gt} \\ 0 & \text{otherwise} \end{cases} ri={10if yi=x>t[1:l] and lLgtotherwise

其中 y i y_i yi 是预测的字节序列, x > t x_{>t} x>t 是真实后续序列的字节序列, l l l y i y_i yi 的字节长度, L g t \mathcal{L}_{gt} Lgt 是真实后续序列中词元的累积字节长度边界集合。如果预测的字节序列是真实后续序列的一个精确前缀且长度匹配某个有效词元边界,则奖励为 1,否则为 0。

模型训练的目标是最大化期望奖励:

J R P T ( θ ) = E ( x < t , x > t ) ∼ D , o ∼ π θ ( ⋅ ∣ x < t ) [ r ] J_{RPT}(\theta) = E_{(x_{<t}, x_{>t}) \sim \mathcal{D}, o \sim \pi_\theta(\cdot|x_{<t})} [r] JRPT(θ)=E(x<t,x>t)D,oπθ(x<t)[r]

其中 D \mathcal{D} D 是所有上下文-后续序列对的集合。

这种方法将海量的未标注文本数据转化为通用 RL 的大规模数据集,而无需外部标注。

RPT 的优势

RPT 提供了几个关键优势:

  1. 规模化和通用性: RPT 利用用于标准下一词元预测的未标注文本数据,将其转化为通用的 RL 数据集,无需外部标注。
  2. 最小化奖励欺骗: 使用直接的、基于规则的奖励信号(即预测下一个词元的正确性)能有效最小化复杂学习奖励模型常伴随的奖励欺骗风险。
  3. 促进理解和泛化: 通过明确鼓励下一词元推理模式,RPT 促进更深入的理解和泛化,而非仅仅死记硬背词元级的关联。
  4. 训练时推理: 预训练期间的内部推理过程使得模型能够为每个预测步骤分配更多“思考”或计算资源,这有助于提高下一词元预测准确性。

实验结果

论文通过实验验证了 RPT 的有效性:

  1. 语言建模性能: RPT 显著提高了下一词元预测的准确性。在 OmniMATH 数据集上,根据词元位置的难度划分,RPT-14B 在所有难度级别上都持续优于 R1-Distill-Qwen-14B。特别是在推理模式下,RPT-14B 的表现优于 R1-Distill-Qwen-14B 的标准预测和推理模式基线。甚至接近了更大模型 R1-Distill-Qwen-32B 的性能(见表 1 和图 4)。
EasyMediumHard
Standard next-token prediction
Qwen2.5-14B41.9030.0320.65
R1-Distill-Qwen-14B41.6029.4620.43
Next-token reasoning
R1-Distill-Qwen-14B3.311.661.41
RPT-14B45.1133.5623.75

表 1: 不同难度测试集上的下一词元预测准确性。

关键点: RPT 显著提高了下一词元预测准确性,尤其是在有挑战性的词元上。

  1. 规模化特性: RPT 的性能随着训练计算资源的增加而持续提升,表现出良好的规模化特性。通过幂律形式拟合(公式 5)验证了这一趋势(见图 5)。

P ( C ) = A C a + P ∗ P(C) = \frac{A}{C^a} + P^* P(C)=CaA+P

其中 P ( C ) P(C) P(C) 是验证集上的下一词元预测准确性, C C C 是训练计算资源, A , a , P ∗ A, a, P^* A,a,P 是估计参数。拟合曲线的高 R² 值表明其能准确捕捉性能趋势。

在这里插入图片描述

图 5: 强化预训练的下一词元预测准确性随训练计算资源增加而持续提升。

关键点: RPT 性能随训练计算资源增加而持续提升,展现出良好的规模化特性。

  1. RL 微调基础: RPT 为后续的强化学习微调提供了更强大的基础。在 RLVR 任务上的实验表明,经过 RPT 预训练的模型在进一步 RL 微调后能达到更高的性能上限,优于仅通过标准下一词元目标持续预训练的模型(见表 2)。
Before RLAfter RL
R1-Distill-Qwen-14B51.252.7
+ Continual NTP training10.713.0
RPT-14B56.358.3

表 2: 不同模型的强化学习微调性能。

关键点: RPT 为后续强化学习微调提供了更强大的预训练基础。

  1. 零样本任务性能: RPT 增强了模型在通用下游任务上的零样本性能。在 SuperGPQA 和 MMLU-Pro 等基准测试上,RPT-14B 在推理模式下持续优于基线模型(包括更大的 R1-Distill-Qwen-32B 的标准下一词元预测性能)(见表 3)。
SuperGPQAMMLU-Pro
Standard next-token prediction mode
R1-Distill-Qwen-14B32.048.4
R1-Distill-Qwen-32B37.256.5
Reasoning mode
R1-Distill-Qwen14B36.168.9
RPT-14B39.071.1

表 3: 通用领域零样本任务性能。

关键点: RPT 提升了模型在通用下游任务上的零样本性能

  1. 推理模式分析: RPT 训练的模型展现出与结构化问题解决不同的推理模式。例如,RPT-14B 在下一词元推理中更多使用了假设生成和演绎推理,而不是像解决问题时那样侧重分解问题(见图 6 和表 9)。这表明 RPT 能够诱导更具推断性的过程。

在这里插入图片描述

图 6: R1-Distill-Qwen-14B 在问题解决和 RPT-14B 在下一词元推理中使用的推理模式统计。

Pattern GroupKeywords
Transitionalternatively, think differently
Reflectionwait, initial answer, original answer, looking back, thought process
Breakdownbreak down, break this down
Hypothesisprobably, something like
Divergent Thinkingetc., or something, either, sometimes it refers, otherwise, exploring, options
Deductionsummarize, conclusion, conclude, finally, logically, consequently

表 9: 推理模式分组及关键词。

关键点: RPT 鼓励更具推断性的推理模式

贡献总结

这篇论文的主要贡献可以总结为:

  • 引入了强化预训练 (RPT),这是一个将下一词元预测重塑为基于强化学习的推理任务的新范式,利用了直接从预训练语料库中获得的内在可验证奖励
  • RPT 提供了一种可规模化且通用的 RL 预训练方法,通过基于规则的奖励最小化奖励欺骗,并通过鼓励下一词元推理模式促进泛化
  • RPT 显著提高了下一词元预测准确性并展现出良好的规模化特性,性能随训练计算资源的增加而持续提升。
  • RPT 为后续的强化学习微调提供了更强大的预训练基础,并增强了各种下游任务的零样本性能。

结论与未来工作

强化预训练 (RPT) 为大型语言模型的预训练提供了一个新颖且有前景的方向。通过将下一词元预测框定为一个可验证的推理任务并应用基于正确性的强化学习,RPT 使 LLMs 能够在预训练期间利用扩展的计算资源来构建更强的基础推理能力。实验证明了 RPT 在提高下一词元预测准确性、增强零样本性能以及为后续 RL 微调提供更好起点方面的有效性。

尽管如此,RPT 的初步探索也存在一些限制,例如主要使用了数学领域的语料库,并且预训练是从一个具备基础推理能力的模型初始化的。未来的工作可以进一步探索在更广泛的通用领域文本上的有效性,并研究从标准基础语言模型进行 RPT 训练的影响。

未来的方向包括:扩大训练语料库的大小和领域覆盖;增加训练计算资源以推进性能边界;建立强化预训练的规模化法则;以及探索将混合思维与 RPT 相结合,以实现细粒度的自适应推理。

Reference

https://www.arxiv.org/pdf/2506.08007

http://www.dtcms.com/wzjs/601797.html

相关文章:

  • 在线用代码做网站事业单位建立网站
  • 网站建设 徐州蓬莱市建设局网站
  • 旅游网站设计图wordpress用户注册邮件验证
  • 网站怎么做推广门户网站建设公司
  • 外贸高端网站开发南通企业自助建站
  • 网站规划建设前期规划方案电商网站怎么做推广
  • 做网站域名费向哪里交广州网站建设信科分公司
  • 大连网络营销网站潍坊住房和城乡建设厅网站
  • 网站客户运营织梦网站模版下载
  • 珠海网站管理公司中山视角做网站的公司
  • 台州市知名专业做网站做企业信用贷的网站
  • 怎么推广我的网站吗搭建wordpress需要php环境吗
  • 梅州建站联系方式内蒙古城乡建设厅网站资质公告
  • 西安至诚网站建设做网站客户总是要退款
  • 怎样建立微网站凡科快图在线
  • 网站自己做还是用程序WordPress怎样创建登录页面
  • 做网站需要用什么技术网站建设一般要多大空间
  • 深圳seo网站排名优化小程序一般用什么语言开发
  • 杭州网企业网站建设高性能网站建设指南pdf
  • 东莞住房和城乡建设网佛山百度关键词seo外包
  • 做优惠券网站要多少钱中山百度推广公司
  • 网站 域名 授权服务器 分布式黑龙江省关于城市建设政策网站
  • 潍坊建设gc局网站杭州做企业网站的公司
  • 企业做网站 乐云seo大学生电商创业项目
  • 智能手机网站模板网络设计应该考虑的原则有哪些
  • 厦门中国建设银行招聘信息网站app开发公司网站
  • php视频网站开发广州网站设计成功柚米科技
  • 赫章县网站建设西安网站建设动力无限
  • 怀仁有做网站的公司吗企业网络规划和设计方案
  • 山东专业网站建设在线安卓软件开发