当前位置: 首页 > wzjs >正文

松岗网站建设怎么做网站推广多少钱

松岗网站建设,怎么做网站推广多少钱,软装设计公司网站,赣州网络公司大型语言模型 (LLMs) 的惊人能力很大程度上归功于在海量文本语料库上进行下一词元预测 (Next-Token Prediction, NTP) 的规模化训练。与此同时,强化学习 (Reinforcement Learning, RL) 已成为微调 LLMs、使其与人类偏好对齐或增强特定技能(如复杂推理&am…

大型语言模型 (LLMs) 的惊人能力很大程度上归功于在海量文本语料库上进行下一词元预测 (Next-Token Prediction, NTP) 的规模化训练。与此同时,强化学习 (Reinforcement Learning, RL) 已成为微调 LLMs、使其与人类偏好对齐或增强特定技能(如复杂推理)的强大技术。然而,当前的 RL 应用面临规模化和泛化挑战。RLHF (基于人类反馈的强化学习) 依赖昂贵的人类标注数据,且易受奖励欺骗 (reward hacking)。RLVR (基于可验证奖励的强化学习) 虽然减轻了奖励欺骗,但通常受限于带有可验证答案的标注数据稀缺性,难以泛化到通用预训练。为此研究者提出了强化学习预训练。

论文地址:https://www.arxiv.org/pdf/2506.08007

这篇论文引入了强化预训练 (Reinforcement Pre-Training, RPT),这是一个连接可规模化的自监督预训练和 RL 强大能力的新范式。

核心思想:将下一词元预测重塑为推理任务

RPT 的核心思想是,将基础的下一词元预测任务重新定义为一个下一词元推理过程。对于预训练语料库中的任何给定上下文,模型被激励在预测下一个词元之前进行推理。模型会根据其对下一个词元的预测是否正确获得一个可验证的内在奖励,这个奖励直接来源于语料库中的真实下一词元。

这就像从只追求做出美味的“樱桃顶蛋糕”(仅预测下一词元)转变为制作美味的“樱桃蛋糕”(通过推理来预测下一词元)(如图 1 所示)。
在这里插入图片描述

图 1: 强化预训练 (RPT) 将下一词元预测重塑为推理任务。

在标准的下一词元预测中,模型直接估计下一个词元。而在下一词元推理中(如图 2 所示),模型在预测之前会生成一个思维链 (chain-of-thought)

在这里插入图片描述

图 2: 标准下一词元预测与下一词元推理的对比。

标准的下一词元预测目标是最大化给定上下文下真实下一词元的对数概率:

I N T P ( θ ) = ∑ t = 1 T log ⁡ P ( x t ∣ x 0 , x 1 , . . . , x t − 1 ; θ ) I_{NTP}(\theta) = \sum_{t=1}^{T} \log P(x_t | x_0, x_1, ..., x_{t-1}; \theta) INTP(θ)=t=1TlogP(xtx0,x1,...,xt1;θ)

其中 θ \theta θ 代表语言模型的参数, x 0 , . . . , x T x_0, ..., x_T x0,...,xT 是训练语料库中的序列。

在 RPT 中,模型 π θ \pi_\theta πθ 接收上下文 x < t x_{<t} x<t 后,生成包含思维链 c t c_t ct 和最终预测 y t y_t yt 的响应 o t = ( c t , y t ) o_t = (c_t, y_t) ot=(ct,yt)。奖励 r r r 的设定是基于预测 y y y 是否精确匹配真实后续序列 x > t x_{>t} x>t 的某个有效词元边界前缀(如图 3 所示):

在这里插入图片描述

图 3: 强化预训练过程示意图。

形式上,对于第 i 个输出 o i = ( c i , y i ) o_i = (c_i, y_i) oi=(ci,yi),奖励 r i r_i ri 定义为:

r i = { 1 if  y i = x > t [ 1 : l ] and  l ∈ L g t 0 otherwise r_i = \begin{cases} 1 & \text{if } y_i = x_{>t}[1:l] \text{ and } l \in \mathcal{L}_{gt} \\ 0 & \text{otherwise} \end{cases} ri={10if yi=x>t[1:l] and lLgtotherwise

其中 y i y_i yi 是预测的字节序列, x > t x_{>t} x>t 是真实后续序列的字节序列, l l l y i y_i yi 的字节长度, L g t \mathcal{L}_{gt} Lgt 是真实后续序列中词元的累积字节长度边界集合。如果预测的字节序列是真实后续序列的一个精确前缀且长度匹配某个有效词元边界,则奖励为 1,否则为 0。

模型训练的目标是最大化期望奖励:

J R P T ( θ ) = E ( x < t , x > t ) ∼ D , o ∼ π θ ( ⋅ ∣ x < t ) [ r ] J_{RPT}(\theta) = E_{(x_{<t}, x_{>t}) \sim \mathcal{D}, o \sim \pi_\theta(\cdot|x_{<t})} [r] JRPT(θ)=E(x<t,x>t)D,oπθ(x<t)[r]

其中 D \mathcal{D} D 是所有上下文-后续序列对的集合。

这种方法将海量的未标注文本数据转化为通用 RL 的大规模数据集,而无需外部标注。

RPT 的优势

RPT 提供了几个关键优势:

  1. 规模化和通用性: RPT 利用用于标准下一词元预测的未标注文本数据,将其转化为通用的 RL 数据集,无需外部标注。
  2. 最小化奖励欺骗: 使用直接的、基于规则的奖励信号(即预测下一个词元的正确性)能有效最小化复杂学习奖励模型常伴随的奖励欺骗风险。
  3. 促进理解和泛化: 通过明确鼓励下一词元推理模式,RPT 促进更深入的理解和泛化,而非仅仅死记硬背词元级的关联。
  4. 训练时推理: 预训练期间的内部推理过程使得模型能够为每个预测步骤分配更多“思考”或计算资源,这有助于提高下一词元预测准确性。

实验结果

论文通过实验验证了 RPT 的有效性:

  1. 语言建模性能: RPT 显著提高了下一词元预测的准确性。在 OmniMATH 数据集上,根据词元位置的难度划分,RPT-14B 在所有难度级别上都持续优于 R1-Distill-Qwen-14B。特别是在推理模式下,RPT-14B 的表现优于 R1-Distill-Qwen-14B 的标准预测和推理模式基线。甚至接近了更大模型 R1-Distill-Qwen-32B 的性能(见表 1 和图 4)。
EasyMediumHard
Standard next-token prediction
Qwen2.5-14B41.9030.0320.65
R1-Distill-Qwen-14B41.6029.4620.43
Next-token reasoning
R1-Distill-Qwen-14B3.311.661.41
RPT-14B45.1133.5623.75

表 1: 不同难度测试集上的下一词元预测准确性。

关键点: RPT 显著提高了下一词元预测准确性,尤其是在有挑战性的词元上。

  1. 规模化特性: RPT 的性能随着训练计算资源的增加而持续提升,表现出良好的规模化特性。通过幂律形式拟合(公式 5)验证了这一趋势(见图 5)。

P ( C ) = A C a + P ∗ P(C) = \frac{A}{C^a} + P^* P(C)=CaA+P

其中 P ( C ) P(C) P(C) 是验证集上的下一词元预测准确性, C C C 是训练计算资源, A , a , P ∗ A, a, P^* A,a,P 是估计参数。拟合曲线的高 R² 值表明其能准确捕捉性能趋势。

在这里插入图片描述

图 5: 强化预训练的下一词元预测准确性随训练计算资源增加而持续提升。

关键点: RPT 性能随训练计算资源增加而持续提升,展现出良好的规模化特性。

  1. RL 微调基础: RPT 为后续的强化学习微调提供了更强大的基础。在 RLVR 任务上的实验表明,经过 RPT 预训练的模型在进一步 RL 微调后能达到更高的性能上限,优于仅通过标准下一词元目标持续预训练的模型(见表 2)。
Before RLAfter RL
R1-Distill-Qwen-14B51.252.7
+ Continual NTP training10.713.0
RPT-14B56.358.3

表 2: 不同模型的强化学习微调性能。

关键点: RPT 为后续强化学习微调提供了更强大的预训练基础。

  1. 零样本任务性能: RPT 增强了模型在通用下游任务上的零样本性能。在 SuperGPQA 和 MMLU-Pro 等基准测试上,RPT-14B 在推理模式下持续优于基线模型(包括更大的 R1-Distill-Qwen-32B 的标准下一词元预测性能)(见表 3)。
SuperGPQAMMLU-Pro
Standard next-token prediction mode
R1-Distill-Qwen-14B32.048.4
R1-Distill-Qwen-32B37.256.5
Reasoning mode
R1-Distill-Qwen14B36.168.9
RPT-14B39.071.1

表 3: 通用领域零样本任务性能。

关键点: RPT 提升了模型在通用下游任务上的零样本性能

  1. 推理模式分析: RPT 训练的模型展现出与结构化问题解决不同的推理模式。例如,RPT-14B 在下一词元推理中更多使用了假设生成和演绎推理,而不是像解决问题时那样侧重分解问题(见图 6 和表 9)。这表明 RPT 能够诱导更具推断性的过程。

在这里插入图片描述

图 6: R1-Distill-Qwen-14B 在问题解决和 RPT-14B 在下一词元推理中使用的推理模式统计。

Pattern GroupKeywords
Transitionalternatively, think differently
Reflectionwait, initial answer, original answer, looking back, thought process
Breakdownbreak down, break this down
Hypothesisprobably, something like
Divergent Thinkingetc., or something, either, sometimes it refers, otherwise, exploring, options
Deductionsummarize, conclusion, conclude, finally, logically, consequently

表 9: 推理模式分组及关键词。

关键点: RPT 鼓励更具推断性的推理模式

贡献总结

这篇论文的主要贡献可以总结为:

  • 引入了强化预训练 (RPT),这是一个将下一词元预测重塑为基于强化学习的推理任务的新范式,利用了直接从预训练语料库中获得的内在可验证奖励
  • RPT 提供了一种可规模化且通用的 RL 预训练方法,通过基于规则的奖励最小化奖励欺骗,并通过鼓励下一词元推理模式促进泛化
  • RPT 显著提高了下一词元预测准确性并展现出良好的规模化特性,性能随训练计算资源的增加而持续提升。
  • RPT 为后续的强化学习微调提供了更强大的预训练基础,并增强了各种下游任务的零样本性能。

结论与未来工作

强化预训练 (RPT) 为大型语言模型的预训练提供了一个新颖且有前景的方向。通过将下一词元预测框定为一个可验证的推理任务并应用基于正确性的强化学习,RPT 使 LLMs 能够在预训练期间利用扩展的计算资源来构建更强的基础推理能力。实验证明了 RPT 在提高下一词元预测准确性、增强零样本性能以及为后续 RL 微调提供更好起点方面的有效性。

尽管如此,RPT 的初步探索也存在一些限制,例如主要使用了数学领域的语料库,并且预训练是从一个具备基础推理能力的模型初始化的。未来的工作可以进一步探索在更广泛的通用领域文本上的有效性,并研究从标准基础语言模型进行 RPT 训练的影响。

未来的方向包括:扩大训练语料库的大小和领域覆盖;增加训练计算资源以推进性能边界;建立强化预训练的规模化法则;以及探索将混合思维与 RPT 相结合,以实现细粒度的自适应推理。

Reference

https://www.arxiv.org/pdf/2506.08007

http://www.dtcms.com/wzjs/397738.html

相关文章:

  • 如何修改网站后台代码关键词优化营销
  • 东莞设计企业网站的有哪些成都seo优化推广
  • 用vs做音乐网站seo排名系统
  • .net core 做网站学网络运营在哪里学比较好
  • 网站维护费怎么做会计分录seo关键词排名优化
  • 网站改标题降权seo销售好做吗
  • 南京网站开发南京乐识正规搜索引擎优化策略包括
  • 做网站准备的资料优化步骤
  • 什么是网站建设的三次点击原则公司网站开发费用
  • 网站建设项目国内外分析报告年度关键词
  • 长沙制作网站公司吗怎么看百度关键词的搜索量
  • 深圳市营销型网站建设销售课程培训视频教程
  • 海口网站建设方案报价优化大师的优化项目有哪7个
  • 网上做分销代销哪个网站好优化方案的格式及范文
  • 桐梓县工程建设交易网站seo公司优化排名
  • 音频网站模板提升seo排名
  • 影院wordpress主题班级优化大师的功能有哪些
  • 支付网站怎么做广告投放公司
  • 唐山彩钢中企动力提供网站建设aso具体优化
  • 网上机械加工接单平台哪个好seo引擎搜索网站关键词
  • 网站运营管理主要内容统计工具
  • 学做烘焙的网站如何开通自己的网站
  • 外国优秀设计网站推荐商业推广软文范例
  • 网站备案成功后怎么操作seo的基本步骤顺序正确的是
  • 整形网站整站源码舆情网站直接打开怎么弄
  • 网站建设费记入科目百度指数网址
  • ps做游戏网站中国seo公司
  • 深圳网站设计 三把火科技今天国际新闻大事
  • 设计师参考效果图网站关键词优化一年的收费标准
  • 菏泽 做网站 多少钱专业seo整站优化