当前位置: 首页 > news >正文

【AI论文】基于反射生成模型的测试时动态缩放方法

摘要:我们推出首个反射生成模型 MetaStone-S1,其通过自监督过程奖励模型(SPRM)实现了与 OpenAI o3 相当的性能。通过共享主干网络,并分别采用任务特定头部实现下一标记预测过程评分,SPRM 成功将策略模型与过程奖励模型(PRM)集成于统一接口,且无需额外过程标注,使 PRM 参数减少超 99%,显著提升推理效率。得益于 SPRM 的设计,MetaStone-S1 天然适配测试时动态缩放(TTS),并基于可控思考长度提供三种推理强度模式(低、中、高)。此外,我们通过实证研究揭示了总思考计算量与 TTS 性能之间的缩放规律。实验表明,参数规模仅 320 亿的 MetaStone-S1 即可达到与 OpenAI-o3-mini 系列相当的性能。为推动社区研究,我们已将 MetaStone-S1 开源至:https://github.com/MetaStone-AI/MetaStone-S1。Huggingface链接:Paper page,论文链接:2507.01951

研究背景和目的

研究背景

近年来,大型语言模型(LLMs)在自然语言理解和生成领域取得了显著进展,推动了诸如OpenAI的GPT-4、Google的Gemini、Meta的LLaMA系列、阿里巴巴的Qwen和DeepSeek的R1等先进模型的出现。这些模型通过创新的架构和训练技术,能够处理和生成多种格式的内容。特别是OpenAI的o3模型,通过测试时缩放(Test-Time Scaling, TTS)技术,如大规模采样、候选评分和多推理路径搜索,实现了在推理基准测试中的接近人类水平的性能。

然而,现有的TTS方法主要分为内部TTS和外部TTS两类。内部TTS(如DeepSeek R1)通过长链式思考(Long-CoT)生成答案,但可能受到“过度思考”的影响,导致性能下降。外部TTS(如Best-of-N采样、波束搜索和多样验证树搜索)则通过辅助奖励模型(如过程奖励模型,PRM)选择高质量的推理轨迹,但依赖于大规模的过程级标注数据,且训练成本高昂。

研究目的

本研究旨在解决现有TTS方法中的两个主要问题:

  1. 外部计算开销大:PRM包含与策略模型(LLM)独立的参数,增加了额外的计算负担。
  2. 标注数据昂贵:PRM的训练需要大规模的过程级标注数据,难以获取。

为此,研究提出了一种新的反射生成形式(Reflective Generative Form),通过共享策略模型和PRM的主干网络,并使用自监督过程奖励模型(SPRM),实现了高效的推理轨迹选择。基于这一形式,研究进一步提出了MetaStone-S1模型,该模型在仅320亿参数规模下,实现了与OpenAI o3-mini系列相当的性能。

二、研究方法

1. 反射生成形式(Reflective Generative Form)

反射生成形式通过共享策略模型和PRM的主干网络,并使用任务特定头部进行推理轨迹预测和评分,实现了参数的高效利用。具体来说:

  • 统一接口:策略模型和SPRM共享同一主干网络,SPRM通过轻量级头部对推理轨迹进行评分。
  • 自监督训练:SPRM仅使用最终答案标签进行优化,避免了过程级标注的需求。

2. 自监督过程奖励模型(SPRM)

SPRM通过自监督学习,仅使用最终答案的正确性来优化推理轨迹的选择。具体方法包括:

  • 步骤分割:使用模型自带的标记器将推理轨迹分割成离散的步骤。
  • 轨迹评分预测:基于步骤标记的隐藏表示,使用SPRM头部预测每个步骤的过程分数,并通过几何平均计算整个推理轨迹的最终分数。

3. 优化方法

  • 策略模型优化:采用组相对策略优化(GRPO)方法。
  • SPRM优化:提出自监督过程奖励损失(SPR Loss),仅基于最终答案的正确性来优化SPRM。

4. 推理方法

在推理阶段,MetaStone-S1通过以下步骤选择高质量的推理轨迹:

  1. 采样:策略模型生成多个推理轨迹作为候选。
  2. 评分:SPRM对每个推理轨迹的步骤进行评分,并计算最终分数。
  3. 选择:选择最终分数最高的推理轨迹,指导策略模型生成答案。

三、研究结果

1. 性能比较

  • 数学推理任务:在AIME2024和AIME2025基准测试中,MetaStone-S1-32B模型分别达到了85.2%和73.6%的准确率,优于大多数开源模型,并与OpenAI o3-mini系列相当。
  • 编程任务:在LiveCodeBench基准测试中,MetaStone-S1-32B模型达到了64.2%的准确率,优于其他320亿参数规模的模型。
  • 中文推理任务:在C-Eval基准测试中,MetaStone-S1-32B模型达到了89.7%的准确率,优于大多数开源模型,并与OpenAI o3-mini系列相当。

2. 缩放规律

研究发现,MetaStone-S1的性能与计算预算(参数规模与推理标记数的乘积)呈对数正相关。当推理长度扩展到基线的32倍以上时,性能提升逐渐减缓。

3. “顿悟时刻”(Aha Moment)

研究观察到,在训练过程中存在一个“顿悟时刻”,此时模型开始能够基于推理内容判断正确性,正确与错误推理轨迹的评分差距逐渐扩大。

4. 消融研究

  • SPRM的有效性:仅使用少量额外参数(如500万至5300万)的SPRM,性能优于使用720亿参数的独立PRM。
  • 自监督优化的有效性:与使用最终答案正确性作为过程级监督的BCELoss相比,SPRLoss在区分正确与错误推理轨迹方面表现出更强的判别能力。

四、研究局限

1. 额外超参数引入

研究提出的反射生成形式引入了额外的超参数r_min,其最优选择可能因概念而异。虽然设置r_min为全排名的50%在大多数情况下表现良好,但不同概念的最优选择可能有所不同。

2. 训练时间增加

使用SVD初始化权重虽然提高了模型的稳定性和性能,但也增加了时间和计算开销。与标准LoRA初始化相比,SVD初始化需要更多的计算资源。

3. 模型规模限制

虽然MetaStone-S1在320亿参数规模下实现了与OpenAI o3-mini相当的性能,但在更大规模模型上的表现尚未充分验证。

4. 评估基准有限

目前的研究主要在数学推理、编程和中文推理任务上进行了评估,对于其他类型的复杂推理任务(如科学推理、常识推理等)的评估尚不充分。

五、未来研究方向

1. 探索更高效的推理轨迹选择方法

进一步研究如何在不显著增加计算成本的情况下,提高推理轨迹选择的准确性和效率。例如,可以探索基于强化学习的更高效搜索策略,或结合其他类型的奖励模型来优化推理过程。

2. 扩展评估基准

在更多类型的复杂推理任务上评估MetaStone-S1的性能,以验证其泛化能力。这包括科学推理、常识推理、多模态推理等领域。

3. 优化模型架构和训练方法

研究如何进一步优化模型架构和训练方法,以减少训练时间和计算开销。例如,可以探索更高效的权重初始化方法,或结合知识蒸馏等技术来压缩模型规模。

4. 结合其他先进技术

探索将MetaStone-S1与其他先进技术(如注意力机制、图神经网络等)相结合,以提高模型的推理能力和解释性。例如,可以引入图神经网络来更好地处理结构化数据,或结合注意力机制来提高模型对关键信息的关注能力。

5. 实际应用探索

将MetaStone-S1应用于实际场景中,如智能客服、自动驾驶、医疗诊断等领域,以验证其在实际应用中的有效性和可靠性。通过实际应用反馈,进一步优化模型性能和用户体验。

http://www.dtcms.com/a/283675.html

相关文章:

  • 【软件测试】软件测试分类与方法解析:目标到工具
  • HANA SQLScript中的变量类型汇总
  • 云原生环境下的安全控制框架设计
  • USB导出功能(QT)
  • Windows10笔记本电脑开启BIOS
  • 云手机网络加速全攻略:解决游戏卡顿与APP连接失败困扰
  • 玖[9],相机/镜头/光源
  • yolo位置损失中的权重项的作用是什么
  • YOLO融合[CVPR2025]EVSSM中的EDFFN模块
  • LeetCode20
  • 2D视觉系统标定流程与关键要求
  • 不同相机CMOS噪点对荧光计算的影响
  • 前端设计模式应用精析
  • Java零基础快速入门
  • Python应用指南:使用PyKrige包实现ArcGIS的克里金插值法
  • Ceph OSD.419 故障分析
  • git的cherry-pick
  • AI安全威胁之MCP Server投毒攻击实践
  • Git 多人协作实战:从基础操作到分支管理全流程记录
  • LiteSQL:让C++与数据库无缝对接的ORM利器
  • 物联网主机在化工园区安全风险智能化管控平台中的应用
  • 2025TGRS多尺度稀疏交叉注意力网络
  • 如何在PyCharm中删除虚拟环境
  • 建立框架思维
  • 锂电池制造行业MES特色解决方案:差异化生产管控与智能工厂实践
  • 深入理解Map.Entry.comparingByValue()和Map.Entry.comparingByKey()
  • Java中excel字典转换
  • Java 设计模式及应用场景
  • RocketMq集群高可用
  • ​​深入理解进程状态:从运行到僵尸​