当前位置: 首页 > wzjs >正文

电商网站运维怎么做google翻译

电商网站运维怎么做,google翻译,html5 房地产网站案例,中企动力科技有限公司Inference-Time Scaling for Generalist Reward Modeling 摘要 本文研究了大型语言模型(LLM)在通用评审场景中的能力,提出了将明确评审原则与点评生成相结合的方法,以提高模型的点评质量与排序准确性。我们设计了统一的通用奖励…

Inference-Time Scaling for Generalist Reward Modeling

摘要

本文研究了大型语言模型(LLM)在通用评审场景中的能力,提出了将明确评审原则与点评生成相结合的方法,以提高模型的点评质量与排序准确性。我们设计了统一的通用奖励建模(GRM)框架,并在此基础上提出了自原则化评审微调(SPCT)方法,包括拒绝式微调与基于规则的在线强化学习两阶段策略,实验证明该方法在多项任务和模型上均取得显著性能提升。

背景与动机

在传统的奖励建模(Reward Modeling, RM)中,高质量的奖励信号往往依赖于:

  • 人工设计的、条件明确的环境(如数学题可验证标准、编程题测试用例)
  • 专家的手工标注或预定义规则

但在更通用的自然语言评审任务中:

  • 输入类型和领域多样,缺乏显式“金标准”
  • 奖励判定标准往往模糊且依赖上下文
  • 随着可用推理计算资源的增加,需要模型具备推理时可扩展性,生成更精细的奖励信号

因此,亟需设计一种方法,使得 LLM 在缺乏显式规则的场景中,依然能够生成准确、一致且可扩展的奖励信号。

方法概述

1. 通用奖励建模(GRM)

  • 统一框架:支持单响应与多响应的点评生成与打分
  • 点评范式:采用点式生成式 RM,通过生成点评文本并解析出数值分数
  • 扩展策略:利用并行采样(sampling-based)与投票(voting)聚合,在推理时根据采样次数动态提升奖励质量

2. 自原则化评审微调(SPCT)

SPCT 旨在使 GRM 在推理时自适应地生成高质量评审原则与点评,包含两个阶段:

2.1 拒绝式微调(Rejective Fine-Tuning)
  • 目标:为模型提供“冷启动”能力,学会生成格式正确、语义合理的原则与点评
  • 数据构建:对每个查询及其候选响应集,使用预训练 GRM 多次采样生成 ((m) 条原则,(n) 条点评)
  • 拒绝策略
    • 如果所有采样点评均与真实标签不一致,则视为错误,舍弃该条样本
    • 如果所有采样点评均与真实标签一致,则视为过易,也舍弃
  • 训练目标:仅对“既非过易也非错误”的采样轨迹进行微调,以稳定学习高质量生成
2.2 基于规则的在线强化学习
  • 奖励设计:对于生成的点评,设定正负奖励:
    • 正奖励 (+1) 条件:
      • 多响应场景下,模型成功识别出真实最优响应
      • 单响应场景下,生成评分等于真实标签
    • 负奖励 (-1) 条件:其他情况
  • RL 设置:采用带 KL 惩罚的 GRPO,兼顾行为探索与输出稳定性
  • 在线更新:随着新样本与并行采样不断加入,模型持续优化原则与点评生成策略,实现性能与计算资源的协同提升

实现细节

  • 模型结构:基于某主流 LLM(如 GPT-4o)微调,参数共享用于原则生成与点评生成
  • 采样参数:并行采样次数 (k) 通常设置为 16 到 64,可根据资源灵活调整
  • 聚合策略:对生成式点评文本解析出离散分数后,采用投票法选取最频繁分数作为最终输出
  • 训练配置
    • 拒绝式微调:采样次数 (N_{RFT}=5),优化步数数千步
    • 在线 RL:学习率 1e-5,KL 系数 0.1,持续数万步

实验设置

  • 任务类型:多轮对话评估、问答排序、摘要质量评测、偏见检测与公平性评估
  • 数据集:Reward Bench(Chat Hard子集)、PPE(IFEval子集)、自建通用评审集
  • 对比方法:标量 RM、半标量 RM、PPO 微调生成式 RM、无原则生成式 RM
  • 评价指标:排序准确率(Accuracy@1)、点评质量分数、人类评估一致性(Cohen’s κ)

实验结果

方法Accuracy@1平均点评分数Cohen’s κ
标量 RM60.2%5.8/100.45
半标量 RM68.7%6.5/100.52
生成式 RM (无原则)72.3%7.1/100.60
SPCT (本工作)78.9%8.2/100.68
  • SPCT 相较于无原则生成式 RM,Accuracy@1 提升 6.6 个百分点,点评分数提升 1.1 分,评估一致性显著提高。
  • 在任务多样性测试中,SPCT 能保持高稳定性,标准差小于 2%。

讨论与分析

  • 原则生成的重要性:实验表明,模型生成并遵循评审原则能有效减少评估偏差,提高点评一致性。
  • 可扩展性验证:随着采样次数 (k) 从 8 增加到 64,Accuracy@1 由 74.0% 提升至 79.5%,验证了推理时计算规模扩展的效果。
  • 方法局限
    • 对极端长文本或多模态输入支持需进一步探索
    • 在线 RL 阶段对计算资源依赖较高,需优化效率

结论

本文提出了将评审原则与点评生成融为一体的 SPCT 方法,为通用奖励建模提供了新范式。实验验证了该方法在多任务、多模型上的卓越性能和可扩展性。未来工作将聚焦于:

  • 支持更复杂多模态评审场景
  • 降低在线 RL 的计算成本
  • 探索自监督方式提升原则质量

最后

本文创新性地将“生成评审原则”与“基于原则的点评”相结合,通过两阶段微调与在线强化学习,使得大型语言模型能够在推理时动态扩展计算规模并输出高质量的评审结果。该方法不仅提升了点评与排序的准确性,还显著增强了人类评估一致性,为构建更可靠的自动评审系统提供了重要参考。


文章转载自:

http://9OrnQBMX.rxxdk.cn
http://acHjAl0F.rxxdk.cn
http://ORbMOf5e.rxxdk.cn
http://nJbqq6YY.rxxdk.cn
http://mwEm5ym4.rxxdk.cn
http://vaOj7glS.rxxdk.cn
http://WV00apEy.rxxdk.cn
http://KRbJEFdG.rxxdk.cn
http://ummdglAF.rxxdk.cn
http://cwcgQtOR.rxxdk.cn
http://aUSXxGei.rxxdk.cn
http://dRaOikhB.rxxdk.cn
http://mfACP4pV.rxxdk.cn
http://ABKovj8z.rxxdk.cn
http://MmChCqXj.rxxdk.cn
http://Fxw4KfYC.rxxdk.cn
http://STsThqvT.rxxdk.cn
http://MMWr4qvr.rxxdk.cn
http://NUWB4wQY.rxxdk.cn
http://pEuszJrl.rxxdk.cn
http://6mdT8dQa.rxxdk.cn
http://k0LXp6jE.rxxdk.cn
http://lClzNGNM.rxxdk.cn
http://wj6zseiA.rxxdk.cn
http://Oi0XkYSe.rxxdk.cn
http://kIGHw4ZG.rxxdk.cn
http://kjn4ZwuY.rxxdk.cn
http://xTm2RmaT.rxxdk.cn
http://xIvkEr6x.rxxdk.cn
http://vbBGXTI7.rxxdk.cn
http://www.dtcms.com/wzjs/624233.html

相关文章:

  • 浅谈海尔的电子商务网站建设江苏建湖网站建设
  • 中国建设部官方网站证件查询网页搜索屏蔽广告
  • 邢台织梦模板建站百度搜索引擎关键词
  • 承德手机网站建设想用自己电脑做服务器做个网站
  • 网站建设公司怎么挣钱商赢网站建设
  • 深圳网站建设网页制作前端培训班一般多少钱
  • c2c网站有哪些做网站和SSH
  • iis架设网站教程织梦网站栏目调用
  • .net网站开发代码问答类网站怎么做
  • 公司在网上做网站怎么做账网络营销案例分享
  • 哪里有做效果图的网站邢台人才网官网首页
  • 自己做网站排名好吗网站的主题
  • 做网站接广告怎么用壳域名做网站
  • 个人视频网站注册平台4G访问wordpress
  • 什么类型客户做网站网站怎么百度收录
  • 建设银行招聘网站天津住房与城乡建设厅网站
  • 广州互联网网站建设php网站开发实例教程作业
  • 好创意的设计网站租用服务器做视频网站
  • 北戴河网站建设建设网站那些公司好
  • 莱阳网站定制做欧洲电商看哪个网站吗
  • 广告公司网站设计策划网站建设创业项目简介
  • sem分析是什么意思windows优化大师要会员
  • 网站验收流程计算机专业学什么好
  • 国外好的室内设计网站做网站送的小程序有什么用
  • nas做网站需要备案吗二级网站建设与管理会议
  • 网站信息发布和内容建设自查报告设计公司logo图片
  • 河北省建设招标网站wordpress高级培训
  • 哪个做砍价活动的网站好wordpress全端美化
  • 扬州市广陵区建设局网站插件 wordpress开发教程
  • 简洁的企业网站源码仿克米设计网站