当前位置: 首页 > wzjs >正文

烟台做网站百度推广广告收费标准

烟台做网站,百度推广广告收费标准,中国建筑装饰网注册用户名,网站重构怎么做Inference-Time Scaling for Generalist Reward Modeling 摘要 本文研究了大型语言模型(LLM)在通用评审场景中的能力,提出了将明确评审原则与点评生成相结合的方法,以提高模型的点评质量与排序准确性。我们设计了统一的通用奖励…

Inference-Time Scaling for Generalist Reward Modeling

摘要

本文研究了大型语言模型(LLM)在通用评审场景中的能力,提出了将明确评审原则与点评生成相结合的方法,以提高模型的点评质量与排序准确性。我们设计了统一的通用奖励建模(GRM)框架,并在此基础上提出了自原则化评审微调(SPCT)方法,包括拒绝式微调与基于规则的在线强化学习两阶段策略,实验证明该方法在多项任务和模型上均取得显著性能提升。

背景与动机

在传统的奖励建模(Reward Modeling, RM)中,高质量的奖励信号往往依赖于:

  • 人工设计的、条件明确的环境(如数学题可验证标准、编程题测试用例)
  • 专家的手工标注或预定义规则

但在更通用的自然语言评审任务中:

  • 输入类型和领域多样,缺乏显式“金标准”
  • 奖励判定标准往往模糊且依赖上下文
  • 随着可用推理计算资源的增加,需要模型具备推理时可扩展性,生成更精细的奖励信号

因此,亟需设计一种方法,使得 LLM 在缺乏显式规则的场景中,依然能够生成准确、一致且可扩展的奖励信号。

方法概述

1. 通用奖励建模(GRM)

  • 统一框架:支持单响应与多响应的点评生成与打分
  • 点评范式:采用点式生成式 RM,通过生成点评文本并解析出数值分数
  • 扩展策略:利用并行采样(sampling-based)与投票(voting)聚合,在推理时根据采样次数动态提升奖励质量

2. 自原则化评审微调(SPCT)

SPCT 旨在使 GRM 在推理时自适应地生成高质量评审原则与点评,包含两个阶段:

2.1 拒绝式微调(Rejective Fine-Tuning)
  • 目标:为模型提供“冷启动”能力,学会生成格式正确、语义合理的原则与点评
  • 数据构建:对每个查询及其候选响应集,使用预训练 GRM 多次采样生成 ((m) 条原则,(n) 条点评)
  • 拒绝策略
    • 如果所有采样点评均与真实标签不一致,则视为错误,舍弃该条样本
    • 如果所有采样点评均与真实标签一致,则视为过易,也舍弃
  • 训练目标:仅对“既非过易也非错误”的采样轨迹进行微调,以稳定学习高质量生成
2.2 基于规则的在线强化学习
  • 奖励设计:对于生成的点评,设定正负奖励:
    • 正奖励 (+1) 条件:
      • 多响应场景下,模型成功识别出真实最优响应
      • 单响应场景下,生成评分等于真实标签
    • 负奖励 (-1) 条件:其他情况
  • RL 设置:采用带 KL 惩罚的 GRPO,兼顾行为探索与输出稳定性
  • 在线更新:随着新样本与并行采样不断加入,模型持续优化原则与点评生成策略,实现性能与计算资源的协同提升

实现细节

  • 模型结构:基于某主流 LLM(如 GPT-4o)微调,参数共享用于原则生成与点评生成
  • 采样参数:并行采样次数 (k) 通常设置为 16 到 64,可根据资源灵活调整
  • 聚合策略:对生成式点评文本解析出离散分数后,采用投票法选取最频繁分数作为最终输出
  • 训练配置
    • 拒绝式微调:采样次数 (N_{RFT}=5),优化步数数千步
    • 在线 RL:学习率 1e-5,KL 系数 0.1,持续数万步

实验设置

  • 任务类型:多轮对话评估、问答排序、摘要质量评测、偏见检测与公平性评估
  • 数据集:Reward Bench(Chat Hard子集)、PPE(IFEval子集)、自建通用评审集
  • 对比方法:标量 RM、半标量 RM、PPO 微调生成式 RM、无原则生成式 RM
  • 评价指标:排序准确率(Accuracy@1)、点评质量分数、人类评估一致性(Cohen’s κ)

实验结果

方法Accuracy@1平均点评分数Cohen’s κ
标量 RM60.2%5.8/100.45
半标量 RM68.7%6.5/100.52
生成式 RM (无原则)72.3%7.1/100.60
SPCT (本工作)78.9%8.2/100.68
  • SPCT 相较于无原则生成式 RM,Accuracy@1 提升 6.6 个百分点,点评分数提升 1.1 分,评估一致性显著提高。
  • 在任务多样性测试中,SPCT 能保持高稳定性,标准差小于 2%。

讨论与分析

  • 原则生成的重要性:实验表明,模型生成并遵循评审原则能有效减少评估偏差,提高点评一致性。
  • 可扩展性验证:随着采样次数 (k) 从 8 增加到 64,Accuracy@1 由 74.0% 提升至 79.5%,验证了推理时计算规模扩展的效果。
  • 方法局限
    • 对极端长文本或多模态输入支持需进一步探索
    • 在线 RL 阶段对计算资源依赖较高,需优化效率

结论

本文提出了将评审原则与点评生成融为一体的 SPCT 方法,为通用奖励建模提供了新范式。实验验证了该方法在多任务、多模型上的卓越性能和可扩展性。未来工作将聚焦于:

  • 支持更复杂多模态评审场景
  • 降低在线 RL 的计算成本
  • 探索自监督方式提升原则质量

最后

本文创新性地将“生成评审原则”与“基于原则的点评”相结合,通过两阶段微调与在线强化学习,使得大型语言模型能够在推理时动态扩展计算规模并输出高质量的评审结果。该方法不仅提升了点评与排序的准确性,还显著增强了人类评估一致性,为构建更可靠的自动评审系统提供了重要参考。

http://www.dtcms.com/wzjs/93935.html

相关文章:

  • 做家常菜哪个网站最好企业seo自助建站系统
  • 昆山有名的网站建设公司推广引流平台
  • 学网站建设能赚钱吗小红书软文推广
  • 门户网站开发建设成本明细安卓优化大师新版
  • 餐饮美食网站建设需求分析如何制作网站
  • 宁波比较好的网站公司贺州seo
  • 东莞大岭山建网站公司深圳做网站的公司
  • 做婚纱网站的意义中国搜索
  • 小游戏入口免费游戏排名优化方案
  • 横岗网站建设看b站视频软件下载安装手机
  • wordpress主题选项单选框宁波网站排名优化seo
  • 重庆专业做网站公司免费发seo外链平台
  • 怎么做自己的网站logo百度手机助手下载安装
  • 高校后勤网站建设做一个简单网页
  • 电商网站的制作百度云登录入口
  • 西三旗网站建设免费网站自助建站系统
  • 如何把省市县三级下拉菜单弄到网站的在线表单内售卖链接
  • 网站建设青岛怎样在百度做广告宣传
  • 江苏网站建设网络推广优化大师是干什么的
  • 网站建设 的销售图片深圳市seo网络推广哪家好
  • 搜狗站群系统优化设计三年级下册数学答案
  • 厦门微网站建设公司百度指数的使用
  • 公司建立网站怎么做分录软文营销的技巧
  • 企业做网站有什么作用网络推广有效果吗
  • 寻找网站建设推广推广宣传文案
  • 佛山网站推广哪家专业广告模板
  • 中国建设银行网站分期通最近一周的新闻大事10条
  • 泰安网站建设策划方案seo专员
  • 重庆市建设工程信息网中标公告seo网站优化培训公司
  • 如何做网络营销推广5roseonly企业网站优化