当前位置：首页 > wzjs >正文

烟台做网站百度推广广告收费标准

wzjs 2025/7/26 0:16:56

烟台做网站,百度推广广告收费标准,中国建筑装饰网注册用户名,网站重构怎么做Inference-Time Scaling for Generalist Reward Modeling 摘要本文研究了大型语言模型（LLM）在通用评审场景中的能力，提出了将明确评审原则与点评生成相结合的方法，以提高模型的点评质量与排序准确性。我们设计了统一的通用奖励…

Inference-Time Scaling for Generalist Reward Modeling

摘要

本文研究了大型语言模型（LLM）在通用评审场景中的能力，提出了将明确评审原则与点评生成相结合的方法，以提高模型的点评质量与排序准确性。我们设计了统一的通用奖励建模（GRM）框架，并在此基础上提出了自原则化评审微调（SPCT）方法，包括拒绝式微调与基于规则的在线强化学习两阶段策略，实验证明该方法在多项任务和模型上均取得显著性能提升。

背景与动机

在传统的奖励建模（Reward Modeling, RM）中，高质量的奖励信号往往依赖于：

人工设计的、条件明确的环境（如数学题可验证标准、编程题测试用例）
专家的手工标注或预定义规则

但在更通用的自然语言评审任务中：

输入类型和领域多样，缺乏显式“金标准”
奖励判定标准往往模糊且依赖上下文
随着可用推理计算资源的增加，需要模型具备推理时可扩展性，生成更精细的奖励信号

因此，亟需设计一种方法，使得 LLM 在缺乏显式规则的场景中，依然能够生成准确、一致且可扩展的奖励信号。

方法概述

1. 通用奖励建模（GRM）

统一框架：支持单响应与多响应的点评生成与打分
点评范式：采用点式生成式 RM，通过生成点评文本并解析出数值分数
扩展策略：利用并行采样（sampling-based）与投票（voting）聚合，在推理时根据采样次数动态提升奖励质量

2. 自原则化评审微调（SPCT）

SPCT 旨在使 GRM 在推理时自适应地生成高质量评审原则与点评，包含两个阶段：

2.1 拒绝式微调（Rejective Fine-Tuning）

目标：为模型提供“冷启动”能力，学会生成格式正确、语义合理的原则与点评
数据构建：对每个查询及其候选响应集，使用预训练 GRM 多次采样生成 ((m) 条原则，(n) 条点评)
拒绝策略：
- 如果所有采样点评均与真实标签不一致，则视为错误，舍弃该条样本
- 如果所有采样点评均与真实标签一致，则视为过易，也舍弃
训练目标：仅对“既非过易也非错误”的采样轨迹进行微调，以稳定学习高质量生成

2.2 基于规则的在线强化学习

奖励设计：对于生成的点评，设定正负奖励：
- 正奖励 (+1) 条件：
  - 多响应场景下，模型成功识别出真实最优响应
  - 单响应场景下，生成评分等于真实标签
- 负奖励 (-1) 条件：其他情况
RL 设置：采用带 KL 惩罚的 GRPO，兼顾行为探索与输出稳定性
在线更新：随着新样本与并行采样不断加入，模型持续优化原则与点评生成策略，实现性能与计算资源的协同提升