当前位置：首页 > news >正文

RL + LLM 强化学习 + 大模型微调（PPO + GRPO）

news 2025/10/29 9:03:44

0. 大模型微调与强化学习基础

1. PPO（Proximal Policy Optimization）近端策略优化

1.1 A2C潜在的不稳定因素 & 解决措施

1.2 广义优势估计 GAE

1.3 梯度裁剪

1.4 KL 散度惩罚

2. GRPO 组相对策略优化

3. 蒸馏+拒绝采样

0. 大模型微调与强化学习基础

先SFT后使得模型具备获得有效奖励的能力；

（否则开始模型怎么回答都错价值都是0 没有更新梯度）

1. RLHF 基于人类反馈的强化学习

先收集人类对模型多个回答的排序数据，训练一个 RM 奖励模型。

使用训练好的 RM作为奖励信号，通过强化学习优化SFT模型。

2. DPO 直接偏好优化

直接输入什么是好回答，什么是坏回答。（不用 RM 奖励模型）

通过巧妙的损失函数，直接优化模型，

使得模型分配给“好回答”的概率与分配给“坏回答”的概率之间的差值最大化。

3. RLVR 基于人类“价值”反馈的强化学习 -> 打击大模型幻觉

传统的RLHF优化的是“看起来好”的回答（有帮助、无害），但模型仍然可能“自信地”编造事实（幻觉）。RLVF旨在让模型对自己不知道或不确定的事情保持诚实。

RM -> 训练一个能判断模型回答是否“诚实”的VM。

VM训练：模型生成一个回答，并附上其引用的来源/证据。

标注员的任务是判断“基于这个证据，模型给出的回答是否被充分支持”。

让标注员去验证模型回答中的事实。

强化学习训练回顾：

1. REINFORCE / 蒙特卡洛策略梯度

Reinforce方法理论

先试玩一把得到轨迹，并倒过来算出每步的reward累积u作为q。

无偏性：因为 G_t 使用的是环境返回的真实奖励，不依赖于任何估计，所以是无偏的。
高方差：由于智能体在环境中的交互本身具有随机性，一条完整的轨迹可能包含很多“运气”成分，导致不同轨迹的 G_t 差异很大。用这种波动大的值来更新，会导致训练不稳定。

2. TD误差 / A2C

TD训练

它用了一步即时奖励 r_t 和对下一状态的价值估计 V(s_{t+1}) 来评估当前动作。

1. 时序差分 TD 偏差。

TD学习是Critic网络的核心训练方法。它用一个估计值去更新另一个估计值。

这面临 “自举” 的问题 用一个自身的、或者正在学习的估计值，去更新另一个估计值。

后面的 V(s') 被高估，导致前面的 V(s) 被高估，还要拿 V(s) 去更新别人。导致偏差累积更大。

解决方案：

目标网络：使用一个更新较慢的“目标网络” V_target(s') 来计算TD Target。这能在一定时间内提供一个相对稳定的目标，打破不稳定的正反馈循环。这也是DQN和DDPG等算法的核心思想。（异策略 off-policy）
TD_target = r + γ * V_target(s')
多步TD：使用多步回报来减少对单个有偏估计 V(s') 的依赖，例如使用 n 步TD Target： TD_target = r_t + γ * r_{t+1} + ... + γ^n * V(s_{t+n})。这用更多来自环境的真实奖励（无偏）来稀释最终的价值估计（有偏）。