当前位置：首页 > news >正文

Instruct-GPT中强化学习（RL）训练部分详解

news 2025/7/2 12:25:41

RL微调的基本流程
Instruct-GPT在监督微调（SFT）模型的基础上，使用近端策略优化（PPO）算法进行强化学习微调。这一设计参考了Stiennon等人（2020）的研究，核心目标是让模型更好地遵循用户指令。
多臂老虎机（Bandit）环境设计
- 输入：随机抽取的用户提示（prompt）。
- 输出：模型对提示的响应（response）。
- 奖励机制：根据奖励模型（RM） 对提示-响应对打分，每轮交互（episode）结束后反馈奖励。
- 关键逻辑：将指令遵循任务建模为序列决策问题，模型需学习生成高奖励的响应。

每token的KL散度惩罚
- 目的：防止模型过度优化奖励模型，避免生成偏离SFT模型语义的响应（即“过拟合奖励信号”）。
- 实现：在每个token生成时，计算当前RL策略（π_RL）与SFT模型（π_SFT）的KL散度，并作为惩罚项加入目标函数。
- 直观理解：KL惩罚相当于“正则化”，强制RL模型保留SFT阶段学到的基础语言能力。
价值函数（Value Function）初始化
- 直接使用奖励模型（RM）的参数初始化价值函数，加速训练收敛。
- 意义：利用RM对“优质响应”的预判断能力，减少RL训练的探索成本。

基础PPO模型（γ=0）
目标函数仅包含奖励项和KL惩罚项：
$\text{objective} = \mathbb{E}_{(x,y)\sim D_{\pi_{RL}}} \left[ r_\theta(x, y) - \beta \log \frac{\pi_{RL}(y|x)}{\pi_{SFT}(y|x)} \right]$
- $r_\theta(x,y)$ ：奖励模型对响应的打分。
- $\beta$ ：KL惩罚系数，控制对SFT模型的“偏离限制”。
PPO-ptx模型（混合预训练梯度）
- 问题：单纯PPO可能导致模型在公开NLP数据集上性能退化（“灾难性遗忘”）。
- 解决方案：在目标函数中加入预训练损失项，混合预训练数据的梯度：
  $\text{objective} = \mathbb{E}_{(x,y)\sim D_{\pi_{RL}}} \left[ r_\theta(x, y) - \beta \log \frac{\pi_{RL}(y|x)}{\pi_{SFT}(y|x)} \right] + \gamma \mathbb{E}_{x\sim D_{\text{pretrain}}} \left[ \log \pi_{RL}(x) \right]$
- $D_{\text{pretrain}}$ ：预训练数据分布， $\gamma$ 控制预训练梯度的权重。
- 效果：通过保留预训练阶段的语言理解能力，缓解下游任务性能退化。

对比模型列表

模型名称	特点描述
SFT模型	仅通过监督学习微调的模型，未使用RL。
GPT-3	原始预训练模型，未针对指令调整。
GPT-3-prompted	为GPT-3添加few-shot前缀（如任务示例），使其进入“指令遵循模式”。
FLAN微调的GPT-3	在FLAN数据集（含多种NLP任务及指令）上微调的模型。
T0微调的GPT-3	在T0数据集（类似FLAN，但任务和指令风格不同）上微调的模型。

实验设计逻辑
- few-shot前缀的作用：验证不微调模型时，通过提示工程能否让GPT-3遵循指令。
- FLAN和T0对比：测试Instruct-GPT在多任务指令场景下，是否优于传统任务混合微调方法。
- 评估标准：使用奖励模型在验证集上的打分选择最优检查点，确保模型对齐人类偏好。

PPO-ptx的优势
- 通过混合预训练梯度，Instruct-GPT在保持指令遵循能力的同时，避免了传统RL微调导致的泛化能力下降。
- 论文中默认的Instruct-GPT即指PPO-ptx模型，证明该方法的有效性。
强化学习在指令对齐中的核心价值
- RL使模型能够根据人类反馈（通过奖励模型）动态调整生成策略，比单纯监督学习更贴近真实应用场景。
- KL惩罚和预训练梯度混合是解决“奖励过拟合”和“性能退化”的关键技术手段。