当前位置：首页 > news >正文

InstructGPT：使用人类反馈训练语言模型以遵循指令

news 2025/8/29 5:42:36

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

✨ 1. 概述：什么是InstructGPT？

InstructGPT 📝 是OpenAI在2022年提出的一种基于人类反馈的指令微调方法，旨在使大型语言模型更好地遵循用户的意图 🤖💡。这项工作的核心发现是：单纯扩大语言模型规模并不能使其更好地理解和遵循人类指令 📊。尽管像GPT-3这样的大模型在多种任务上展现出强大能力，但它们仍然经常产生不真实、有害或对用户没有帮助的输出 ❌。

InstructGPT通过三阶段训练流程（监督微调、奖励模型训练和强化学习优化），成功地将语言模型与人类偏好对齐 ✅。令人惊讶的是，参数量仅1.3B的InstructGPT模型的输出偏好度竟然超过了参数量175B的原始GPT-3模型 🎯，尽管前者只有后者百分之一的参数量 💪！这项工作为ChatGPT的发展奠定了基础，是当前大语言模型训练的重要里程碑之一 🏆。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

20.遗传算法：模拟自然选择的优化智慧
19.帕累托优化：多目标决策的智慧与艺术
18.dapo：开源大规模llm强化学习系统的突破与实现
17.冯·诺依曼：数字时代的天才建筑师
16.eniac：世界上第一台通用电子计算机的传奇
15.冯·诺依曼架构：现代计算机的基石与瓶颈
14.密码破译机bombe：二战中破解enigma的传奇设备
13.波兰密码破译机bomba：二战密码战的隐形功臣
12.注意力机制：捕获长距离依赖关系的革命性技术
11.康威生命游戏：零玩家游戏的元胞自动机奇迹
10.OpenHands：开源AI软件开发代理平台的革命性突破
9.NoCode-bench：自然语言驱动功能添加的评估新基准
8.中文房间悖论：人工智能理解力的哲学拷问
7.曼彻斯特Mark I：世界上第一台存储程序计算机的革命性创新
6.AdaCoT：基于强化学习的帕累托最优自适应思维链触发机制
5.GThinker多模态大模型：线索引导式反思的突破
4.Auto-CoT：大型语言模型的自动化思维链提示技术
3.传统概率信息检索模型：理论基础、演进与局限
2.Poisson分布：稀有事件建模的理论基石与演进
1.Jina Embeddings：高性能多模态向量模型的演进之路

📜 2. 历史背景与原始论文

2.1 原始论文信息

InstructGPT的研究由OpenAI团队完成，相关论文于2022年3月发表在arXiv上：

论文标题：Training language models to follow instructions with human feedback
中文翻译：通过人类反馈的指令训练语言模型
作者：Long Ouyang, Jeff Wu, Xu Jiang 等
发表时间：2022年3月
论文地址：https://arxiv.org/abs/2203.02155
代码地址：https://github.com/openai/following-instructions-human-feedback

2.2 研发背景

在InstructGPT之前，大型语言模型（如GPT-3）主要通过预测互联网文本中的下一个词进行训练 🌐。虽然这种方法赋予了模型强大的文本生成能力，但也存在明显问题：

意图对齐不足：模型训练目标与"有用、诚实、无害"地遵循用户指令的目标不一致 🎯
有害内容生成：可能产生不真实、有偏见或有毒的内容 ❌
提示工程依赖：需要精心设计的提示词才能获得良好效果，且输出结果质量不稳定 🎭

InstructGPT的提出正是为了解决这些问题，通过人类反馈强化学习（RLHF）技术使模型输出更符合人类期望 👥💬。

🔧 3. 核心方法：三阶段训练流程

InstructGPT的训练包含三个关键阶段，形成了完整的RLHF（Reinforcement Learning from Human Feedback）流程 🔄：

3.1 第一阶段：有监督微调（SFT - Supervised Fine-Tuning）

第一阶段目标是收集人类演示数据并训练有监督的策略模型 👩‍💻。

数据收集：标注人员根据输入提示（prompt）编写高质量的期望输出示例 📝。这些提示主要来自两个来源：

标注者编写的提示：包括任意任务（Plain）、指令+多查询/响应对（Few-shot）和基于API用例的提示（User-based）
OpenAI API提交的提示：从API用户提交的实际提示中收集

训练过程：使用收集到的13K训练提示数据，对预训练的GPT-3模型进行有监督微调 🤖。训练设置包括：

16个训练轮次（但1个epoch后就已过拟合，更多训练是为了后续RM评分）
余弦学习率衰减，残差dropout为0.2
模型大小：1.3B、6B和175B参数

3.2 第二阶段：奖励模型训练（RM - Reward Model Training）

第二阶段目标是收集比较数据并训练奖励模型 🏆。

数据收集：让SFT模型为每个输入生成4-9个不同输出，标注人员对这些输出质量进行排序 📊。这种方式比直接生成答案更容易且更高效。

训练过程：基于6B参数的GPT-3模型训练奖励模型（因175B模型训练不稳定且成本高） 💰。关键技术细节：

使用pairwise排序损失：使奖励模型能够学习人类偏好
损失函数： $loss(θ)=−1CK2E(x,yw,yl)∈D[log(σ(rθ(x,yw)−rθ(x,yl)))]loss(\theta) = -\frac{1}{C_K^2}E_{(x,y_w,y_l)\in D}[log(\sigma(r_{\theta}(x,y_w)-r_{\theta}(x,y_l)))]$
对每个提示的K个响应，计算 $C_K^2$ 个比较对，提高数据效率和减少过拟合
仅训练1个epoch（多轮训练会导致过拟合）

3.3 第三阶段：强化学习优化（RL - Reinforcement Learning）

第三阶段使用强化学习方法针对奖励模型优化策略 🎮。

算法选择：采用近端策略优化（PPO - Proximal Policy Optimization）算法，这是OpenAI在2017年提出的强化学习算法 📈。

优化目标：在强化学习阶段，模型需要优化以下目标函数：
$objective(ϕ)=E(x,y)∈DπϕRL[rθ(x,y)−βlog(πϕRL(y∣x)/πSFT(y∣x))]+γEx∈Dpretrain[log(πϕRL(x))]objective(\phi) = E_{(x,y)\in D_{\pi_{\phi}^{RL}}}[r_{\theta}(x,y)-\beta log(\pi_{\phi}^{RL}(y|x)/\pi^{SFT}(y|x))]+\gamma E_{x \in D_{pretrain}}[log(\pi_{\phi}^{RL}(x))]$

其中包含三个关键部分：

奖励最大化： $rθ(x,y)r_{\theta}(x,y)$ ，使奖励模型给出的分数更高 🏆
KL惩罚项： $βlog(πϕRL(y∣x)/πSFT(y∣x))\beta log(\pi_{\phi}^{RL}(y|x)/\pi^{SFT}(y|x))$ ，防止模型偏离SFT模型太远 📏
预训练损失： $γEx∈Dpretrain[log(πϕRL(x))]\gamma E_{x \in D_{pretrain}}[log(\pi_{\phi}^{RL}(x))]$ ，保持模型在通用NLP任务上的性能 🌐