强化学习概述及学习流程
在大语言模型的训练流程中,有监督微调虽然能让模型初步具备遵循人类指令的能力,但存在诸多局限。而强化学习通过整体评估模型输出、依赖反馈进行学习,成为大语言模型构建中不可或缺的关键步骤。本文将详细介绍强化学习的基础概念、与有监督学习的区别,以及基于人类反馈的强化学习流程。
一、强化学习概述
强化学习(Reinforcement Learning,RL)研究的是智能体与环境交互的问题,目标是使智能体在复杂且不确定的环境中最大化奖励。其基本框架主要由智能体和环境两部分组成,在训练过程中,智能体不断与环境交互:智能体从环境中获取状态,输出动作(决策),环境则根据动作返回下一个状态及当前动作的奖励。
1、核心概念
以机器狗学习抓飞盘为例,可清晰理解强化学习的核心概念:
- 智能体与环境:机器狗是智能体,负责做出决策并执行动作;飞盘的飞行轨迹、速度等构成环境,环境会以奖励形式对智能体的行为给予反馈。
- 状态、行为与奖励:状态是智能体对当前环境的评估(如飞盘的位置、速度);动作是智能体基于状态采取的行动(如跳跃、奔跑);奖励是环境对动作的反馈(成功抓住飞盘为正奖励,错过为负奖励)。
- 策略与价值:策略是智能体在特定状态下的行动规则;价值函数用于预测未来采取某一行为能带来的奖励,帮助智能体评估状态的好坏。
强化学习的目标是让智能体通过与环境的互动,学习到能最大化未来奖励的策略,在短期奖励与远期奖励之间找到平衡。
2、智能体类型
- 基于价值的智能体:显式学习价值函数,策略从价值函数中推算得出。
- 基于策略的智能体:直接学习策略函数,不单独学习价值函数,价值隐式体现在策略中。
- 演员–评论员智能体:结合前两种智能体的特点,既学习策略函数(演员),又学习价值函数(评论员),通过两者交互得到最佳动作。
二、强化学习与有监督学习的区别
可以用旅行方式类比两种学习方式的核心差异:
对比维度 | 有监督学习 | 强化学习 |
---|---|---|
数据来源 | 如同旅行指南,提供清晰的问题 - 答案对 | 如同陌生城市,无明确指南,需自主探索 |
反馈机制 | 实时告知动作是否正确(如 “这条路对不对”) | 仅告知结果好坏(如 “这家餐厅是否合适”),需通过试错调整 |
目标 | 掌握所有 “标准答案”(参观指南上的所有景点) | 学习在环境中高效行动(找到最佳路径) |
强化学习在大语言模型中的优势
-
考虑整体影响: 有监督学习针对单个词元反馈,依赖交叉熵损失,对个别词元变化不敏感(如否定词可能完全改变语义但损失变化小);而强化学习针对整体输出反馈,兼顾表达多样性和对微小变化的敏感性,更适合自然语言的灵活性。
-
缓解幻觉问题: 有监督学习易导致模型在未知问题上强行输出答案(产生幻觉);强化学习可通过定制奖励函数(正确答案高分、放弃回答中低分、错误答案高负分),促使模型在未知时选择不回答。
-
解决多轮对话奖励累积问题: 多轮对话的最终目标需考虑整体交互过程,有监督学习难以构建;强化学习通过奖励函数对对话的连贯性和背景进行整体评估,优化多轮对话能力。
三、基于人类反馈的强化学习(RLHF)
大语言模型部署时需考虑安全性与人类价值观对齐,模型输出应满足帮助性(Helpfulness)、真实性(Honesty)、无害性(Harmless) 的 3H 原则。基于人类反馈的强化学习(RLHF)正是实现这一目标的关键方法。
1、核心流程
RLHF 主要分为两个步骤:
-
奖励模型训练: 利用人类标注的偏好数据学习人类偏好,判断模型回复的有用性和无害性,为后续训练提供奖励信号。
-
近端策略优化(PPO): 基于奖励模型的反馈,使用 PPO 算法微调语言模型,通过迭代让模型探索更符合人类偏好的回复策略。
2、PPO 涉及的模型
- 策略模型(Policy Model):生成模型回复。
- 奖励模型(Reward Model):输出奖励分数评估回复质量。
- 评论模型(Critic Model):预测回复好坏,实时调整模型以选择未来累积收益最大的行为。
- 参考模型(Reference Model):备份 SFT 模型,防止策略变化过于极端,维持稳定性。
3、PPO 实施流程
- 环境采样:策略模型生成回复,奖励模型对回复打分获得奖励。
- 优势估计:评论模型预测未来累积奖励,结合广义优势估计(GAE)算法评估每次行动的优势。
- 优化调整:利用优势函数优化策略模型,同时通过参考模型限制策略变化幅度,保证稳定性。
总结
强化学习通过智能体与环境的交互、基于反馈最大化奖励,弥补了有监督学习在大语言模型训练中的不足。基于人类反馈的强化学习(RLHF)借助奖励模型和 PPO 算法,使模型输出更符合人类偏好和 3H 原则,成为构建高性能、安全可靠的通用对话模型的核心技术。