【大模型】大模型微调-RLHF(强化学习)
上篇介绍了PEFT(LORA)参数微调,这篇介绍RLHF(基于人类反馈的强化学习)
RLHF
- 背景与目标
大模型(如 GPT、LLaMA 等)在 预训练阶段 学到的是 预测下一个 token 的能力,但:
它生成的回答可能 不符合人类偏好(冗长、跑题、有害内容)。
单纯监督微调(SFT)只能让模型模仿数据,缺乏对“质量/偏好”的优化。
因此,需要一种方法让模型输出 更符合人类期望 —— 这就是 RLHF。
- RLHF 的三大核心阶段
(1) 监督微调(Supervised Fine-Tuning, SFT)
数据:人工编写的 高质量问答对。
方法:用这些数据 微调预训练模型。
结果:得到一个初步的 “对齐模型”,它能回答问题,但还不一定稳定。
(2) 奖励模型(Reward Model, RM)训练
数据:人工对 多个模型输出 进行 排序/偏好标注,如:
Prompt: "解释相对论"
答案 A: 很简洁,科学准确
答案 B: 冗长且啰嗦
→ 人类选择 A