DAPO:用于指令微调的直接偏好优化解读
一、背景与动机:从RLHF到DPO,再到DAPO
大型语言模型(LLM)经过海量无监督预训练后,往往需要对齐人类偏好或遵循指令的微调,使模型的回答更符合人类期望。这一过程通常通过人类反馈强化学习(RLHF)来实现。例如OpenAI的ChatGPT就使用了RLHF:先让人工标注对模型输出进行偏好排序,训练一个奖励模型(Reward Model)去评估输出好坏,然后采用近端策略优化(PPO)等强化学习算法,让模型(策略)最大化这个奖励模型的评分【注:PPO是一种约束更新幅度的策略梯度算法,在RLHF中被广泛采用】。RLHF在提升模型可控性和符合人意方面效果显著,但也存在流程复杂、训练不稳定等问题:需要训练额外的奖励模型,调参繁琐,还可能出现“奖励模型欺骗”或输出分布坍塌等现象。
直接偏好优化(DPO)的提出正是为了解决上述一些问题。2023年,一些研究者发现可以跳过显式的强化学习过程,直接利用偏好数据来微调模型,使其倾向人类偏好的回答。简单来说ÿ