Binary Classifier Optimization for Large Language Model Alignment
2025.acl-long.93.pdfhttps://aclanthology.org/2025.acl-long.93.pdf
1. 概述
在生产环境中部署大型语言模型(LLMs)时,对齐LLMs一直是一个关键因素,因为预训练的LLMs容易产生不良输出。Ouyang等人(2022)引入了基于人类反馈的强化学习(RLHF),该方法涉及基于单个提示的各种完成及其比较来训练奖励模型,然后优化LLM以最大化这些奖励。随后,直接偏好优化(DPO)(Rafailo et al., 2023)被提出作为一种替代方案,它通过直接基于选择和拒绝的完成之间的偏好来优化模型,从而避免了训练奖励模型的需要。RLHF和DPO都已成为LLM对齐的标准选择,但它们仍然需要一个包含选择