当前位置：首页 > news >正文

RLHF的改进算法DPO原理

news 2025/10/31 11:35:45

DPO 优点

RLHF需要先利用偏好数据来训练一个RM，然后基于强化学习来最大化奖励，而不能偏离原始模型。DPO通过奖励函数和最优策略之间的映射，受限的奖励最大化问题可以使用单个阶段的策略来实现微调，无需训练RM，数据采样，训练更轻量；

DPO推导

Bradley-Terry模型

借助Bradley-Terry模型是来表达微调的目标函数：
Bradley-Terry模型是一种用于比较成对对象并确定相对偏好或能力的方法。这种模型特别适用于对成对比较数据进行分析，从而对一组对象进行排序。

$P(i>j)=\frac{\alpha_i}{\alpha_i+ \alpha_j}$
将reward r带入到 $P$ 中，得到loss函数：
在这里插入图片描述
目标是优化LLM输出的 $y_w$ 得分尽可能大于 $y_l$ 的得分。

根据RLHF的优化目标推导出reward的表达式：

RLHF的优化目标：

在这里插入图片描述

其中：

引入Z（x）将目标函数转换为 $\pi^*$ 与 $\pi$ 之间的kl散度最小化：

将第一项分母定义 $\pi^*$ ：
在这里插入图片描述
$\pi^*$ 与 $\pi$ 之间的kl散度最小化：

再根据该式与 $\pi^*$ 推导出reward表达式

推导出reward表达式

在这里插入图片描述

将reward表达式带入到BT的loss函数中，就可以得到消除reward的loss函数，即DPO loss

这样模型的微调更新就不依赖于reward函数，而是只依赖于偏好数据对
在这里插入图片描述

IPO算法

IPO提出当偏好数据更优的确定性很大时，控制kl散度强度的参数不起作用，dpo可能会发生过拟合。IPO在DPO的损失函数上添加了一个正则项，从而即使偏好确定性很大时，最优的策略也可以靠近于 $\pi_{ref}$ ，可以不使用early stopping技巧就可以使模型收敛。
在这里插入图片描述

参考：

DPO（Direct Preference Optimization）论文
算法学习笔记：https://blog.csdn.net/Ever_____/article/details/139304624
代码介绍：https://www.cnblogs.com/lemonzhang/p/17910358.html
dpo改进方法介绍：https://blog.csdn.net/beingstrong/article/details/138973997
源码：https://hub.yzuu.cf/huggingface/trl/blob/main/trl/trainer/dpo_trainer.py

查看全文

http://www.dtcms.com/a/27195.html

Ubuntu安装Redis

使用 Python 和 OpenCV 进行图像边缘检测：从基础到实战

idea-代码补全快捷键

科普：“拉取镜像”和“下载安装”

大厂算法面试常见问题总结：高频考点与备战指南

Kubernetes的Ingress和Service有什么区别？

Golang GORM系列：GORM无缝集成web框架

基于Matlab实现永磁同步电机矢量控制仿真程序

【JavaEE进阶】MyBatis通过注解实现增删改查

AStar低代码平台RpcServiceBase的应用：客户端事务管理

Git Stash 使用与应用场景介绍（中英双语）

网页制作04-html,css,javascript初认识のhtml如何使用列表

【LeetCode: LCR 126. 斐波那契数 + 动态规划】

内核数据结构用法（2）list

开源模型应用落地-qwen2-7b-instruct-LoRA微调模型合并-LLaMA-Factory-单机多卡-RTX 4090双卡（六）

halcon激光三角测量（二十三）inspect_3d_surface_intersections

Laravel从入门到上云

Deepseek整合SpringAI

JVM 类加载器深度解析（含实战案例）

MySQL 安装过程记录以及安装选项详解

【C++八股】内存对⻬

UniApp 中 margin 和 padding 属性的使用详解

vue3项目上线配置 nginx代理

hive如何导出csv格式文件

Bootstrap CSS 概览

postgres源码学习之登录

Qt中利用httplib调用https接口

Android今日头条的屏幕适配方案

c++进阶———继承

I2C学习笔记-软件模拟I2C