当前位置: 首页 > news >正文

DPO算法

DPO(Direct Preference Optimization)直接偏好优化。

训练集每个样本是一个三元组,结构如下

(prompt, chosen, rejected)

chosen(被选响应)
指针对同一提示(prompt),人类标注者或评估系统认为质量更高、更符合需求的响应。例如:

提示:“请解释水的三态变化。”
chosen​:“水有三种状态:固态、液态和气态。温度变化会导致状态转化,如冰融化成水,水蒸发成水蒸气。”

rejected(被拒响应)
指针对同一提示,人类标注者认为质量较低、不符合需求或存在错误的响应。例如:

rejected:“水是一种液体,在自然界中很常见。”(未完整回答问题)

策略模型(Policy Model)

定义与作用
策略模型是待优化的目标模型,其参数在训练过程中会被更新,目标是学习生成更符合人类偏好的响应。

训练机制

  • 接收输入提示(prompt)后,策略模型会生成响应并计算其概率分布。
  • 通过DPO损失函数(如基于Bradley-Terry模型的损失),模型调整参数以提高被选响应(chosen)的生成概率,降低被拒响应(rejected)的概率。

特点

  • 可训练:参数通过梯度更新不断优化。
  • 对齐偏好:最终目标是使模型输出更接近人类标注的高质量响应。
参考模型(Reference Model)
  • 定义与作用:

    参考模型是参数冻结的基准模型,通常为监督微调(SFT)后的模型,提供原始能力分布作为优化约束。

  • 核心功能:

    • 计算隐式奖励:通过比较策略模型与参考模型的输出概率差异,生成隐式奖励信号(如:rθ(x,y)=βlog⁡πθ(y∣x)πref(y∣x)r_θ(x,y)=\beta \log \frac{\pi_{\theta}(y|x)}{\pi_{\text{ref}}(y|x)}rθ(x,y)=βlogπref(yx)πθ(yx)

    • 控制分布偏移:KL散度约束防止策略模型过度偏离参考模型,避免生成不合理或低质量内容

  • 特点:

    • 参数固定:训练中不更新权重,仅提供计算基准。
    • 稳定性保障:作为正则化项,确保训练过程稳定。
Loss函数

直接偏好优化 (DPO) 损失函数

数学公式表示:

LDPO=−log⁡σ(β(log⁡πθ(yw∣x)πref(yw∣x)−log⁡πθ(yl∣x)πref(yl∣x))) \mathcal{L}_{\text{DPO}} = -\log \sigma\left(\beta\left(\log \frac{\pi_{\theta}\left(y_{w} \mid x\right)}{\pi_{\text{ref}}\left(y_{w} \mid x\right)}-\log \frac{\pi_{\theta}\left(y_{l} \mid x\right)}{\pi_{\text{ref}}\left(y_{l} \mid x\right)}\right)\right) LDPO=logσ(β(logπref(ywx)πθ(ywx)logπref(ylx)πθ(ylx)))

公式符号说明:
符号含义
LDPO\mathcal{L}_{\text{DPO}}LDPODPO 损失函数
σ\sigmaσSigmoid 激活函数
β\betaβ温度参数 (控制偏好强度)
πθ\pi_{\theta}πθ策略模型 (待优化)
πref\pi_{\text{ref}}πref参考模型 (固定参数)
xxx输入提示 (prompt)
ywy_wyw被选响应 (chosen response)
yly_lyl被拒响应 (rejected response)
公式解读:
  1. 核心计算:比较策略模型与参考模型对优质(ywy_wyw)和劣质(yly_lyl)响应的概率比差异
    log⁡πθ(yw∣x)πref(yw∣x)−log⁡πθ(yl∣x)πref(yl∣x)\log \frac{\pi_{\theta}(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \log \frac{\pi_{\theta}(y_l|x)}{\pi_{\text{ref}}(y_l|x)}logπref(ywx)πθ(ywx)logπref(ylx)πθ(ylx)

  2. β\betaβ 缩放:调节偏好差异的显著程度

  3. Sigmoid 转换:σ(⋅)\sigma(\cdot)σ() 将差异映射到 (0,1) 区间

  4. 负对数损失:−log⁡(⋅)-\log(\cdot)log() 使模型优化倾向于更大的偏好差异

参考

https://mp.weixin.qq.com/s/jnSGEBgzTkS4rid2rP3Omg


文章转载自:

http://RGbAQ7yF.grpfj.cn
http://LzeHiesV.grpfj.cn
http://YA6hFiit.grpfj.cn
http://BPJzUoix.grpfj.cn
http://nsVkn6Sn.grpfj.cn
http://gSXm0XTu.grpfj.cn
http://SuQxwwlE.grpfj.cn
http://PA0IBkbP.grpfj.cn
http://bgtsiDJu.grpfj.cn
http://yjulULDs.grpfj.cn
http://fcIfwlBM.grpfj.cn
http://3LqNhZuQ.grpfj.cn
http://BByXlMKN.grpfj.cn
http://muRdaDGF.grpfj.cn
http://B0r2SBCr.grpfj.cn
http://OO44rlK8.grpfj.cn
http://A3N3n43k.grpfj.cn
http://W4g7jnKZ.grpfj.cn
http://al9vTmeT.grpfj.cn
http://SfXO3EeW.grpfj.cn
http://C0gwGo1t.grpfj.cn
http://HJQz4SsW.grpfj.cn
http://EwETqyrn.grpfj.cn
http://jvxwEaeu.grpfj.cn
http://zmKo76vT.grpfj.cn
http://rW5mvk5n.grpfj.cn
http://S60yEQsm.grpfj.cn
http://PzxPatGP.grpfj.cn
http://l28hKFva.grpfj.cn
http://DDQSav1j.grpfj.cn
http://www.dtcms.com/a/367950.html

相关文章:

  • Photoshop图层
  • flutter-使用fluttertoast制作丰富的高颜值toast
  • 数据无言,网关有声 耐达讯自动化RS485转Profinet让千年液位数据“开口说话”
  • 如何将联系人从 iPhone 转移到 Redmi 手机
  • 从 ETL 到 Agentic AI:工业数据管理变革与 TDengine IDMP 的治理之道
  • PostgreSQL15——DML 语句
  • 机器学习-决策树(下)
  • 如何将视频从 iPhone 转移到 Mac
  • 基于Echarts+HTML5可视化数据大屏展示-旅游智慧中心
  • AI API Tester体验:API测试工具如何高效生成接口测试用例、覆盖异常场景?
  • 四六级学习资料管理系统的设计与实现(代码+数据库+LW)
  • (3)Seata AT 模式的事务一致性保证机制
  • MySQL主从同步--主从复制进阶
  • VisionMaster 4.2.0安装
  • FastVLM-0.5B 模型解析
  • 球坐标系下调和函数的构造:多项式边界条件的求解方法
  • 基于SpringBoot的旅游管理系统的设计与实现(代码+数据库+LW)
  • 【面试】框架常见面试(追问)
  • Android/Java 中接口(Interface)的使用场景、用途和方法
  • android 读取cpu+m1类型的nfc卡片,设置只读写m1的内容
  • 扫描件、PDF、图片都能比对!让文档差异无所遁形
  • 【FastDDS】Discovery ( 05-Discovery Server Settings)
  • 嵌入式第四十六天(51单片机(通信))
  • 通过Gen AI SDK调用gemini 2.5 pro,单独上传pdf文件 | ai agent 开发笔记 2025.9.2 Day 2
  • Linux服务器暴走,用Netdata+cpolar轻松驯化
  • Node.js 做 Web 后端优势为什么这么大?
  • Windows 文件资源管理器无法预览文件内容word、ppt、excel、pdf
  • android 四大组件—BroadcastReceiver
  • 聊一聊 .NET 中的 CancellationTokenSource
  • Ubuntu 22 redis集群搭建