当前位置: 首页 > news >正文

商洛做网站的公司电话wordpress添加单页

商洛做网站的公司电话,wordpress添加单页,巩义做网站优化,wordpress怎么弄tagDPO, Direct Preference Optimization,采用直接优化策略满足人类偏好,使得LLM对于给定输入,生成能用输出的概率高于生成不能用输出的概率。 1)DPO优化目标 在DPO训练过程中,模型通过最大化可用回答相对于不可用回答的…

DPO, Direct Preference Optimization,采用直接优化策略满足人类偏好,使得LLM对于给定输入,生成能用输出的概率高于生成不能用输出的概率。

1)DPO优化目标

在DPO训练过程中,模型通过最大化可用回答相对于不可用回答的偏好分数的对数似然来优化。

L_{DPO}(\theta) = \mathbb{E}_{(x, y_w, y_l) \sim D} [log \sigma(\beta \cdot r(x, y_w, y_l))]

其中:

D是偏好数据集。

σ是sigmoid函数。

β控制KL散度惩罚项强度的超参数,平衡模型生成高质量响应和保持与参考模型接近之间的关系。

优化目标是通过最小化损失 L_DPO 来增大模型对好回答 𝑦_𝑤的偏好,同时降低对差回答 𝑦_𝑙的偏好。这导致模型倾向于提升 𝑦_𝑤的概率,同时抑制 𝑦_𝑙 的概率。

2)DPO奖励函数

DPO奖励函数

r(x, y_w, y_l) = {log{\frac{\pi_{\theta}(y_w|x)}{\pi_{\text{ref}}(y_w|x)}}}-{log{\frac{\pi_{\theta}(y_l|x)}{\pi_{\text{ref}}(y_l|x)}}}

3)传统RL奖励函数

对于一个给定策略π_θ,其生成响应y的奖励函数r(x,y)由策略模型π_θ与参考模型π_ref(通常是SFT后模型)之间的对数概率比表示。

r(x, y) \propto log \frac{​{\pi_{\theta}}(y|x)}{​{\pi_{\text{ref}}}(y|x)}

传统RL奖励函数r(x, y)是策略优化中KL散度惩罚的一个重要结果,在RL中加入KL惩罚项,即最大化

\mathbb{E}[reward - \beta KL(\pi_{\theta}||\pi_{\text{ref}})]

时,最优策略πθ∗的形式为:

{\pi}_{\theta}^{*}(y|x) \propto {\pi}_{\text{ref}}(y|x)exp(\frac{1}{\beta}r(x, y))

从这个式子反推得到奖励函数r(x,y),与策略模型与参考策略的对数概率比成正比关系。

4)DPO学习解读

从DPO优化目标和奖励函数可见,DPO样本的输入和输出为prompt + chosen + rejected,prompt用x表示,chosen表示的是可用输出,rejected表示的是不可用输出。通过最大化DPO目标函数,直接鼓励模型生成更偏好的响应,同时惩罚生成不偏好的响应,无需显式地训练一个奖励模型。

reference

---

DPO在代码优化任务上性能糟糕的原因分析

https://inuyashayang.github.io/AIDIY/RLHF_Pages/DPO_Problem/

深度强化学习中的DPO算法:理论与实践

https://juejin.cn/post/7511915154032967706

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

[2305.18290] Direct Preference Optimization: Your Language Model is Secretly a Reward Model

http://www.dtcms.com/a/558889.html

相关文章:

  • 查企业数据要去什么网站花都区建设局网站
  • 免费自己生成网站wordpress大气企业主题
  • 杭州做网站推广公司推荐网络软文营销案例3篇
  • 网站开发 需求清单游戏app平台排行榜
  • 网站静态和伪静态意思百度热议怎么上首页
  • 信阳专业网站建设汕头市网络科技有限公司
  • tk不做了,需要的私把
  • 基于深度学习YoloV8模型垃圾分类系统 深度学习pytorch 大数据 (数据集+源码+文档)✅
  • 化工企业网站模板本地资讯网站做的最好的
  • 一线城市做网站工资有多少钱建设工程合同可以分为
  • 企业网站建设 总结长沙的网站建设
  • INT 303 Big Data Analysis 大数据分析 Pt.4 数据可视化
  • 佛山营销网站做盗版电影网站问题
  • 做结构图的网站汽车门店管理系统
  • 已申请域名怎么做网站科技小巨人培育企业
  • 江门网站推广公司上海公司注册收费
  • 建设单位网站的重要性电子商务网站建设教程
  • 个人网站可以备案深圳市工程交易中心
  • 网站开发大学python编程课哪个机构最好
  • 域名 网址 网站名称付费网站搭建
  • 自助购物网站怎么做运营推广
  • 用 Scoop 快速部署 JeecgBoot 开发环境:从依赖安装到服务管理
  • 外贸网站外贸网站建设行吗合肥房产网官网首页
  • 网站开发整体流程深圳最近消息
  • 《数据库类服务》
  • AMD MI50 在Ubuntu 24.04下安装驱动和ROCm
  • 网站方案设计规划设计公司排名
  • 家居网站建设做seo怎么设计网站
  • mstscax!CTD::TDConnectFSMProc函数调试记录==重要
  • 怎么介绍vue做的购物网站项目四川省建设厅的注册中心网站