当前位置: 首页 > wzjs >正文

电话营销网站推广网络优化工程师为什么都说坑人

电话营销网站推广,网络优化工程师为什么都说坑人,互联网行业发展前景分析报告,9377烈焰传奇手游官网本文主要看下MPO的多模态偏好数据生成方法及MPO优化方法核心思想,多模态输入的链式思维方法感兴趣看原文,供参考。 多模态偏好数据集生成 1、数据引擎 定义:每个数据样本包括一张图像 I I I、一条指令 x x x、一个被选中的响应 y c y_c…

本文主要看下MPO的多模态偏好数据生成方法及MPO优化方法核心思想,多模态输入的链式思维方法感兴趣看原文,供参考。

多模态偏好数据集生成

1、数据引擎

定义:每个数据样本包括一张图像 I I I、一条指令 x x x、一个被选中的响应 y c y_c yc 和一个被拒绝的响应 y r y_r yr。其中, y c y_c yc 被认为是比 y r y_r yr 更好的响应。

数据收集

  • 图像集 I \mathcal{I} I 和指令集 X \mathcal{X} X 来自现有的数据集。
  • 对于有明确答案的指令,模型被提示先提供推理过程,然后给出最终答案,格式为“Final Answer: ***”。
  • 匹配正确答案的响应构成正样本集 Y p \mathcal{Y}_p Yp,不匹配的构成负样本集 Y n \mathcal{Y}_n Yn

生成方法

  • 有明确答案的指令:通过选择正样本和负样本来构建偏好对。
  • 没有明确答案的指令:使用 Dropout Next-Token Prediction (DropoutNTP) 方法。具体来说,所有生成的响应被视为正样本,通过截断响应的后半部分来生成负样本。

效率比较:与 RLAIF-V 提出的更复杂的方法相比,DropoutNTP 方法在生成数据时更高效,成本更低。

2、多模态偏好数据集

数据统计:使用上述方法,构建了一个包含约 750K 个无明确答案的样本和 2.5M 个有明确答案的样本的数据集。

  • 无明确答案的样本中,每条指令平均 25.0 个token,被选中和被拒绝的响应分别平均 211.4 和 171.2 个token。
  • 有明确答案的样本中,指令平均长度为 79.5 个token,被选中和被拒绝的响应分别平均 300.0 和 350.5 个token。

数据来源

MPO(混合偏好优化)方法

这是文章的核心,基于多模态数据构建偏好数据集 MMPR,使模型学习不同模态信息下响应的优劣偏好。提出背景是在使用直接偏好优化(DPO)训练MLLMs时,模型可能会生成不合理的理由并产生重复的响应。这导致模型在生成长篇理由(Chain-of-Thought, CoT)时的表现不佳

为了解决这个问题,提出了MPO。目的是学习响应之间的相对偏好、单个响应的绝对质量以及生成偏好响应的过程。

训练目标:MPO结合了偏好损失 L p \mathcal{L}_{p} Lp、质量损失 L q \mathcal{L}_{q} Lq 和生成损失 L g \mathcal{L}_{g} Lg,公式如下:

L = w p L p + w q L q + w g L g \mathcal{L}=w_{p}\mathcal{L}_{p}+w_{q}\mathcal{L}_{q}+w_{g}\mathcal{L}_{g} L=wpLp+wqLq+wgLg

其中, w ∗ w_{*} w 表示每个损失组件的权重。

偏好损失:使用DPO作为偏好损失,使模型学习被选中和被拒绝响应之间的相对偏好。

其中:

  • L p \mathcal{L}_{p} Lp 是偏好损失。
  • σ \sigma σ 是sigmoid函数。
  • β \beta β 是KL惩罚系数,控制模型输出的分布与参考分布之间的差异。
  • π θ \pi_{\theta} πθ 是策略模型,表示当前正在训练的模型。
  • π 0 \pi_{0} π0 是初始模型或参考模型。
  • x x x 是用户查询或指令。
  • y c y_{c} yc 是被选中的响应。
  • y r y_{r} yr 是被拒绝的响应。

质量损失:使用BCO(Binary Classifier Optimization)作为质量损失,帮助模型理解单个响应的绝对质量(二分类器)。

生成损失:使用SFT损失,帮助模型学习生成偏好响应的过程。

实验

参考文献:Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization,https://arxiv.org/pdf/2411.10442

http://www.dtcms.com/wzjs/392269.html

相关文章:

  • 做网站的费用怎么录分录南昌seo搜索排名
  • wordpress 修改文章idseo排名app
  • 福建网站建建设方案软文写作网站
  • 郑州服装网站建设百度网站管理员工具
  • 石家庄网站开发设计网站优化塔山双喜
  • 哪里有配音的网站幽默软文广告经典案例
  • 成品网站建设哪家好优化设计七年级下册语文答案
  • 北滘网站建设什么是长尾关键词举例
  • 武汉市救助管理站 网站建设成都seo的方法
  • 网站 app 公众号先做哪个关键词推广优化app
  • 做地暖工程的网站企业查询app
  • 美女做爰视频免费安全的网站广告免费发布信息
  • 沧州网站建设报价石家庄seo网络优化的公司
  • 网站建设中色无极北京网站seo技术厂家
  • 天津网站建设推广服务实时排名软件
  • 手机网站Com学电商运营的培训机构
  • 自己做的网站本地虚拟上传seo研究
  • wordpress编辑用户中心上海seo关键词优化
  • 合肥网站建设公司哪家好seo搜狗
  • WORDPRESS菜单位置添加搜索框seo实战密码第三版pdf
  • 王野苏婉卿seo专员是什么职位
  • 网站和app软件制作公司品牌宣传策略
  • 摄像头怎么做直播网站百度上海总部
  • 搞笑网站全站源码网络服务商怎么咨询
  • 临海城市建设网站百度竞价排名什么意思
  • 做网站下载哪个软件云南网站建设公司哪家好
  • 医院建设网站要求分析 amp河南百度推广公司
  • wp网站如何做多级联动筛选框营销型网站的公司
  • 网页设计教学设计滨州网站seo
  • 汕头cms模板建站免费网站生成器