当前位置: 首页 > wzjs >正文

广州市网站网页制作公司wordpress账号创建

广州市网站网页制作公司,wordpress账号创建,白云区是穷人区吗,成都那家做网站好?本文主要看下MPO的多模态偏好数据生成方法及MPO优化方法核心思想,多模态输入的链式思维方法感兴趣看原文,供参考。 多模态偏好数据集生成 1、数据引擎 定义:每个数据样本包括一张图像 I I I、一条指令 x x x、一个被选中的响应 y c y_c…

本文主要看下MPO的多模态偏好数据生成方法及MPO优化方法核心思想,多模态输入的链式思维方法感兴趣看原文,供参考。

多模态偏好数据集生成

1、数据引擎

定义:每个数据样本包括一张图像 I I I、一条指令 x x x、一个被选中的响应 y c y_c yc 和一个被拒绝的响应 y r y_r yr。其中, y c y_c yc 被认为是比 y r y_r yr 更好的响应。

数据收集

  • 图像集 I \mathcal{I} I 和指令集 X \mathcal{X} X 来自现有的数据集。
  • 对于有明确答案的指令,模型被提示先提供推理过程,然后给出最终答案,格式为“Final Answer: ***”。
  • 匹配正确答案的响应构成正样本集 Y p \mathcal{Y}_p Yp,不匹配的构成负样本集 Y n \mathcal{Y}_n Yn

生成方法

  • 有明确答案的指令:通过选择正样本和负样本来构建偏好对。
  • 没有明确答案的指令:使用 Dropout Next-Token Prediction (DropoutNTP) 方法。具体来说,所有生成的响应被视为正样本,通过截断响应的后半部分来生成负样本。

效率比较:与 RLAIF-V 提出的更复杂的方法相比,DropoutNTP 方法在生成数据时更高效,成本更低。

2、多模态偏好数据集

数据统计:使用上述方法,构建了一个包含约 750K 个无明确答案的样本和 2.5M 个有明确答案的样本的数据集。

  • 无明确答案的样本中,每条指令平均 25.0 个token,被选中和被拒绝的响应分别平均 211.4 和 171.2 个token。
  • 有明确答案的样本中,指令平均长度为 79.5 个token,被选中和被拒绝的响应分别平均 300.0 和 350.5 个token。

数据来源

MPO(混合偏好优化)方法

这是文章的核心,基于多模态数据构建偏好数据集 MMPR,使模型学习不同模态信息下响应的优劣偏好。提出背景是在使用直接偏好优化(DPO)训练MLLMs时,模型可能会生成不合理的理由并产生重复的响应。这导致模型在生成长篇理由(Chain-of-Thought, CoT)时的表现不佳

为了解决这个问题,提出了MPO。目的是学习响应之间的相对偏好、单个响应的绝对质量以及生成偏好响应的过程。

训练目标:MPO结合了偏好损失 L p \mathcal{L}_{p} Lp、质量损失 L q \mathcal{L}_{q} Lq 和生成损失 L g \mathcal{L}_{g} Lg,公式如下:

L = w p L p + w q L q + w g L g \mathcal{L}=w_{p}\mathcal{L}_{p}+w_{q}\mathcal{L}_{q}+w_{g}\mathcal{L}_{g} L=wpLp+wqLq+wgLg

其中, w ∗ w_{*} w 表示每个损失组件的权重。

偏好损失:使用DPO作为偏好损失,使模型学习被选中和被拒绝响应之间的相对偏好。

其中:

  • L p \mathcal{L}_{p} Lp 是偏好损失。
  • σ \sigma σ 是sigmoid函数。
  • β \beta β 是KL惩罚系数,控制模型输出的分布与参考分布之间的差异。
  • π θ \pi_{\theta} πθ 是策略模型,表示当前正在训练的模型。
  • π 0 \pi_{0} π0 是初始模型或参考模型。
  • x x x 是用户查询或指令。
  • y c y_{c} yc 是被选中的响应。
  • y r y_{r} yr 是被拒绝的响应。

质量损失:使用BCO(Binary Classifier Optimization)作为质量损失,帮助模型理解单个响应的绝对质量(二分类器)。

生成损失:使用SFT损失,帮助模型学习生成偏好响应的过程。

实验

参考文献:Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization,https://arxiv.org/pdf/2411.10442

http://www.dtcms.com/wzjs/564687.html

相关文章:

  • 自助餐火锅网站建设招聘网站开发需要多长时间
  • 梧州网站建设哪家好外贸seo网站推广公司
  • 做网站那个平台搜狗登录入口
  • 百度搜索开放平台上海全国关键词排名优化
  • 怎么查公司网站可信度会设计网站怎么做兼职
  • 重庆网站建设接重庆零臻科技智慧团建官方网站
  • 门户型网站建设方案做h5的软件有哪些
  • 免费的软件网站工业互联网平台体系
  • 中国最大的网站建设公司济南网站制作哪家专业
  • 自己怎么设置会员网站杭州建设网站的公司哪家好
  • 南宁网站seo建设银行个人网站打不开
  • 福州 福马路 网站建设外语网站建设
  • 网站页脚信息微网站建设图片
  • html5大气网站辽宁省建设科学研究院网站
  • 天猫优惠券网站怎么做的免费简历模板下载word可编辑
  • 模板网站如何做优化做网站怎么才会被百度收录
  • 网站再就业技能培训班中国消防公众号关注
  • 莱州网站建设有限公司舆情分析师
  • 企业网站制作设计公司三亚 网站建设
  • 上海做网站待遇沈阳市建设工程项目管理中心网站
  • 想把自己做的网站放到网上深圳商务网站建设
  • 镇江网站营销推广哪个软件制作视频比较好
  • 北海哪里做网站建设wordpress首页404
  • 贵州省住房与城乡建设厅门户网站校园招聘
  • 做酒店管理网站的作用北京建设网站的公司哪家好
  • 手机版的学习网站php婚庆网站
  • 网站空间的控制面板首页品牌名称怎么取
  • 做一个公司的网站应做哪些准备工作内容九江做网站的公司
  • 问答网站开发坪地网站建设效果
  • 做网站先付款seo网页优化公司