当前位置: 首页 > news >正文

扩散模型对齐:DMPO 让模型更懂人类偏好

Binxu Li、Minkai Xu 等来自斯坦福大学的研究团队提出了一种名为 DMPO(Divergence Minimization Preference Optimization) 的新方法,用于更好地将扩散模型与人类偏好对齐。


📖 目录

  1. 研究背景:为什么扩散模型需要“对齐”?
  2. 现有方法的“陷阱”:均值 seeking 带来的模糊图像
  3. DMPO 登场:用“反向 KL”精准捕捉偏好
  4. 理论保证:DMPO 与 RLHF 方向一致
  5. 实验结果:自动指标 + 人类评估双杀
  6. 图像编辑彩蛋:DMPO 让“宠物入口”不再消失
  7. 消融实验:α 与 β 的的敏感性
  8. 总结与展望
  9. 快速 FAQ

Alt

1. 研究背景:为什么扩散模型需要“对齐”?

扩散模型(Diffusion Models, DM)自 2020 年横空出世以来,凭借「逐步去噪」的独特机制,在文本生成图像(T2I)任务上一骑绝尘。无论是 Midjourney 的插画风格,还是 Stable Diffusion 的开源生态,都展示了其惊人的「作画」能力。然而,这些模型在训练阶段往往采用单阶段、大规模图文对的方式,目标仅仅是「复现」互联网上的图文分布,而非「理解」人类对一张好图的微妙偏好。

模型家族训练流程对齐手段效果
大语言模型(LLM)两阶段:预训练 + 偏好微调RLHF / DPO回答更贴心、更安全
扩散模型(DM)单阶段图文对训练❌ 无显式对齐可能“答非所图”

一句话:扩散模型会画“猫”,但不一定画出你最想看的猫
目标:让模型生成“人类更pick”的图像,而不仅仅是“合理”的图像。

🎯 对齐(Alignment):让扩散模型听懂“人话”

在大语言模型(LLM)领域,研究者们早已发现「两阶段训练」的重要性:

  1. 预训练:让模型“博览群书”,掌握通用知识;
  2. 偏好微调:用 RLHF 或 DPO 对齐人类价值观,让回答更贴心、更安全。

扩散模型同样需要这样的“第二阶段”——偏好对齐


2. 现有方法的“陷阱”:均值 seeking 带来的模糊图像

⚠️ 前向 KL 散度的副作用

  • Diffusion-DPO 实质在优化:
    DKL(p∗∥pθ)D_{KL}(p^*\|p_\theta) DKL(ppθ)
  • 问题:为了“覆盖”所有可能的好样本,模型被迫平均化 → 图像变模糊、细节丢失。

📌 什么是“均值 seeking”?

在统计学里,前向 KL 散度(也叫 I-projection)有一个著名特性:

它要求模型 q(x) 必须在 p(x) 的每一个非零区域都分配质量,否则 KL→∞。

翻译到图像生成领域:

  • 如果人类偏好分布 p* 里“既喜欢卡通猫,也喜欢写实猫”,
  • 那么模型 pθ 就必须同时生成两种猫,哪怕训练数据里只给了“卡通猫更好”的提示。
  • 结果 → 一张图里卡通+写实混搭,耳朵毛绒绒、身体却高清毛发,四不像

🖼️ 视觉层面的“灾难”

提示词人类期望均值 seeking 结果
“a cute corgi in a wizard hat”可爱短腿+帽子服帖腿长忽长忽短,帽子半悬浮
“cyberpunk city, neon rain”高对比、锐利光斑全图灰蒙蒙,霓虹灯变成涂色块
“a spoon with eyes and a smile”清晰表情、勺子光泽眼睛融化在金属里,笑容成噪点

🧠 心理学视角:为什么人类讨厌“平均脸”

认知学研究表明,人们对“平均化”面孔的喜好度中等偏下——因为缺乏鲜明特征。同理,对图像的审美也遵循“峰值偏好”:我们更喜欢高饱和度、高对比、焦点清晰的片子,而非“面面俱到”的平淡图。前向 KL 恰恰把模型推向后者。

🚧 扩散家族的三种“均值 seeking”问题

  1. 路径级平均:Diffusion-DPO 在整条去噪轨迹上求期望,导致每步都要“兼顾”多种走向;
  2. 像素级平均:高维 RGB 空间下,KL 惩罚任何“零概率”区域,迫使像素值向“中庸灰”靠拢;
  3. 风格级平均:卡通与写实同时存在时,模型把高频纹理与低频色块混为一谈,生成“油画+照片”杂交体。

3. DMPO 登场:用“反向 KL”精准捕捉偏好

🎯 核心思想

最小化反向 KL 散度
DKL(pθ∥p∗)D_{KL}(p_\theta\|p^*) DKL(pθp)

  • 只惩罚模型在“不支持区域”放质量 → 迫使模型聚焦高奖励模态
  • 生成结果:更清晰、更贴合提示、更符合人类偏好

🧮 实战 loss(成对偏好)

LDMPO=E(xw,xl),t[σ(ut)log⁡σ(ut)1−α+σ(−ut)log⁡σ(−ut)α]\mathcal{L}_{\text{DMPO}}=\mathbb{E}_{(x^w,x^l),t}\Big[\sigma(u_t)\log\frac{\sigma(u_t)}{1-\alpha}+\sigma(-u_t)\log\frac{\sigma(-u_t)}{\alpha}\Big] LDMPO=E(xw,xl),t[σ(ut)log1ασ(ut)+σ(ut)logασ(ut)]
其中
ut=−βT[∥εw−εθ(xtw)∥2−∥εw−εref(xtw)∥2−(同上 xl)]u_t=-\frac{\beta}{T}\Big[\|\varepsilon^w-\varepsilon_\theta(x^w_t)\|^2-\|\varepsilon^w-\varepsilon_{\text{ref}}(x^w_t)\|^2-(\text{同上 }x^l)\Big] ut=Tβ[εwεθ(xtw)2εwεref(xtw)2(同上 xl)]


4. 理论保证:DMPO 与 RLHF 方向一致

定理 (一句话版)
β=1\beta=1β=1 时,
∇θLDMPO=−∇θLRLHF\nabla_\theta\mathcal{L}_{\text{DMPO}}=-\nabla_\theta\mathcal{L}_{\text{RLHF}} θLDMPO=θLRLHF
→ 虽然推导路线不同,但优化方向完全一致,理论严谨无偏。


5. 实验结果:自动指标 + 人类评估

👥 人类小样本盲测(100 提示 × 3 问题)

Alt

📊 自动评估(Pick-a-Pic V2)

Alt

在Pick-a-Pic V2、HPS V2和Parti-Prompt数据集上,所有基准与SD1.5的奖励分数比较,最佳结果用粗体字表示。平均领先第二名 64.6%(PickScore 胜率)

Alt

(a) Winrate (%) 在 Pick-a-Pic V2、HPS V2 和 Parti-Prompt 数据集上对比所有基线与 SD 1.5 的比较。(b) DMPO 与其他基线之间的胜率比较,胜率超过 50% 的用绿色表示,低于 50% 的用红色表示。

🌟 从“能画”到“画得好”

Alt

与其他方法相比,DMPO始终表现出更强的能力来捕捉提示的语义意图,产生的输出更加准确且质量更高。例如,在第一行中,只有DMPO成功呈现了“微笑”的概念,而在第二行中,它是唯一一个正确描绘“装扮成水手的木瓜”的模型。


6. 图像编辑彩蛋:DMPO 让“宠物入口”不再消失

除了改善图像生成任务的对齐性,DMPO还显著增强了模型在图像编辑方面的能力,尤其是在文本引导的图像编辑场景中。

任务:真实图像 + 文本指令 → 编辑后图像
案例

  • 输入:一扇门 + “add a pet entrance”

  • DMPO:精准出现宠物小门

Alt

在第一行中,只有DMPO正确理解和呈现了内容“宠物入口”。在第二行中,输入提示为“一个半吃的披萨。”,只有DMPO生成了一幅在语义上真实且视觉上高度吸引的图像。


7. 消融实验:α 与 β 的敏感性

Alt
在Pick-a-Pic V2和HPS V2测试集上进行评估。(a) β的影响:当α固定为0.01时,随着β的增加,模型性能先增加后减少。(b) α的影响:当β固定为2000时,性能同样先增加后减少,随着α的增加


8. 总结与展望

一句话总结
DMPO 用“反向 KL”让扩散模型不再平均化,而是精准命中人类最喜欢的模态,理论严谨 + 实验碾压

🔮 未来方向

  1. 视频扩散模型对齐(VideoDM)
  2. 多模态条件(文本 + 图像 + 音频)
  3. 在线偏好收集 + 实时微调

9. 快速 FAQ

Q1:DMPO 需要额外模型或奖励网络吗?
❌ 不需要,只用成对偏好数据即可训练。

Q2:计算成本比 Diffusion-DPO 高多少?
⏱️ 几乎相同,每次迭代只多 2 次噪声预测差值。

Q3:能在 SDXL 上用吗?
✅ 已验证,SDXL 版本同样领先


Alt

https://arxiv.org/html/2507.07510v1


文章转载自:

http://j7OhynCl.Lnfkd.cn
http://iB9bhpk5.Lnfkd.cn
http://fx9HRUd2.Lnfkd.cn
http://EupNbyU4.Lnfkd.cn
http://M62jAeKN.Lnfkd.cn
http://c773Swtq.Lnfkd.cn
http://3frHMJXk.Lnfkd.cn
http://byMTDEYZ.Lnfkd.cn
http://esw68tmS.Lnfkd.cn
http://mCg2nSyy.Lnfkd.cn
http://560g1fss.Lnfkd.cn
http://uQTrpnFM.Lnfkd.cn
http://g55Kh57G.Lnfkd.cn
http://AFQxIHrS.Lnfkd.cn
http://olJzmHRy.Lnfkd.cn
http://3PqtVb9Y.Lnfkd.cn
http://5HF78O72.Lnfkd.cn
http://A1AaVJNN.Lnfkd.cn
http://wF5yQpwp.Lnfkd.cn
http://Ry3aC96v.Lnfkd.cn
http://4OIo4gOU.Lnfkd.cn
http://FNqAeFNw.Lnfkd.cn
http://ue9s59cv.Lnfkd.cn
http://mxIZSD6z.Lnfkd.cn
http://SyxtTinG.Lnfkd.cn
http://mUwgZnAq.Lnfkd.cn
http://izYDmxQD.Lnfkd.cn
http://awIREdHp.Lnfkd.cn
http://vrW4I2Hy.Lnfkd.cn
http://ENIqi2oF.Lnfkd.cn
http://www.dtcms.com/a/387009.html

相关文章:

  • nvidia jetson nano 连接蓝牙音响
  • 用Postman实现自动化接口测试和默认规范
  • [栈模拟]2197. 替换数组中的非互质数
  • 从零到一使用开源Keepalived配置实现高可用的集群教程
  • RAG与Fine-tuning-面试
  • Syslog服务
  • git clone vllm
  • 物联网的发展展望
  • PySpark处理超大规模数据文件:Parquet格式的使用
  • Spring Boot项目通过tomcat部署项目(包含jar包、war包)
  • 网络四层模型和七层模型的区别
  • 项目部署——LAMP、LNMP和LTMJ
  • 支付宝免押租赁平台源码
  • 不建议在 Docker 中跑 MySQL
  • PPT中将图片裁剪为爱心等形状
  • YOLO 模型前向推理全流程(以 YOLOv8 为例)
  • 【Redis】--集群
  • TRUNCATE还是DELETE?MySQL高效清空表的选择策略与实战指南
  • 【AI】AI评测入门(四):Evaluator Prompt拆解
  • Redis以`后台`方式启动方法
  • 【每日算法】找出字符串中第一个匹配项的下标 LeetCode
  • 【12】新国都 ——新国都 嵌入式 第一轮一面,技术面,校招,面试问答记录
  • 线程池-面试
  • 设计模式学习笔记(一)
  • 贪心算法应用:旅行商问题最近邻算法(TSP Nearest Neighbor)
  • 高系分七:软件工程
  • spark hive presto doris 对substr函数的差异
  • webpack5
  • M:Dijkstra算法求最短路径
  • C++11 atomic