扩散模型对齐:DMPO 让模型更懂人类偏好
Binxu Li、Minkai Xu 等来自斯坦福大学的研究团队提出了一种名为 DMPO(Divergence Minimization Preference Optimization) 的新方法,用于更好地将扩散模型与人类偏好对齐。
📖 目录
- 研究背景:为什么扩散模型需要“对齐”?
- 现有方法的“陷阱”:均值 seeking 带来的模糊图像
- DMPO 登场:用“反向 KL”精准捕捉偏好
- 理论保证:DMPO 与 RLHF 方向一致
- 实验结果:自动指标 + 人类评估双杀
- 图像编辑彩蛋:DMPO 让“宠物入口”不再消失
- 消融实验:α 与 β 的的敏感性
- 总结与展望
- 快速 FAQ
1. 研究背景:为什么扩散模型需要“对齐”?
扩散模型(Diffusion Models, DM)自 2020 年横空出世以来,凭借「逐步去噪」的独特机制,在文本生成图像(T2I)任务上一骑绝尘。无论是 Midjourney 的插画风格,还是 Stable Diffusion 的开源生态,都展示了其惊人的「作画」能力。然而,这些模型在训练阶段往往采用单阶段、大规模图文对的方式,目标仅仅是「复现」互联网上的图文分布,而非「理解」人类对一张好图的微妙偏好。
模型家族 | 训练流程 | 对齐手段 | 效果 |
---|---|---|---|
大语言模型(LLM) | 两阶段:预训练 + 偏好微调 | RLHF / DPO | 回答更贴心、更安全 |
扩散模型(DM) | 单阶段图文对训练 | ❌ 无显式对齐 | 可能“答非所图” |
一句话:扩散模型会画“猫”,但不一定画出你最想看的猫。
目标:让模型生成“人类更pick”的图像,而不仅仅是“合理”的图像。
🎯 对齐(Alignment):让扩散模型听懂“人话”
在大语言模型(LLM)领域,研究者们早已发现「两阶段训练」的重要性:
- 预训练:让模型“博览群书”,掌握通用知识;
- 偏好微调:用 RLHF 或 DPO 对齐人类价值观,让回答更贴心、更安全。
扩散模型同样需要这样的“第二阶段”——偏好对齐。
2. 现有方法的“陷阱”:均值 seeking 带来的模糊图像
⚠️ 前向 KL 散度的副作用
- Diffusion-DPO 实质在优化:
DKL(p∗∥pθ)D_{KL}(p^*\|p_\theta) DKL(p∗∥pθ) - 问题:为了“覆盖”所有可能的好样本,模型被迫平均化 → 图像变模糊、细节丢失。
📌 什么是“均值 seeking”?
在统计学里,前向 KL 散度(也叫 I-projection)有一个著名特性:
它要求模型 q(x) 必须在 p(x) 的每一个非零区域都分配质量,否则 KL→∞。
翻译到图像生成领域:
- 如果人类偏好分布 p* 里“既喜欢卡通猫,也喜欢写实猫”,
- 那么模型 pθ 就必须同时生成两种猫,哪怕训练数据里只给了“卡通猫更好”的提示。
- 结果 → 一张图里卡通+写实混搭,耳朵毛绒绒、身体却高清毛发,四不像!
🖼️ 视觉层面的“灾难”
提示词 | 人类期望 | 均值 seeking 结果 |
---|---|---|
“a cute corgi in a wizard hat” | 可爱短腿+帽子服帖 | 腿长忽长忽短,帽子半悬浮 |
“cyberpunk city, neon rain” | 高对比、锐利光斑 | 全图灰蒙蒙,霓虹灯变成涂色块 |
“a spoon with eyes and a smile” | 清晰表情、勺子光泽 | 眼睛融化在金属里,笑容成噪点 |
🧠 心理学视角:为什么人类讨厌“平均脸”
认知学研究表明,人们对“平均化”面孔的喜好度中等偏下——因为缺乏鲜明特征。同理,对图像的审美也遵循“峰值偏好”:我们更喜欢高饱和度、高对比、焦点清晰的片子,而非“面面俱到”的平淡图。前向 KL 恰恰把模型推向后者。
🚧 扩散家族的三种“均值 seeking”问题
- 路径级平均:Diffusion-DPO 在整条去噪轨迹上求期望,导致每步都要“兼顾”多种走向;
- 像素级平均:高维 RGB 空间下,KL 惩罚任何“零概率”区域,迫使像素值向“中庸灰”靠拢;
- 风格级平均:卡通与写实同时存在时,模型把高频纹理与低频色块混为一谈,生成“油画+照片”杂交体。
3. DMPO 登场:用“反向 KL”精准捕捉偏好
🎯 核心思想
最小化反向 KL 散度:
DKL(pθ∥p∗)D_{KL}(p_\theta\|p^*) DKL(pθ∥p∗)
- 只惩罚模型在“不支持区域”放质量 → 迫使模型聚焦高奖励模态。
- 生成结果:更清晰、更贴合提示、更符合人类偏好。
🧮 实战 loss(成对偏好)
LDMPO=E(xw,xl),t[σ(ut)logσ(ut)1−α+σ(−ut)logσ(−ut)α]\mathcal{L}_{\text{DMPO}}=\mathbb{E}_{(x^w,x^l),t}\Big[\sigma(u_t)\log\frac{\sigma(u_t)}{1-\alpha}+\sigma(-u_t)\log\frac{\sigma(-u_t)}{\alpha}\Big] LDMPO=E(xw,xl),t[σ(ut)log1−ασ(ut)+σ(−ut)logασ(−ut)]
其中
ut=−βT[∥εw−εθ(xtw)∥2−∥εw−εref(xtw)∥2−(同上 xl)]u_t=-\frac{\beta}{T}\Big[\|\varepsilon^w-\varepsilon_\theta(x^w_t)\|^2-\|\varepsilon^w-\varepsilon_{\text{ref}}(x^w_t)\|^2-(\text{同上 }x^l)\Big] ut=−Tβ[∥εw−εθ(xtw)∥2−∥εw−εref(xtw)∥2−(同上 xl)]
4. 理论保证:DMPO 与 RLHF 方向一致
定理 (一句话版)
当 β=1\beta=1β=1 时,
∇θLDMPO=−∇θLRLHF\nabla_\theta\mathcal{L}_{\text{DMPO}}=-\nabla_\theta\mathcal{L}_{\text{RLHF}} ∇θLDMPO=−∇θLRLHF
→ 虽然推导路线不同,但优化方向完全一致,理论严谨无偏。
5. 实验结果:自动指标 + 人类评估
👥 人类小样本盲测(100 提示 × 3 问题)
📊 自动评估(Pick-a-Pic V2)
在Pick-a-Pic V2、HPS V2和Parti-Prompt数据集上,所有基准与SD1.5的奖励分数比较,最佳结果用粗体字表示。平均领先第二名 64.6%(PickScore 胜率)
(a) Winrate (%) 在 Pick-a-Pic V2、HPS V2 和 Parti-Prompt 数据集上对比所有基线与 SD 1.5 的比较。(b) DMPO 与其他基线之间的胜率比较,胜率超过 50% 的用绿色表示,低于 50% 的用红色表示。
🌟 从“能画”到“画得好”
与其他方法相比,DMPO始终表现出更强的能力来捕捉提示的语义意图,产生的输出更加准确且质量更高。例如,在第一行中,只有DMPO成功呈现了“微笑”的概念,而在第二行中,它是唯一一个正确描绘“装扮成水手的木瓜”的模型。
6. 图像编辑彩蛋:DMPO 让“宠物入口”不再消失
除了改善图像生成任务的对齐性,DMPO还显著增强了模型在图像编辑方面的能力,尤其是在文本引导的图像编辑场景中。
任务:真实图像 + 文本指令 → 编辑后图像
案例:
-
输入:一扇门 + “add a pet entrance”
-
DMPO:精准出现宠物小门
在第一行中,只有DMPO正确理解和呈现了内容“宠物入口”。在第二行中,输入提示为“一个半吃的披萨。”,只有DMPO生成了一幅在语义上真实且视觉上高度吸引的图像。
7. 消融实验:α 与 β 的敏感性
在Pick-a-Pic V2和HPS V2测试集上进行评估。(a) β的影响:当α固定为0.01时,随着β的增加,模型性能先增加后减少。(b) α的影响:当β固定为2000时,性能同样先增加后减少,随着α的增加
8. 总结与展望
✅ 一句话总结
DMPO 用“反向 KL”让扩散模型不再平均化,而是精准命中人类最喜欢的模态,理论严谨 + 实验碾压。
🔮 未来方向
- 视频扩散模型对齐(VideoDM)
- 多模态条件(文本 + 图像 + 音频)
- 在线偏好收集 + 实时微调
9. 快速 FAQ
Q1:DMPO 需要额外模型或奖励网络吗?
❌ 不需要,只用成对偏好数据即可训练。
Q2:计算成本比 Diffusion-DPO 高多少?
⏱️ 几乎相同,每次迭代只多 2 次噪声预测差值。
Q3:能在 SDXL 上用吗?
✅ 已验证,SDXL 版本同样领先。
https://arxiv.org/html/2507.07510v1