当前位置：首页 > news >正文

扩散模型对齐：DMPO 让模型更懂人类偏好

news 2025/9/17 12:55:16

Binxu Li、Minkai Xu 等来自斯坦福大学的研究团队提出了一种名为 DMPO（Divergence Minimization Preference Optimization）的新方法，用于更好地将扩散模型与人类偏好对齐。

📖 目录

研究背景：为什么扩散模型需要“对齐”？
现有方法的“陷阱”：均值 seeking 带来的模糊图像
DMPO 登场：用“反向 KL”精准捕捉偏好
理论保证：DMPO 与 RLHF 方向一致
实验结果：自动指标 + 人类评估双杀
图像编辑彩蛋：DMPO 让“宠物入口”不再消失
消融实验：α 与 β 的的敏感性
总结与展望
快速 FAQ

Alt

1. 研究背景：为什么扩散模型需要“对齐”？

扩散模型（Diffusion Models, DM）自 2020 年横空出世以来，凭借「逐步去噪」的独特机制，在文本生成图像（T2I）任务上一骑绝尘。无论是 Midjourney 的插画风格，还是 Stable Diffusion 的开源生态，都展示了其惊人的「作画」能力。然而，这些模型在训练阶段往往采用单阶段、大规模图文对的方式，目标仅仅是「复现」互联网上的图文分布，而非「理解」人类对一张好图的微妙偏好。

模型家族	训练流程	对齐手段	效果
大语言模型（LLM）	两阶段：预训练 + 偏好微调	RLHF / DPO	回答更贴心、更安全
扩散模型（DM）	单阶段图文对训练	❌ 无显式对齐	可能“答非所图”

一句话：扩散模型会画“猫”，但不一定画出你最想看的猫。
目标：让模型生成“人类更pick”的图像，而不仅仅是“合理”的图像。

🎯 对齐（Alignment）：让扩散模型听懂“人话”

在大语言模型（LLM）领域，研究者们早已发现「两阶段训练」的重要性：

预训练：让模型“博览群书”，掌握通用知识；
偏好微调：用 RLHF 或 DPO 对齐人类价值观，让回答更贴心、更安全。

扩散模型同样需要这样的“第二阶段”——偏好对齐。

2. 现有方法的“陷阱”：均值 seeking 带来的模糊图像

⚠️ 前向 KL 散度的副作用

Diffusion-DPO 实质在优化：
$DKL(p∗∥pθ)D_{KL}(p^*\|p_\theta)$
问题：为了“覆盖”所有可能的好样本，模型被迫平均化 → 图像变模糊、细节丢失。

📌 什么是“均值 seeking”？

在统计学里，前向 KL 散度（也叫 I-projection）有一个著名特性：

它要求模型 q(x) 必须在 p(x) 的每一个非零区域都分配质量，否则 KL→∞。

翻译到图像生成领域：

如果人类偏好分布 p* 里“既喜欢卡通猫，也喜欢写实猫”，
那么模型 pθ 就必须同时生成两种猫，哪怕训练数据里只给了“卡通猫更好”的提示。
结果 → 一张图里卡通+写实混搭，耳朵毛绒绒、身体却高清毛发，四不像！

🖼️ 视觉层面的“灾难”

提示词	人类期望	均值 seeking 结果
“a cute corgi in a wizard hat”	可爱短腿+帽子服帖	腿长忽长忽短，帽子半悬浮
“cyberpunk city, neon rain”	高对比、锐利光斑	全图灰蒙蒙，霓虹灯变成涂色块
“a spoon with eyes and a smile”	清晰表情、勺子光泽	眼睛融化在金属里，笑容成噪点

🧠 心理学视角：为什么人类讨厌“平均脸”

认知学研究表明，人们对“平均化”面孔的喜好度中等偏下——因为缺乏鲜明特征。同理，对图像的审美也遵循“峰值偏好”：我们更喜欢高饱和度、高对比、焦点清晰的片子，而非“面面俱到”的平淡图。前向 KL 恰恰把模型推向后者。

🚧 扩散家族的三种“均值 seeking”问题

路径级平均：Diffusion-DPO 在整条去噪轨迹上求期望，导致每步都要“兼顾”多种走向；
像素级平均：高维 RGB 空间下，KL 惩罚任何“零概率”区域，迫使像素值向“中庸灰”靠拢；
风格级平均：卡通与写实同时存在时，模型把高频纹理与低频色块混为一谈，生成“油画+照片”杂交体。

3. DMPO 登场：用“反向 KL”精准捕捉偏好

🎯 核心思想

最小化反向 KL 散度：
$DKL(pθ∥p∗)D_{KL}(p_\theta\|p^*)$

只惩罚模型在“不支持区域”放质量 → 迫使模型聚焦高奖励模态。
生成结果：更清晰、更贴合提示、更符合人类偏好。

🧮 实战 loss（成对偏好）

$LDMPO=E(xw,xl),t[σ(ut)log⁡σ(ut)1−α+σ(−ut)log⁡σ(−ut)α]\mathcal{L}_{\text{DMPO}}=\mathbb{E}_{(x^w,x^l),t}\Big[\sigma(u_t)\log\frac{\sigma(u_t)}{1-\alpha}+\sigma(-u_t)\log\frac{\sigma(-u_t)}{\alpha}\Big]$
其中
$xl)]u_t=-\frac{\beta}{T}\Big[\|\varepsilon^w-\varepsilon_\theta(x^w_t)\|^2-\|\varepsilon^w-\varepsilon_{\text{ref}}(x^w_t)\|^2-(\text{同上 }x^l)\Big]$

4. 理论保证：DMPO 与 RLHF 方向一致

定理（一句话版）
当 $β=1\beta=1$ 时，
$∇θLDMPO=−∇θLRLHF\nabla_\theta\mathcal{L}_{\text{DMPO}}=-\nabla_\theta\mathcal{L}_{\text{RLHF}}$
→ 虽然推导路线不同，但优化方向完全一致，理论严谨无偏。