当前位置：首页 > news >正文

【论文精读/Survey】高效扩散模型：从原理到实践的全面解析

news 2025/11/1 15:36:51

标题：Efficient Diffusion Models: A Comprehensive Survey from Principles to Practices

作者：Zhiyuan Ma, Yuzhu Zhang, Guoli Jia, Liangliang Zhao, Yichao Ma, Mingjie Ma, Gaofeng Liu, Kaiyan Zhang, Jianjun Li, Bowen Zhou

单位：1Tsinghua University（清华大学）, 2HUST（华中科技大学）, 3SJTU（上海交通大学）, 4Shanghai AI Lab（上海人工智能实验室）

发表：TPAMI 2024

论文链接：https://arxiv.org/pdf/2410.11795

代码链接：https://github.com/ponyzym/Efficient-Diffusion-Models-Survey

关键词：Efficient Diffusion Models, Diffusion Model Principles, Efficient Architecture, Efficient Training, Fast Inference, Model Deployment, Generative AI

***关注一下吧，一起探索更多前沿内容...***

扩散模型（Diffusion Models, DMs）作为近年来生成式 AI 领域的 “明星模型”，凭借扎实的理论基础和卓越的生成能力，已在图像合成、视频生成、分子设计等多个领域实现突破。

然而，其高计算复杂度、长采样耗时等问题，限制了在低资源场景的落地。如果你和我一样，在实际用扩散模型时被 “训练慢、采样久、部署难” 折磨过，那这篇《Efficient Diffusion Models》绝对会有很大帮助。这篇来自清华、华科等团队的综述，不是空谈理论，而是把 “如何让扩散模型更快、更省资源” 的每一步都拆得明明白白。论文发表在TPAMI上，充分经过了同行的审阅。

一、先搞懂：为什么要做 “高效扩散模型”？

在聊技术前，得先明白我们的痛点到底在哪。扩散模型这几年确实猛，从 Stable Diffusion 到 Sora，生成质量没话说，但实际用起来全是坑：

采样慢：传统 DDPM 要 1000 步才能出一张图，就算是优化后的模型，默认也得 50 步，实时应用根本扛不住；
训练贵：SDXL 参数量 2.6B，训一次要好几块 A100，小团队根本玩不起；
部署难：手机端跑不动，云端多用户并发时延迟能飙到几十秒；
泛化差：改个任务（比如从图生图转视频生成），要么重训模型，要么加一堆额外模块，灵活性太低。

这篇论文的核心就是解决这些问题。它没搞虚的，直接用 “效率” 串起整个领域，从理论原理到落地应用，整理出了一个完整的技术框架（图 2）。而且作者还搞了个 GitHub 仓库实时更最新论文，真心良心()。

二、扩散模型的底层原理：高效优化的根基

要做高效优化，得先懂扩散模型的 “骨架”。论文第 2 章把最核心的理论讲透了，这部分是后面所有优化的基础，必须吃透。

2.1 扩散模型的数学本质：两个对称过程

扩散模型的核心就是 “前向加噪” 和 “反向去噪”，论文分别从离散和连续两个角度讲，其实本质是一回事，只是数学工具不同。

2.1.1 离散扩散（DDPM 那套）

前向加噪：从真实图片 $x_0$ 开始，每一步按固定规则加一点高斯噪声，直到 $x_T$ 变成纯噪声（服从 $\mathcal{N}(0,I)$ ）。关键公式是这个条件分布： $q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{\alpha_t}x_{t-1}, (1-\alpha_t)I)$ ，这里 $\alpha_t = 1 - \beta_t$ ， $\beta_t$ 是提前设好的 “噪声强度”（一般从 0.0001 线性增到 0.02），保证加噪过程平稳。更实用的是直接算 $x_t$ 和 $x_0$ 的关系（不用一步步推）： $q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t}x_0, (1-\bar{\alpha}_t)I)$ ， $\bar{\alpha}_t$ 是 $\alpha_1$ 到 $\alpha_t$ 的乘积，意思是 “ $t$ 步后还保留的原始信息比例”，越往后 $\bar{\alpha}_t$ 越小，噪声越多。
反向去噪：模型要学的就是从 $x_T$ 倒推回 $x_0$ ，核心是预测每一步的噪声 $\epsilon_\theta(x_t, t)$ ，然后用这个噪声算 $x_{t-1}$ 的分布： $p_\theta(x_{t-1} | x_t) \approx \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \sigma_t^2 I)$ ，这里 $\mu_\theta$ 是均值（由噪声预测网络算出来）， $\sigma_t^2$ 可以固定（比如用 $\beta_t$ ），也可以让模型预测。
训练目标：本质是最小化 “变分下界（VLB）”，论文把它拆成三部分，实际训练时简化成 “预测噪声的 MSE 损失”： $\mathcal{L} = \mathbb{E}_{x_0, \epsilon, t} \left[ \|\epsilon - \epsilon_\theta(x_t, t)\|^2 \right]$ ，就是让模型预测的噪声 $\epsilon_\theta$ 和真实加进去的噪声 $\epsilon$ 尽量接近，简单直接。

2.1.2 连续扩散（Score-SDE 那套）

离散模型步长多了计算麻烦，连续模型用随机微分方程（SDE）把加噪 / 去噪过程写成连续函数，更灵活。

前向 SDE： $dx_t = \mu(x_t, t)dt + \sigma(t)dw_t$ ， $w_t$ 是布朗运动（随机项）， $\mu$ 和 $\sigma$ 是漂移和扩散系数；
反向 ODE：去噪过程可以看成解一个 “概率流 ODE”（PF-ODE），不用随机项，更稳定： $dx_t = \left( \mu(x_t, t) - \sigma(t)^2 \nabla_{x_t} \log p_t(x_t) \right) dt$ ，这里 $\nabla_{x_t} \log p_t(x_t)$ 是 “分数函数”（可以理解为 “数据分布的梯度方向”），由模型 $\epsilon_\theta$ 近似。

为什么要提连续模型？因为后面很多快速采样方法（比如 DDIM、DPM-Solver）都是从连续视角推导的，把几百步采样压缩到十几步甚至几步。

2.2 分数匹配：让模型学会 “找方向”

分数函数 $\nabla_x \log p(x)$ 是连续扩散的核心，它表示 “从当前点往数据分布中心走的方向”。但这个函数没法直接算，所以用 “分数匹配” 来估计。

核心思想：给一堆数据样本，训练一个网络 $s_\theta(x, t)$ 去近似 $\nabla_x \log p_t(x)$ ，损失函数是 “分数匹配损失”： $\mathcal{L}_{sm} = \mathbb{E}_{x, t, \epsilon} \left[ \|s_\theta(x + \sigma(t)\epsilon, t) + \frac{\epsilon}{\sigma(t)}\|^2 \right]$ ，简单说，就是让模型预测的 “方向” 和真实的 “噪声方向”（ $\epsilon/\sigma(t)$ ）相反，这样去噪时才能往正确方向走。

2.3 Latent 建模：把扩散从像素空间 “降维”

这是高效扩散的关键一步！传统模型在 RGB 像素空间（比如 512x512x3）做扩散，计算量爆炸。Latent 扩散（LDM）的思路是：先用 VAE 把图片压缩到低维 latent 空间（比如 64x64x4），再在这个小空间里做扩散，最后用 VAE 解码回像素。

论文里给了具体流程（图 3）：

VAE 压缩：输入图片 $x$ （H×W×3），经 encoder 得到 latent $z_0$ （h×w×d），缩放因子 $f=H/h=8$ （比如 512→64），维度直接降 64 倍；
Latent 扩散：在 $z$ 空间做加噪 / 去噪，模型还是预测噪声，但输入输出都是 latent；
解码重建：扩散后的 $z_0$ 经 decoder 变回图片 $\hat{x}$ 。

关键是 VAE 的参数在扩散训练时是 “冻结” 的，只训扩散模型，省了大量计算。现在主流模型（SD、SDXL）全是这套架构，没有例外。

2.4 条件引导：让扩散 “听话”

光能生成图还不够，得让模型按文本、深度图等条件生成。论文里讲了几种核心方法：

2.4.1 文本引导（Classifier-Free Guidance）

这是 Stable Diffusion 用的方法，公式很直观： $\overline{\epsilon}_\theta(z_t, t, c, \emptyset) = w·\epsilon_\theta(z_t, t, c) + (1-w)·\epsilon_\theta(z_t, t, \emptyset)$

$c$ 是文本嵌入（比如 CLIP 编码的）， $\emptyset$ 是 “空文本”（全零向量）；
$w$ 是引导权重（默认 7.5），越大文本对生成的影响越强，但太大会出 artifacts。

原理是：同时训 “有文本条件” 和 “无文本条件” 的噪声预测，推理时用两者的差值放大文本信号，既保证生成质量，又不用额外训分类器。

2.4.2 结构引导（ControlNet）

比如用边缘图、深度图控制生成内容，ControlNet 的做法很巧妙（图 8）：

把预训练好的 U-Net 拆成 “冻结部分（ $\theta_{locked}$ ）” 和 “可训练副本（ $\theta_{copy}$ ）”；
在副本的每一层加入控制信号（比如边缘特征），用 “零卷积” 初始化副本参数，保证初始时和冻结部分输出一致；
训练时只更副本参数，既保留预训练模型的生成能力，又能让控制信号生效。

后来的 ControlNet-XS、ControlNeXt 都是在这个基础上减参（比如用轻量卷积）、加归一化，让模型更小、训得更快。

三、高效架构：从 U-Net 到 Mamba，选对骨架很重要

扩散模型的 “backbone” 直接决定效率，论文第 3 章对比了当前主流架构，每个都有明确的适用场景，不是盲目堆参。

3.1 VAE：Latent 空间的 “压缩器”

再补一句，VAE 是 Latent 扩散的基础，论文里对比了不同 VAE 的性能（表 2），关键看两个指标：

压缩比：比如 1×8×8 表示 H/W 各缩 8 倍，通道数可能增，总体维度降很多；
重建质量：用 PSNR（越高越好）、LPIPS（越低越好）衡量，比如 SVD VAE 比 SD2.1 VAE 重建质量更高。

视频生成里常用 “3D VAE”（图 4），但直接训 3D VAE 成本太高，所以很多模型（比如 Open-Sora）用 “2D+3D 混合结构”，先对空间降维，再处理时间维度，平衡效率和质量。

3.2 去噪网络 backbone：三大流派

3.2.1 U-Net 系（传统派）

DDPM 最早用的就是 U-Net，核心是 “编码器下采样（提特征）+ 解码器上采样（恢复分辨率）+ 跳连（传细节）”。

优点：空间建模能力强，适合小分辨率（比如 256x256）；
缺点：参数量大，高分辨率（1024x1024）和视频生成时扛不住。

后来的优化方向：

加注意力模块（比如 SD 在 U-Net 中间层加交叉注意力，结合文本嵌入）；
加宽 / 加深网络（比如 ADM 把 U-Net 做宽，性能超过 GAN）；
3D 化（比如 VDM 加 3D 卷积，适配视频生成）。

3.2.2 Transformer 系（DiT 为代表）

Transformer 擅长建模长距离依赖，这对高分辨率生成很重要。论文里重点讲了 DiT（Diffusion Transformer）：

做法：把 latent 特征切成 patch，用 ViT 结构代替 U-Net，每一层是 “注意力 + MLP”，没有卷积；
优点：扩展性强，参数量能轻松涨到几十亿（比如 Sora 用的就是类似架构），高分辨率生成质量比 U-Net 好；
缺点：注意力是 $O(n^2)$ 复杂度， $n$ 大了（比如 1024x1024 的 patch 数）计算量爆炸。

优化方案：

U-ViT：把 U 型结构和 Transformer 结合，下采样减少 patch 数，缓解计算压力；
PixArt-α：用 T5 编码文本，通过交叉注意力注入条件，去掉 DiT 里冗余的类条件分支，提速 30%。

3.2.3 SSM 系（Mamba 新势力）

Transformer 的 $O(n^2)$ 复杂度是硬伤，SSM（状态空间模型）比如 Mamba 能做到 $O(n)$ 复杂度，专门解决长序列问题。论文里的 DiM（Diffusion Mamba）就是把 Mamba 改成扩散 backbone：

关键设计：让 Mamba 块按 “上下左右” 四个方向扫描特征，避免单向扫描丢失空间连续性；
优点：高分辨率（比如 2048x2048）和长视频生成时，速度比 Transformer 快好几倍，参数量还小；
缺点：空间细节建模不如 U-Net，适合对速度要求高的场景。

3.3 文本编码器：从 CLIP 到 LLM

文本引导的核心是 “把文本语义准确传给扩散模型”，论文里对比了不同文本编码器（表 1）：

CLIP 系：SD 用的 CLIP ViT-L，优点是快、轻，缺点是理解复杂文本（比如长句子、多物体）能力弱；
LLM 系：Imagen 用 T5-XXL，SD3.0 用 CLIP+T5+OpenCLIP 组合，能理解更细的语义（比如 “红色帽子戴在白发老人头上”）；
多语言支持：Hunyuan-DiT 用 mCLIP + mT5，支持中文；Kolors 用 ChatGLM3，对中文 prompt 理解更准（图 6 能看到生成效果差异）。

四、高效训练与微调：少训参数，少用数据

训练扩散模型太费资源，论文第 4 章讲的 “参数高效” 和 “标签高效” 方法，是现在落地的关键。

4.1 参数高效训练：只训一小部分参数

不用全量微调，只更新模型的 “边角料”，既能适配新任务，又不丢预训练能力。可分为三类：ControlNet、适配器、LoRA。

4.1.1 ControlNet

前面提过（图8），核心是 “冻结原模型，训一个副本 + 控制模块”，参数增量一般在 100M 以内（比全训 SD 的 860M 省多了）。变种：

ControlNet-XS：减少控制模块的通道数，用高频通信让控制信号更高效，参数量减到 30M，训得更快；
ControlNeXt：用 “交叉归一化” 代替零卷积，让副本和原模型参数分布更对齐，收敛更快。

4.1.2 Adapter（适配器）

比 ControlNet 更灵活，在原模型里插小模块（比如在 Transformer 层间加 “bottleneck 结构”），只训这些小模块。论文里的 T2I-Adapter 是典型：

做法：在 SD 的 U-Net 各层插 Adapter，输入是控制信号（比如边缘图），输出是调整后的特征；
优点：参数量只有 77M，训 3 天就能适配新控制任务（比如素描转图）；
场景：可控生成（T2I-Adapter 支持素描、深度图）、领域适配（X-Adapter 把图像模型适配到视频）。

4.1.3 LoRA（低秩适应）

现在最火的微调方法，核心是 “用低秩矩阵近似参数更新”。

原理：假设模型权重更新 $\Delta W$ 可以分解成 $A×B$ （ $A$ 是 $d\times r$ ， $B$ 是 $r\times k$ ， $r$ 是低秩，比如 4、8），则 $W_{new} = W_0 + A×B$ ；
优点：参数量极小（比如 SD 用 LoRA 训风格，参数量只有 100K），训完能和原模型合并，推理时不增加延迟；
变种：
- LCM-LoRA：把 “风格 LoRA” 和 “加速 LoRA” 合并，既能保持风格，又能把采样步从 50 减到 4；
- LoRA-Composer：多个 LoRA 组合，比如 “猫 LoRA + 梵高风格 LoRA”，能生成 “梵高风格的猫”，还能控制位置和大小。

应用十分广泛：

4.2 标签高效训练：少用数据，甚至不用标注

很多场景没有大量标注数据，论文讲了两种解决思路：

4.2.1 偏好优化（对齐人类审美）

传统训练只看 “损失小”，但损失小不代表生成的图好看。偏好优化的思路是：

训一个 “奖励模型（RM）”：用人类标注的 “偏好数据”（比如 “A 图比 B 图好看”）训 RM，让 RM 能给图打分；
用 RM 指导扩散模型训练：
- 直接微调：选 RM 打分高的样本训模型（RAFT 用这个方法，避免过拟合）；
- RLHF：把扩散的去噪过程当成 “马尔可夫决策过程”，用强化学习最大化 RM 分数（DDPO 是代表，比传统 RLHF 更稳定）。

4.2.2 个性化训练（小数据定制）

比如用 10 张自己的照片训模型，让它能生成 “自己风格的图”。

Fine-tuning 派：
- DreamBooth：用 “[V]” 这样的特殊 token 代表目标物体，训的时候加 “类别先验”（比如 “[V] 是一只猫”），避免过拟合；
- Textual Inversion：只训文本嵌入，不训扩散模型，参数量极小（几 K），适合低资源场景。
Encoder 派：
- BLIP-Diffusion：用 Q-Former（BLIP 的 encoder）提取参考图的特征，注入扩散模型，不用微调扩散模型本身，零样本就能个性化生成；
- ELITE：从粗到细提取目标特征，先训一个 “粗 encoder” 抓整体，再训 “细 encoder” 抓细节，生成质量比 DreamBooth 高。

五、快速采样与推理：把 1000 步压到 10 步内

扩散模型最大的落地障碍是 “采样慢”，论文第 5 章把快速采样方法分成 “无训练依赖” 和 “有训练依赖” 两类，覆盖了几乎所有主流方案。

5.1 无训练依赖方法：不用训新模型，直接改采样逻辑

这类方法最实用，直接在预训练模型上改，不用额外数据。

5.1.1 SDE/ODE 求解器优化

扩散模型的采样过程本质是解 SDE/ODE，优化求解器就能减少步数。

SDE 求解器：
- CLD（Critically-damped Langevin Diffusion）：加一个 “速度变量” $v_t$ ，让扩散在 “数据 - 速度” 联合空间进行，避免欠阻尼振荡和过阻尼慢收敛，采样步从 1000 减到 50；
- 自适应步长：根据误差调整步长（比如 Jolicoeur-Martineau 的方法），误差小就加大步长，误差大就缩小，平均步数能减 40%。
ODE 求解器（确定性采样，比 SDE 快）：
- DDIM：把扩散过程改成非马尔可夫的，采样步可以自由设（比如 50 步→10 步），质量下降少；
- DPM-Solver：发现扩散 ODE 可以拆成 “线性 + 非线性” 两部分，线性部分能解析解，非线性部分用泰勒展开近似，10 步就能达到 DDPM 1000 步的质量；
- PNDM：在流形上解 ODE，避免采样时跳出模型的 “有效区域”，10 步采样的 FID 比 DDIM 低 15%。

5.1.2 检索式加速（ReDi）

思路很简单：采样前几步生成的特征，去预存的 “轨迹库” 里找相似的，后面的步骤直接用库中的轨迹，不用重新算。

关键：前几步决定图像布局，后面几步只加细节，布局相似的话细节可以复用；
效果：采样步从 50 减到 20，FID 只降 0.3，适合实时应用。

5.2 有训练依赖方法：训一个 “轻量学生模型”

用预训练的 “教师模型”（比如 100 步采样的 SD）训一个 “学生模型”，让学生模型能 1-10 步出图。

5.2.1 知识蒸馏

分布蒸馏：让学生模型的生成分布和教师模型对齐（比如 Denoising Student 训 1 步模型，对齐 100 步教师模型的分布）；
轨迹蒸馏：把教师模型的采样轨迹（每一步的 $x_t$ ）当成监督，训学生模型直接预测最终 $x_0$ （比如 Rectified Flow 把轨迹改成直线，1 步就能采样）；
对抗蒸馏：加一个判别器，让学生模型生成的图和教师模型的图 “看起来一样”（比如 ADD 用 DINOv2 当判别器，1 步采样 FID 接近教师模型）。

5.2.2 一致性模型（CM）

这是个里程碑方法，核心是 “让模型在任意步的预测都一致”：

训练目标：如果从 $x_{t+1}$ 去噪一步得到 $x_t$ ，那么用模型直接从 $x_{t+1}$ 预测 $x_0$ ，和从 $x_t$ 预测 x_0，结果要一致；
效果：不用蒸馏，直接训一个 CM，4 步采样就能达到 SD 50 步的质量，还能零样本适配超分、修复任务。

5.2.3 GAN 融合（DDGAN）

扩散模型生成质量高但慢，GAN 快但质量差，融合两者：

做法：用 GAN 的目标训扩散模型，让模型在少步采样时生成 “多模态分布”（不用再假设是高斯分布）；
效果：UFOGen 用这个方法实现 1 步采样，MS-COCO 上 FID 比 SD 50 步只高 2.1，速度快 50 倍。

六、高效部署：从云端到手机，全场景覆盖

训练和采样优化完，最后一步是落地。论文第 6 章把部署分成 “工具化” 和 “服务化”，对应不同用户需求。

6.1 部署为工具：给开发者用的灵活方案

这类工具强调 “可定制”，适合研究员和开发者调参、改模型。

ComfyUI：
- 节点式界面，把 “加载模型→加控制信号→采样→解码” 拆成节点，拖拖拽拽就能搭流程；
- 优点：灵活，支持自定义节点（比如加个 LoRA 节点、ControlNet 节点），适合调试新算法；
- 缺点：学习曲线陡，新手用不惯。
Automatic1111 WebUI：
- 表单式界面，输入 prompt、采样步、分辨率就能生成，支持插件（比如 ControlNet、DreamBooth 插件）；
- 优点：易用性高，新手半小时就能上手，插件生态丰富；
- 缺点：自定义能力弱，改底层逻辑（比如换 backbone）不方便。

6.2 部署为服务：给普通用户用的 “一键生成”

服务化要解决 “低延迟、跨平台、低成本”，论文里讲了几个关键技术：

6.2.1 移动端部署

手机算力有限，核心是 “模型压缩 + 采样优化”：

SnapFusion：
- 优化 U-Net：去掉冗余卷积，用 “进化训练” 让模型适应少步采样；
- 结果：iPhone 14 Pro 生成 512x512 图只要 2 秒，比之前的方法快 6 倍，内存控制在 2GB 内。
MobileDiffusion：
- 极致压缩：U-Net 用 “共享投影矩阵” 减参，VAE 解码器剪枝，采样用 UFOGen 的 1 步方法；
- 结果：iPhone 15 Pro 生成 512x512 图只要 0.2 秒，还支持边缘图控制、LoRA 风格。

6.2.2 云端部署

云端要处理高并发、高分辨率，核心是 “并行计算 + 资源调度”：

DistriFusion：
- 分片并行：把高分辨率图像切成 patch，分给多个 GPU 处理，复用前一步的全局特征，减少通信；
- 结果：8 张 A100 生成 3840x3840 图，速度比单卡快 6.1 倍，FID 几乎不变。
PipeFusion：
- 管道并行：把 DiT 模型的层分给不同 GPU，同时处理不同采样步，只传关键层的激活值，减少通信量；
- 结果：4 张 A100 生成 8192x8192 图，延迟比 DistriFusion 低 40%，还不会 OOM。
AsyncDiff：
- 异步并行：打破采样步的顺序依赖，多个步同时算，用 “步间相似性” 预测中间结果；
- 结果：4 张 A5000 跑 SDv2.1，速度快 4 倍，CLIP 分数只降 0.38。

七、应用场景

论文第 7 章覆盖了 7 个核心应用，每个场景都有明确的技术选型，不是空谈。

7.1 图像合成

定制生成：用 DreamBooth+LoRA 做 “个人风格定制”，比如训一个 “自己的头像 LoRA”，生成各种场景的头像；
多语言支持：用 Hunyuan-DiT（mCLIP+mT5）、Kolors（ChatGLM3）支持中文 prompt，比如 “一个戴红帽子的白发老人” 生成效果比 SD 准；
安全生成：加隐写水印（比如 Safe-SD），生成的图里藏 “不可见水印”，防止版权纠纷。

7.2 图像编辑

指令编辑：InstructPix2Pix 用文本指令编辑（比如 “把猫变成狗”），ControlNet 用边缘图控制编辑（比如 “按素描改图”）；
虚拟试衣：OutfitAnyone 用扩散模型做 “超高清虚拟试衣”，衣服褶皱、光影效果比传统方法真实；
低阶视觉：超分（CDDF 用 10 步扩散做 4K 超分）、去模糊（DiffIR 用 20 步扩散去运动模糊）、修复（RePaint 用 50 步扩散修复大面积缺失）。

7.3 视频生成

可控生成：AnimateDiff 用 LoRA 控制动作（比如 “走路”“跑步”），ControlVideo 用深度图控制镜头运动；
长视频生成：Open-Sora 用 3D VAE 压缩视频，Latte 用 DiT 做时空建模，能生成 16 秒 512x512 视频；
世界模拟：Sora 把视频模型当 “世界模拟器”，能生成物理规律一致的视频（比如水流、物体碰撞），但闭源，论文里提了 Open-Sora 作为开源替代。

7.4 视频编辑

视频虚拟试衣：ViViD 用层级约束固定人物姿态与背景（比如避免试衣后人物动作脱节），OutfitAnyone 通过 3D 人体姿态估计实现衣物贴合（比如走路时衣角自然摆动）；
视频动作编辑：MotionEditor 用单样本微调 AnimateDiff 控制动作（比如 “慢走改快走”），DragVideo 靠注意力机制优化实现拖拽式编辑（比如调整人物手部位置）；
统一编辑：FLATTEN 用光流引导特征融合（比如同时修改风格与动作节奏），Dreamix 通过大规模视频 - 文本训练支持多需求编辑（比如 “人物骑行车改骑独角兽”）；
零样本编辑：无训练适配方案用特征传播（比如将关键帧编辑特征传递到相邻帧）、注意力调整（比如编辑时参考相邻帧相似区域）解决时空失真（比如避免物体位置跳变）。

7.5 3D 合成

文本转 3D：DreamFusion 用文本生成 3D 模型，ProficDreamer 用 LoRA 控制 3D 物体姿态；
数字人：RodinHD 生成高保真 3D 头像，DiffPortrait3D 支持零样本视角合成（比如从正面图生成侧面图）；
动作建模：MotionDiffuse 用文本生成人类动作（比如 “跳舞”），Animate Anyone 用单张图生成连贯的人物动画。

7.6 医学成像

模态转换：用扩散模型把 CT 转 MRI（DiffMa），减少患者辐射暴露；
数据增强：合成高质量医学图像（比如病理切片），解决标注数据少的问题；
异常检测：生成 “健康器官图像”，和真实图像对比找异常区域（比如肺癌筛查）。

7.7 生物信息

蛋白质设计：AlphaFold3 用扩散模型预测蛋白质结构，RFdiffusion 设计新蛋白质（比如酶）；
分子设计：DiffDock 预测小分子药物和蛋白质的结合构象，加速药物研发；
抗体设计：DiffAb 生成抗原特异性抗体，比传统方法快 10 倍。

八、未来方向

论文最后提了几个关键方向，都是现在行业的痛点：

统一多模态控制框架：现在 ControlNet 只支持视觉条件，Adapter 要为每个任务改结构，未来需要一个框架能同时处理文本、图像、深度、音频等多模态条件，不用重训；
动态网络：把 MoE（混合专家）加到扩散模型里，比如按输入内容激活不同专家模块（比如生成风景图激活 “天空专家”，生成人物激活 “人脸专家”），省计算；
训练 - 采样权衡：现在无训练方法要 10 步以上才保证质量，有训练方法训起来贵，未来要结合两者，比如用少量数据训一个 “轻量加速模块”，插在预训练模型里；
低资源部署：现在手机端生成 1024x1024 图还很慢，未来要做更极致的压缩（比如量化到 4bit）、硬件适配（比如用 NPU 加速）；
涌现能力：让扩散模型像 LLM 一样，参数量大到一定程度出现 “新能力”（比如 Sora 的世界模拟），现在还不清楚扩散模型的涌现阈值在哪。