当前位置: 首页 > news >正文

【论文精读/Survey】高效扩散模型:从原理到实践的全面解析

标题:Efficient Diffusion Models: A Comprehensive Survey from Principles to Practices

作者:Zhiyuan Ma, Yuzhu Zhang, Guoli Jia, Liangliang Zhao, Yichao Ma, Mingjie Ma, Gaofeng Liu, Kaiyan Zhang, Jianjun Li, Bowen Zhou

单位:1Tsinghua University(清华大学), 2HUST(华中科技大学), 3SJTU(上海交通大学), 4Shanghai AI Lab(上海人工智能实验室)

发表TPAMI 2024

论文链接:https://arxiv.org/pdf/2410.11795

代码链接:https://github.com/ponyzym/Efficient-Diffusion-Models-Survey

关键词:Efficient Diffusion Models, Diffusion Model Principles, Efficient Architecture, Efficient Training, Fast Inference, Model Deployment, Generative AI

***关注一下吧,一起探索更多前沿内容...***


扩散模型(Diffusion Models, DMs)作为近年来生成式 AI 领域的 “明星模型”,凭借扎实的理论基础和卓越的生成能力,已在图像合成、视频生成、分子设计等多个领域实现突破。

然而,其高计算复杂度、长采样耗时等问题,限制了在低资源场景的落地。如果你和我一样,在实际用扩散模型时被 “训练慢、采样久、部署难” 折磨过,那这篇《Efficient Diffusion Models》绝对会有很大帮助。这篇来自清华、华科等团队的综述,不是空谈理论,而是把 “如何让扩散模型更快、更省资源” 的每一步都拆得明明白白。论文发表在TPAMI上,充分经过了同行的审阅。

一、先搞懂:为什么要做 “高效扩散模型”?

在聊技术前,得先明白我们的痛点到底在哪。扩散模型这几年确实猛,从 Stable Diffusion 到 Sora,生成质量没话说,但实际用起来全是坑:

  • 采样慢:传统 DDPM 要 1000 步才能出一张图,就算是优化后的模型,默认也得 50 步,实时应用根本扛不住;
  • 训练贵:SDXL 参数量 2.6B,训一次要好几块 A100,小团队根本玩不起;
  • 部署难:手机端跑不动,云端多用户并发时延迟能飙到几十秒;
  • 泛化差:改个任务(比如从图生图转视频生成),要么重训模型,要么加一堆额外模块,灵活性太低。

这篇论文的核心就是解决这些问题。它没搞虚的,直接用 “效率” 串起整个领域,从理论原理到落地应用,整理出了一个完整的技术框架(图 2)。而且作者还搞了个 GitHub 仓库实时更最新论文,真心良心()。

二、扩散模型的底层原理:高效优化的根基

要做高效优化,得先懂扩散模型的 “骨架”。论文第 2 章把最核心的理论讲透了,这部分是后面所有优化的基础,必须吃透。

2.1 扩散模型的数学本质:两个对称过程

扩散模型的核心就是 “前向加噪” 和 “反向去噪”,论文分别从离散和连续两个角度讲,其实本质是一回事,只是数学工具不同。

2.1.1 离散扩散(DDPM 那套)
  • 前向加噪:从真实图片 x_0 开始,每一步按固定规则加一点高斯噪声,直到 x_T 变成纯噪声(服从 \mathcal{N}(0,I))。关键公式是这个条件分布:q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{\alpha_t}x_{t-1}, (1-\alpha_t)I),这里 \alpha_t = 1 - \beta_t\beta_t 是提前设好的 “噪声强度”(一般从 0.0001 线性增到 0.02),保证加噪过程平稳。更实用的是直接算 x_t 和 x_0 的关系(不用一步步推):q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t}x_0, (1-\bar{\alpha}_t)I)\bar{\alpha}_t 是 \alpha_1 到 \alpha_t 的乘积,意思是 “t 步后还保留的原始信息比例”,越往后 \bar{\alpha}_t 越小,噪声越多。

  • 反向去噪:模型要学的就是从 x_T 倒推回 x_0,核心是预测每一步的噪声 \epsilon_\theta(x_t, t),然后用这个噪声算 x_{t-1} 的分布:p_\theta(x_{t-1} | x_t) \approx \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \sigma_t^2 I),这里 \mu_\theta 是均值(由噪声预测网络算出来),\sigma_t^2 可以固定(比如用 \beta_t),也可以让模型预测。

  • 训练目标:本质是最小化 “变分下界(VLB)”,论文把它拆成三部分,实际训练时简化成 “预测噪声的 MSE 损失”:\mathcal{L} = \mathbb{E}_{x_0, \epsilon, t} \left[ \|\epsilon - \epsilon_\theta(x_t, t)\|^2 \right],就是让模型预测的噪声 \epsilon_\theta 和真实加进去的噪声 \epsilon 尽量接近,简单直接。

2.1.2 连续扩散(Score-SDE 那套)

离散模型步长多了计算麻烦,连续模型用随机微分方程(SDE)把加噪 / 去噪过程写成连续函数,更灵活。

  • 前向 SDEdx_t = \mu(x_t, t)dt + \sigma(t)dw_tw_t 是布朗运动(随机项),\mu 和 \sigma 是漂移和扩散系数;
  • 反向 ODE:去噪过程可以看成解一个 “概率流 ODE”(PF-ODE),不用随机项,更稳定:dx_t = \left( \mu(x_t, t) - \sigma(t)^2 \nabla_{x_t} \log p_t(x_t) \right) dt,这里 \nabla_{x_t} \log p_t(x_t) 是 “分数函数”(可以理解为 “数据分布的梯度方向”),由模型 \epsilon_\theta 近似。

为什么要提连续模型?因为后面很多快速采样方法(比如 DDIM、DPM-Solver)都是从连续视角推导的,把几百步采样压缩到十几步甚至几步。

2.2 分数匹配:让模型学会 “找方向”

分数函数 \nabla_x \log p(x) 是连续扩散的核心,它表示 “从当前点往数据分布中心走的方向”。但这个函数没法直接算,所以用 “分数匹配” 来估计。

核心思想:给一堆数据样本,训练一个网络 s_\theta(x, t) 去近似 \nabla_x \log p_t(x),损失函数是 “分数匹配损失”:\mathcal{L}_{sm} = \mathbb{E}_{x, t, \epsilon} \left[ \|s_\theta(x + \sigma(t)\epsilon, t) + \frac{\epsilon}{\sigma(t)}\|^2 \right],简单说,就是让模型预测的 “方向” 和真实的 “噪声方向”(\epsilon/\sigma(t))相反,这样去噪时才能往正确方向走。

2.3 Latent 建模:把扩散从像素空间 “降维”

这是高效扩散的关键一步!传统模型在 RGB 像素空间(比如 512x512x3)做扩散,计算量爆炸。Latent 扩散(LDM)的思路是:先用 VAE 把图片压缩到低维 latent 空间(比如 64x64x4),再在这个小空间里做扩散,最后用 VAE 解码回像素。

论文里给了具体流程(图 3):

  1. VAE 压缩:输入图片 x(H×W×3),经 encoder 得到 latent z_0(h×w×d),缩放因子 f=H/h=8(比如 512→64),维度直接降 64 倍;
  2. Latent 扩散:在 z 空间做加噪 / 去噪,模型还是预测噪声,但输入输出都是 latent;
  3. 解码重建:扩散后的 z_0 经 decoder 变回图片 \hat{x}

关键是 VAE 的参数在扩散训练时是 “冻结” 的,只训扩散模型,省了大量计算。现在主流模型(SD、SDXL)全是这套架构,没有例外。

2.4 条件引导:让扩散 “听话”

光能生成图还不够,得让模型按文本、深度图等条件生成。论文里讲了几种核心方法:

2.4.1 文本引导(Classifier-Free Guidance)

这是 Stable Diffusion 用的方法,公式很直观:\overline{\epsilon}_\theta(z_t, t, c, \emptyset) = w·\epsilon_\theta(z_t, t, c) + (1-w)·\epsilon_\theta(z_t, t, \emptyset)

  • c 是文本嵌入(比如 CLIP 编码的),\emptyset 是 “空文本”(全零向量);
  • w 是引导权重(默认 7.5),越大文本对生成的影响越强,但太大会出 artifacts。

原理是:同时训 “有文本条件” 和 “无文本条件” 的噪声预测,推理时用两者的差值放大文本信号,既保证生成质量,又不用额外训分类器。

2.4.2 结构引导(ControlNet)

比如用边缘图、深度图控制生成内容,ControlNet 的做法很巧妙(图 8):

  1. 把预训练好的 U-Net 拆成 “冻结部分(\theta_{locked})” 和 “可训练副本(\theta_{copy})”;
  2. 在副本的每一层加入控制信号(比如边缘特征),用 “零卷积” 初始化副本参数,保证初始时和冻结部分输出一致;
  3. 训练时只更副本参数,既保留预训练模型的生成能力,又能让控制信号生效。

后来的 ControlNet-XS、ControlNeXt 都是在这个基础上减参(比如用轻量卷积)、加归一化,让模型更小、训得更快。

三、高效架构:从 U-Net 到 Mamba,选对骨架很重要

扩散模型的 “backbone” 直接决定效率,论文第 3 章对比了当前主流架构,每个都有明确的适用场景,不是盲目堆参。

3.1 VAE:Latent 空间的 “压缩器”

再补一句,VAE 是 Latent 扩散的基础,论文里对比了不同 VAE 的性能(表 2),关键看两个指标:

  • 压缩比:比如 1×8×8 表示 H/W 各缩 8 倍,通道数可能增,总体维度降很多;
  • 重建质量:用 PSNR(越高越好)、LPIPS(越低越好)衡量,比如 SVD VAE 比 SD2.1 VAE 重建质量更高。

视频生成里常用 “3D VAE”(图 4),但直接训 3D VAE 成本太高,所以很多模型(比如 Open-Sora)用 “2D+3D 混合结构”,先对空间降维,再处理时间维度,平衡效率和质量。

3.2 去噪网络 backbone:三大流派

3.2.1 U-Net 系(传统派)

DDPM 最早用的就是 U-Net,核心是 “编码器下采样(提特征)+ 解码器上采样(恢复分辨率)+ 跳连(传细节)”。

  • 优点:空间建模能力强,适合小分辨率(比如 256x256);
  • 缺点:参数量大,高分辨率(1024x1024)和视频生成时扛不住。

后来的优化方向:

  • 加注意力模块(比如 SD 在 U-Net 中间层加交叉注意力,结合文本嵌入);
  • 加宽 / 加深网络(比如 ADM 把 U-Net 做宽,性能超过 GAN);
  • 3D 化(比如 VDM 加 3D 卷积,适配视频生成)。
3.2.2 Transformer 系(DiT 为代表)

Transformer 擅长建模长距离依赖,这对高分辨率生成很重要。论文里重点讲了 DiT(Diffusion Transformer):

  • 做法:把 latent 特征切成 patch,用 ViT 结构代替 U-Net,每一层是 “注意力 + MLP”,没有卷积;
  • 优点:扩展性强,参数量能轻松涨到几十亿(比如 Sora 用的就是类似架构),高分辨率生成质量比 U-Net 好;
  • 缺点:注意力是 O(n^2) 复杂度,n 大了(比如 1024x1024 的 patch 数)计算量爆炸。

优化方案:

  • U-ViT:把 U 型结构和 Transformer 结合,下采样减少 patch 数,缓解计算压力;
  • PixArt-α:用 T5 编码文本,通过交叉注意力注入条件,去掉 DiT 里冗余的类条件分支,提速 30%。
3.2.3 SSM 系(Mamba 新势力)

Transformer 的 O(n^2) 复杂度是硬伤,SSM(状态空间模型)比如 Mamba 能做到 O(n) 复杂度,专门解决长序列问题。论文里的 DiM(Diffusion Mamba)就是把 Mamba 改成扩散 backbone:

  • 关键设计:让 Mamba 块按 “上下左右” 四个方向扫描特征,避免单向扫描丢失空间连续性;
  • 优点:高分辨率(比如 2048x2048)和长视频生成时,速度比 Transformer 快好几倍,参数量还小;
  • 缺点:空间细节建模不如 U-Net,适合对速度要求高的场景。

3.3 文本编码器:从 CLIP 到 LLM

文本引导的核心是 “把文本语义准确传给扩散模型”,论文里对比了不同文本编码器(表 1):

  • CLIP 系:SD 用的 CLIP ViT-L,优点是快、轻,缺点是理解复杂文本(比如长句子、多物体)能力弱;
  • LLM 系:Imagen 用 T5-XXL,SD3.0 用 CLIP+T5+OpenCLIP 组合,能理解更细的语义(比如 “红色帽子戴在白发老人头上”);
  • 多语言支持:Hunyuan-DiT 用 mCLIP + mT5,支持中文;Kolors 用 ChatGLM3,对中文 prompt 理解更准(图 6 能看到生成效果差异)。

四、高效训练与微调:少训参数,少用数据

训练扩散模型太费资源,论文第 4 章讲的 “参数高效” 和 “标签高效” 方法,是现在落地的关键。

4.1 参数高效训练:只训一小部分参数

不用全量微调,只更新模型的 “边角料”,既能适配新任务,又不丢预训练能力。可分为三类:ControlNet、适配器、LoRA。

4.1.1 ControlNet

前面提过(图8),核心是 “冻结原模型,训一个副本 + 控制模块”,参数增量一般在 100M 以内(比全训 SD 的 860M 省多了)。变种:

  • ControlNet-XS:减少控制模块的通道数,用高频通信让控制信号更高效,参数量减到 30M,训得更快;
  • ControlNeXt:用 “交叉归一化” 代替零卷积,让副本和原模型参数分布更对齐,收敛更快。
4.1.2 Adapter(适配器)

比 ControlNet 更灵活,在原模型里插小模块(比如在 Transformer 层间加 “bottleneck 结构”),只训这些小模块。论文里的 T2I-Adapter 是典型:

  • 做法:在 SD 的 U-Net 各层插 Adapter,输入是控制信号(比如边缘图),输出是调整后的特征;
  • 优点:参数量只有 77M,训 3 天就能适配新控制任务(比如素描转图);
  • 场景:可控生成(T2I-Adapter 支持素描、深度图)、领域适配(X-Adapter 把图像模型适配到视频)。
4.1.3 LoRA(低秩适应)

现在最火的微调方法,核心是 “用低秩矩阵近似参数更新”。

  • 原理:假设模型权重更新 \Delta W 可以分解成 A×BA 是 d\times rB 是 r\times kr 是低秩,比如 4、8),则 W_{new} = W_0 + A×B
  • 优点:参数量极小(比如 SD 用 LoRA 训风格,参数量只有 100K),训完能和原模型合并,推理时不增加延迟;
  • 变种
    • LCM-LoRA:把 “风格 LoRA” 和 “加速 LoRA” 合并,既能保持风格,又能把采样步从 50 减到 4;
    • LoRA-Composer:多个 LoRA 组合,比如 “猫 LoRA + 梵高风格 LoRA”,能生成 “梵高风格的猫”,还能控制位置和大小。

应用十分广泛:

4.2 标签高效训练:少用数据,甚至不用标注

很多场景没有大量标注数据,论文讲了两种解决思路:

4.2.1 偏好优化(对齐人类审美)

传统训练只看 “损失小”,但损失小不代表生成的图好看。偏好优化的思路是:

  1. 训一个 “奖励模型(RM)”:用人类标注的 “偏好数据”(比如 “A 图比 B 图好看”)训 RM,让 RM 能给图打分;
  2. 用 RM 指导扩散模型训练:
    • 直接微调:选 RM 打分高的样本训模型(RAFT 用这个方法,避免过拟合);
    • RLHF:把扩散的去噪过程当成 “马尔可夫决策过程”,用强化学习最大化 RM 分数(DDPO 是代表,比传统 RLHF 更稳定)。
4.2.2 个性化训练(小数据定制)

比如用 10 张自己的照片训模型,让它能生成 “自己风格的图”。

  • Fine-tuning 派
    • DreamBooth:用 “[V]” 这样的特殊 token 代表目标物体,训的时候加 “类别先验”(比如 “[V] 是一只猫”),避免过拟合;
    • Textual Inversion:只训文本嵌入,不训扩散模型,参数量极小(几 K),适合低资源场景。
  • Encoder 派
    • BLIP-Diffusion:用 Q-Former(BLIP 的 encoder)提取参考图的特征,注入扩散模型,不用微调扩散模型本身,零样本就能个性化生成;
    • ELITE:从粗到细提取目标特征,先训一个 “粗 encoder” 抓整体,再训 “细 encoder” 抓细节,生成质量比 DreamBooth 高。

五、快速采样与推理:把 1000 步压到 10 步内

扩散模型最大的落地障碍是 “采样慢”,论文第 5 章把快速采样方法分成 “无训练依赖” 和 “有训练依赖” 两类,覆盖了几乎所有主流方案。

5.1 无训练依赖方法:不用训新模型,直接改采样逻辑

这类方法最实用,直接在预训练模型上改,不用额外数据。

5.1.1 SDE/ODE 求解器优化

扩散模型的采样过程本质是解 SDE/ODE,优化求解器就能减少步数。

  • SDE 求解器

    • CLD(Critically-damped Langevin Diffusion):加一个 “速度变量”v_t,让扩散在 “数据 - 速度” 联合空间进行,避免欠阻尼振荡和过阻尼慢收敛,采样步从 1000 减到 50;
    • 自适应步长:根据误差调整步长(比如 Jolicoeur-Martineau 的方法),误差小就加大步长,误差大就缩小,平均步数能减 40%。
  • ODE 求解器(确定性采样,比 SDE 快):

    • DDIM:把扩散过程改成非马尔可夫的,采样步可以自由设(比如 50 步→10 步),质量下降少;
    • DPM-Solver:发现扩散 ODE 可以拆成 “线性 + 非线性” 两部分,线性部分能解析解,非线性部分用泰勒展开近似,10 步就能达到 DDPM 1000 步的质量;
    • PNDM:在流形上解 ODE,避免采样时跳出模型的 “有效区域”,10 步采样的 FID 比 DDIM 低 15%。
5.1.2 检索式加速(ReDi)

思路很简单:采样前几步生成的特征,去预存的 “轨迹库” 里找相似的,后面的步骤直接用库中的轨迹,不用重新算。

  • 关键:前几步决定图像布局,后面几步只加细节,布局相似的话细节可以复用;
  • 效果:采样步从 50 减到 20,FID 只降 0.3,适合实时应用。

5.2 有训练依赖方法:训一个 “轻量学生模型”

用预训练的 “教师模型”(比如 100 步采样的 SD)训一个 “学生模型”,让学生模型能 1-10 步出图。

5.2.1 知识蒸馏
  • 分布蒸馏:让学生模型的生成分布和教师模型对齐(比如 Denoising Student 训 1 步模型,对齐 100 步教师模型的分布);
  • 轨迹蒸馏:把教师模型的采样轨迹(每一步的 x_t)当成监督,训学生模型直接预测最终 x_0(比如 Rectified Flow 把轨迹改成直线,1 步就能采样);
  • 对抗蒸馏:加一个判别器,让学生模型生成的图和教师模型的图 “看起来一样”(比如 ADD 用 DINOv2 当判别器,1 步采样 FID 接近教师模型)。
5.2.2 一致性模型(CM)

这是个里程碑方法,核心是 “让模型在任意步的预测都一致”:

  • 训练目标:如果从 x_{t+1} 去噪一步得到 x_t,那么用模型直接从 x_{t+1} 预测 x_0,和从 x_t 预测 x_0,结果要一致;
  • 效果:不用蒸馏,直接训一个 CM,4 步采样就能达到 SD 50 步的质量,还能零样本适配超分、修复任务。
5.2.3 GAN 融合(DDGAN)

扩散模型生成质量高但慢,GAN 快但质量差,融合两者:

  • 做法:用 GAN 的目标训扩散模型,让模型在少步采样时生成 “多模态分布”(不用再假设是高斯分布);
  • 效果:UFOGen 用这个方法实现 1 步采样,MS-COCO 上 FID 比 SD 50 步只高 2.1,速度快 50 倍。

六、高效部署:从云端到手机,全场景覆盖

训练和采样优化完,最后一步是落地。论文第 6 章把部署分成 “工具化” 和 “服务化”,对应不同用户需求。

6.1 部署为工具:给开发者用的灵活方案

这类工具强调 “可定制”,适合研究员和开发者调参、改模型。

  • ComfyUI

    • 节点式界面,把 “加载模型→加控制信号→采样→解码” 拆成节点,拖拖拽拽就能搭流程;
    • 优点:灵活,支持自定义节点(比如加个 LoRA 节点、ControlNet 节点),适合调试新算法;
    • 缺点:学习曲线陡,新手用不惯。
  • Automatic1111 WebUI

    • 表单式界面,输入 prompt、采样步、分辨率就能生成,支持插件(比如 ControlNet、DreamBooth 插件);
    • 优点:易用性高,新手半小时就能上手,插件生态丰富;
    • 缺点:自定义能力弱,改底层逻辑(比如换 backbone)不方便。

6.2 部署为服务:给普通用户用的 “一键生成”

服务化要解决 “低延迟、跨平台、低成本”,论文里讲了几个关键技术:

6.2.1 移动端部署

手机算力有限,核心是 “模型压缩 + 采样优化”:

  • SnapFusion

    • 优化 U-Net:去掉冗余卷积,用 “进化训练” 让模型适应少步采样;
    • 结果:iPhone 14 Pro 生成 512x512 图只要 2 秒,比之前的方法快 6 倍,内存控制在 2GB 内。
  • MobileDiffusion

    • 极致压缩:U-Net 用 “共享投影矩阵” 减参,VAE 解码器剪枝,采样用 UFOGen 的 1 步方法;
    • 结果:iPhone 15 Pro 生成 512x512 图只要 0.2 秒,还支持边缘图控制、LoRA 风格。
6.2.2 云端部署

云端要处理高并发、高分辨率,核心是 “并行计算 + 资源调度”:

  • DistriFusion

    • 分片并行:把高分辨率图像切成 patch,分给多个 GPU 处理,复用前一步的全局特征,减少通信;
    • 结果:8 张 A100 生成 3840x3840 图,速度比单卡快 6.1 倍,FID 几乎不变。
  • PipeFusion

    • 管道并行:把 DiT 模型的层分给不同 GPU,同时处理不同采样步,只传关键层的激活值,减少通信量;
    • 结果:4 张 A100 生成 8192x8192 图,延迟比 DistriFusion 低 40%,还不会 OOM。
  • AsyncDiff

    • 异步并行:打破采样步的顺序依赖,多个步同时算,用 “步间相似性” 预测中间结果;
    • 结果:4 张 A5000 跑 SDv2.1,速度快 4 倍,CLIP 分数只降 0.38。

七、应用场景

论文第 7 章覆盖了 7 个核心应用,每个场景都有明确的技术选型,不是空谈。

7.1 图像合成

  • 定制生成:用 DreamBooth+LoRA 做 “个人风格定制”,比如训一个 “自己的头像 LoRA”,生成各种场景的头像;
  • 多语言支持:用 Hunyuan-DiT(mCLIP+mT5)、Kolors(ChatGLM3)支持中文 prompt,比如 “一个戴红帽子的白发老人” 生成效果比 SD 准;
  • 安全生成:加隐写水印(比如 Safe-SD),生成的图里藏 “不可见水印”,防止版权纠纷。

7.2 图像编辑

  • 指令编辑:InstructPix2Pix 用文本指令编辑(比如 “把猫变成狗”),ControlNet 用边缘图控制编辑(比如 “按素描改图”);
  • 虚拟试衣:OutfitAnyone 用扩散模型做 “超高清虚拟试衣”,衣服褶皱、光影效果比传统方法真实;
  • 低阶视觉:超分(CDDF 用 10 步扩散做 4K 超分)、去模糊(DiffIR 用 20 步扩散去运动模糊)、修复(RePaint 用 50 步扩散修复大面积缺失)。

7.3 视频生成

  • 可控生成:AnimateDiff 用 LoRA 控制动作(比如 “走路”“跑步”),ControlVideo 用深度图控制镜头运动;
  • 长视频生成:Open-Sora 用 3D VAE 压缩视频,Latte 用 DiT 做时空建模,能生成 16 秒 512x512 视频;
  • 世界模拟:Sora 把视频模型当 “世界模拟器”,能生成物理规律一致的视频(比如水流、物体碰撞),但闭源,论文里提了 Open-Sora 作为开源替代。

7.4 视频编辑

  • 视频虚拟试衣:ViViD 用层级约束固定人物姿态与背景(比如避免试衣后人物动作脱节),OutfitAnyone 通过 3D 人体姿态估计实现衣物贴合(比如走路时衣角自然摆动);
  • 视频动作编辑:MotionEditor 用单样本微调 AnimateDiff 控制动作(比如 “慢走改快走”),DragVideo 靠注意力机制优化实现拖拽式编辑(比如调整人物手部位置);
  • 统一编辑:FLATTEN 用光流引导特征融合(比如同时修改风格与动作节奏),Dreamix 通过大规模视频 - 文本训练支持多需求编辑(比如 “人物骑行车改骑独角兽”);
  • 零样本编辑:无训练适配方案用特征传播(比如将关键帧编辑特征传递到相邻帧)、注意力调整(比如编辑时参考相邻帧相似区域)解决时空失真(比如避免物体位置跳变)。

7.5 3D 合成

  • 文本转 3D:DreamFusion 用文本生成 3D 模型,ProficDreamer 用 LoRA 控制 3D 物体姿态;
  • 数字人:RodinHD 生成高保真 3D 头像,DiffPortrait3D 支持零样本视角合成(比如从正面图生成侧面图);
  • 动作建模:MotionDiffuse 用文本生成人类动作(比如 “跳舞”),Animate Anyone 用单张图生成连贯的人物动画。

7.6 医学成像

  • 模态转换:用扩散模型把 CT 转 MRI(DiffMa),减少患者辐射暴露;
  • 数据增强:合成高质量医学图像(比如病理切片),解决标注数据少的问题;
  • 异常检测:生成 “健康器官图像”,和真实图像对比找异常区域(比如肺癌筛查)。

7.7 生物信息

  • 蛋白质设计:AlphaFold3 用扩散模型预测蛋白质结构,RFdiffusion 设计新蛋白质(比如酶);
  • 分子设计:DiffDock 预测小分子药物和蛋白质的结合构象,加速药物研发;
  • 抗体设计:DiffAb 生成抗原特异性抗体,比传统方法快 10 倍。

八、未来方向

论文最后提了几个关键方向,都是现在行业的痛点:

  1. 统一多模态控制框架:现在 ControlNet 只支持视觉条件,Adapter 要为每个任务改结构,未来需要一个框架能同时处理文本、图像、深度、音频等多模态条件,不用重训;
  2. 动态网络:把 MoE(混合专家)加到扩散模型里,比如按输入内容激活不同专家模块(比如生成风景图激活 “天空专家”,生成人物激活 “人脸专家”),省计算;
  3. 训练 - 采样权衡:现在无训练方法要 10 步以上才保证质量,有训练方法训起来贵,未来要结合两者,比如用少量数据训一个 “轻量加速模块”,插在预训练模型里;
  4. 低资源部署:现在手机端生成 1024x1024 图还很慢,未来要做更极致的压缩(比如量化到 4bit)、硬件适配(比如用 NPU 加速);
  5. 涌现能力:让扩散模型像 LLM 一样,参数量大到一定程度出现 “新能力”(比如 Sora 的世界模拟),现在还不清楚扩散模型的涌现阈值在哪。

九、总结:这篇论文为什么值得读?

这篇综述不是简单罗列论文,而是给了一个 “高效扩散模型” 的完整技术地图:

  • 从理论到落地:每个技术点都讲清 “原理→做法→效果”,比如 LoRA 的低秩分解、DPM-Solver 的 ODE 求解,不是黑箱;
  • 数据翔实:表格里列了 50+ 模型的参数、性能、开源情况,比如表 1 对比 SD 各版本、表 6 对比采样方法的 FID 和步数,能直接当工具书查;
  • 落地导向:部署部分讲了 ComfyUI、MobileDiffusion 等实际工具,不是空谈理论,能直接参考做工程。

如果你是做扩散模型研究的,这篇论文能帮你找清方向;如果你是做工程落地的,这里面的训练、采样、部署方法能直接用。建议配合作者的 GitHub 仓库看,里面有最新的论文和代码链接,跟着更新不会落后。

http://www.dtcms.com/a/554882.html

相关文章:

  • 天津市住房城乡建设部网站网络销售平台推广
  • 网站竞价怎么做wordpress页面添加分类
  • 厅网站建设项目背景福州网站建设个人兼职
  • 网站怎么做定位功能网站截图可以做证据吗
  • 杭州建设项目审批网站宁波跨境电商公司排名前十
  • 网站建设可以经营吗辽宁省营商建设监督局网站
  • 第二周:事件监听 + 用户交互
  • 镇江高端网站定制青海营销网站建设服务
  • SimPy入门实战:用离散事件仿真优化整车装配线人员配置
  • 青岛网站建设全包澄海网站建设
  • 做二手家具回收哪个网站好互联网大厂设计哪家口碑好
  • 建设局网站作用wordpress 下划线 快捷键
  • 金仓KES RAC架构深度解析:高可用数据库的实践与优化
  • 知乎网站开发用的语言商城网站建设计划书
  • 陕西省建设厅便民服务网站太原 招聘 网站建设 技术经理
  • 电影网站的建设目标青岛企业建站系统
  • 【蓝牙】Bluetooth LE Primer 摘要与导读
  • 深度探讨“云+智能计算”,智算新基础设施分论坛议程揭晓 | 2025 龙蜥大会
  • 电话销售网站建设网站标题在哪里修改
  • 安卓蛙、苹果蛙为什么难互通?
  • 做难而正确的事,安踏为中国体育用品产业注入创新DNA
  • 做会计题目的网站1688关键词怎么优化
  • 直流充电桩多枪计量系统集成指南:基于RS485总线与地址寻址的并联通信
  • iis网站重定向设置嘉定建站公司
  • 企业网站设计思路公司网站设计案例
  • 高端网站设计新感觉建站如何修改wordpress登录页
  • 互联网+创新创业大赛项目计划书个人做seo怎么赚钱
  • 福州云建站建网站麻烦吗
  • VLM主流架构分析:Gemini 2.5 Pro 和 Qwen3-VL
  • vue3 - 图片放大镜效果实现