从分层训练到一步生成:Kaiming He 的生成模型进化之路—CVPR2025演讲小结
引言:生成模型的新问题
生成模型(如 Diffusion、Autoregressive)在图像、文本、音频生成领域已经大放异彩。但它们仍然面临一个关键瓶颈:多步生成、推理时间长、无法端到端。
Kaiming He 教授在 CVPR 2025 上做了这场名为《Towards End-to-End Generative Modeling》的教程,深入探讨了:
- 识别模型与生成模型的对偶结构;
- Flow Matching 如何建立路径;
- 平均流(MeanFlow)模型如何实现一步生成。
本文为该教程的详细解读。
Part 1:历史回顾 — 从层级训练到端到端识别
AlexNet之后:端到端识别成为主流
- 自 2012 年 AlexNet 横空出世以来,深度网络训练强调端到端反向传播。
- 模型架构:Layer1 → Layer2 → … → LayerN → 分类头 → Backpropagation。
AlexNet之前:分层训练曾是主流
- 早期模型如 DBN(Deep Belief Net)、Denoising Autoencoders(DAE)使用逐层训练(layer-wise pretraining)。
- 每一层单独训练,并局部构建 loss。
Part 2:历史是否在生成模型中重演?
类似分层训练的现象再次出现:
- Diffusion Models:逐步加噪、逐步去噪。
- Autoregressive Models:一步步生成 token。
它们本质上都像是在执行“多步反向生成”——一个现代的“分层生成”。
Part 3:识别 vs 生成:同一硬币的两面?
一张经典图(作者 Phillip Isola)揭示了这一思想:
- 识别:从数据到抽象(embedding)
- 生成:从抽象到数据
- 两者共享 embedding,是互为镜像的过程。
- 识别强调“确定映射”,生成强调“多样性建构”。
Part 4:流匹配(Flow Matching):桥接路径的方式
识别是数据 → label,生成是 noise → data。
如何构建从 noise 到 data 的路径?
答案之一:Flow Matching
- 借助神经常微分方程(Neural ODE)
- 构建流场(velocity field)
- 将噪声样本逐步“流”向真实数据
但传统 Flow Matching 仍然依赖逐步估计轨迹,本质上仍是多步。
Part 5:MeanFlow — 一步式生成模型的尝试
为了解决多步生成的问题,Kaiming He 和团队提出:
MeanFlow(平均流)模型
关键思想:
- 不再逼近整条路径积分(太贵);
- 直接建模平均速度场(average velocity);
- 用 导数形式 替代积分 → 更高效;
- 推导出 MeanFlow Identity,为训练提供直接目标;
与 Flow Matching 比较:
特性 | Flow Matching | MeanFlow |
---|---|---|
是否积分 | 需要轨迹积分 | 用微分替代积分 |
是否逐步生成 | 是 | 否(一步) |
可否端到端 | 难 | 可以 |
速度建模 | 实时速度 v | 平均速度 u |
Part 6:实验证明
数据集:ImageNet 256x256
- 1-step 生成(1-NFE) 取得 FID ≈ 3.43,媲美传统多步模型。
- 速度提升 70%,保持生成质量。
- 图像样例显示模型具有良好的细节保真度。
Part 7:未来展望
“我们是否仍处在生成模型的 AlexNet 之前?”
- MeanFlow 仍以 Flow Matching 思维为内核;
- 核心目标:找到真正的端到端生成建模方式;
- 挑战:
- 如何同时兼顾速度场、轨迹、分布合理性。
总结:端到端生成建模的曙光
这场教程不仅回顾了生成模型的技术发展,还提出了一个可行的方向——一步式平均流建模。
博客核心要点:
- 生成和识别是“同一硬币的两面”;
- Flow Matching 建立路径,但多步;
- MeanFlow 使用导数替代积分,追求一步建模;
- 实验效果优异,值得进一步关注。
参考资料:
- 📄 论文地址:arXiv: MeanFlow (May 2025)
- Denoising Diffusion Probabilistic Models
- Consistency Models (Song+)
- Neural ODE / Flow Matching