当前位置：首页 > news >正文

从分层训练到一步生成：Kaiming He 的生成模型进化之路—CVPR2025演讲小结

news 2025/7/9 14:50:11

引言：生成模型的新问题

生成模型（如 Diffusion、Autoregressive）在图像、文本、音频生成领域已经大放异彩。但它们仍然面临一个关键瓶颈：多步生成、推理时间长、无法端到端。

Kaiming He 教授在 CVPR 2025 上做了这场名为《Towards End-to-End Generative Modeling》的教程，深入探讨了：

识别模型与生成模型的对偶结构；
Flow Matching 如何建立路径；
平均流（MeanFlow）模型如何实现一步生成。

本文为该教程的详细解读。

Part 1：历史回顾 — 从层级训练到端到端识别

AlexNet之后：端到端识别成为主流

自 2012 年 AlexNet 横空出世以来，深度网络训练强调端到端反向传播。
模型架构：Layer1 → Layer2 → … → LayerN → 分类头 → Backpropagation。

AlexNet之前：分层训练曾是主流

早期模型如 DBN（Deep Belief Net）、Denoising Autoencoders（DAE）使用逐层训练（layer-wise pretraining）。
每一层单独训练，并局部构建 loss。

Part 2：历史是否在生成模型中重演？

类似分层训练的现象再次出现：

Diffusion Models：逐步加噪、逐步去噪。
Autoregressive Models：一步步生成 token。

它们本质上都像是在执行“多步反向生成”——一个现代的“分层生成”。

Part 3：识别 vs 生成：同一硬币的两面？

一张经典图（作者 Phillip Isola）揭示了这一思想：
在这里插入图片描述

识别：从数据到抽象（embedding）
生成：从抽象到数据
两者共享 embedding，是互为镜像的过程。
识别强调“确定映射”，生成强调“多样性建构”。

Part 4：流匹配（Flow Matching）：桥接路径的方式

识别是数据 → label，生成是 noise → data。
如何构建从 noise 到 data 的路径？

答案之一：Flow Matching
在这里插入图片描述

借助神经常微分方程（Neural ODE）
构建流场（velocity field）
将噪声样本逐步“流”向真实数据

但传统 Flow Matching 仍然依赖逐步估计轨迹，本质上仍是多步。
在这里插入图片描述

Part 5：MeanFlow — 一步式生成模型的尝试

为了解决多步生成的问题，Kaiming He 和团队提出：

MeanFlow（平均流）模型

关键思想：

不再逼近整条路径积分（太贵）；
直接建模平均速度场（average velocity）；
用 导数形式 替代积分 → 更高效；
推导出 MeanFlow Identity，为训练提供直接目标；

与 Flow Matching 比较：

特性	Flow Matching	MeanFlow
是否积分	需要轨迹积分	用微分替代积分
是否逐步生成	是	否（一步）
可否端到端	难	可以
速度建模	实时速度 v	平均速度 u

Part 6：实验证明

数据集：ImageNet 256x256

1-step 生成（1-NFE） 取得 FID ≈ 3.43，媲美传统多步模型。
速度提升 70%，保持生成质量。
图像样例显示模型具有良好的细节保真度。

在这里插入图片描述

Part 7：未来展望

“我们是否仍处在生成模型的 AlexNet 之前？”

MeanFlow 仍以 Flow Matching 思维为内核；
核心目标：找到真正的端到端生成建模方式；
挑战：
- 如何同时兼顾速度场、轨迹、分布合理性。

总结：端到端生成建模的曙光

这场教程不仅回顾了生成模型的技术发展，还提出了一个可行的方向——一步式平均流建模。

博客核心要点：

生成和识别是“同一硬币的两面”；
Flow Matching 建立路径，但多步；
MeanFlow 使用导数替代积分，追求一步建模；
实验效果优异，值得进一步关注。

参考资料：

📄 论文地址：arXiv: MeanFlow (May 2025)
- Denoising Diffusion Probabilistic Models
- Consistency Models (Song+)
- Neural ODE / Flow Matching

查看全文

http://www.dtcms.com/a/270104.html

网络--初级

springboot单体项目的发布生产优化

DMA（直接内存访问）是什么？

第2章，[标签 Win32] ：匈牙利标记法

13届蓝桥杯省赛程序设计试题

字符串大小比较的方式|函数的多返回值

作业03-SparkSQL开发

数字化校园升级：传统网络架构与SD-WAN智能方案对比详解

汽车功能安全-软件单元验证 (Software Unit Verification)【定义、目的、要求建议】6

【数据分析】基于 HRS 数据的多变量相关性分析与可视化

uniapp b树

C++笔记之使用bitset对uint32_t类型变量对位状态判断

2025年深圳杉川机器人性格测评和Verify测评SHL题库高分攻略

论文略读：Parameter-efficient transfer learning for NLP

InstructBLIP：迈向具备指令微调能力的通用视觉语言模型

Go语言标识符命名规则详解：工程化实践

Spring的依赖注入（xml）

RISC-V：开源芯浪潮下的技术突围与职业新赛道（一）为什么RISC-V是颠覆性创新？

安装 asciidoctor-vscode 最新版

针对 SSD 固态硬盘的安全擦除 Secure Erase

Kotlin协程中的Job详解

如何用Python编程计算权重？

Anolis OS 23 架构支持家族新成员：Anolis OS 23.3 版本及 RISC-V 预览版发布

数据库设计精要：完整性和范式理论

去掉长按遥控器power键后提示关机、飞行模式的弹窗

数据提取之lxml模块与xpath工具

基于Java+SpringBoot 协同过滤算法私人诊所管理系统

系统架构设计师论文分享-论系统安全设计

IoTDB：专为物联网场景设计的高性能时序数据库

把word中表格转成excle文件