当前位置: 首页 > news >正文

从分层训练到一步生成:Kaiming He 的生成模型进化之路—CVPR2025演讲小结

引言:生成模型的新问题

生成模型(如 Diffusion、Autoregressive)在图像、文本、音频生成领域已经大放异彩。但它们仍然面临一个关键瓶颈:多步生成、推理时间长、无法端到端

Kaiming He 教授在 CVPR 2025 上做了这场名为《Towards End-to-End Generative Modeling》的教程,深入探讨了:

  • 识别模型与生成模型的对偶结构;
  • Flow Matching 如何建立路径;
  • 平均流(MeanFlow)模型如何实现一步生成。

本文为该教程的详细解读。


Part 1:历史回顾 — 从层级训练到端到端识别

AlexNet之后:端到端识别成为主流

  • 自 2012 年 AlexNet 横空出世以来,深度网络训练强调端到端反向传播
  • 模型架构:Layer1 → Layer2 → … → LayerN → 分类头 → Backpropagation。
    在这里插入图片描述

AlexNet之前:分层训练曾是主流

  • 早期模型如 DBN(Deep Belief Net)、Denoising Autoencoders(DAE)使用逐层训练(layer-wise pretraining)
  • 每一层单独训练,并局部构建 loss。
    在这里插入图片描述
    在这里插入图片描述

Part 2:历史是否在生成模型中重演?

类似分层训练的现象再次出现:

  • Diffusion Models:逐步加噪、逐步去噪。
  • Autoregressive Models:一步步生成 token。
    在这里插入图片描述

它们本质上都像是在执行“多步反向生成”——一个现代的“分层生成”。


Part 3:识别 vs 生成:同一硬币的两面?

一张经典图(作者 Phillip Isola)揭示了这一思想:
在这里插入图片描述

  • 识别:从数据到抽象(embedding)
  • 生成:从抽象到数据
  • 两者共享 embedding,是互为镜像的过程。
  • 识别强调“确定映射”,生成强调“多样性建构”。
    在这里插入图片描述

Part 4:流匹配(Flow Matching):桥接路径的方式

识别是数据 → label,生成是 noise → data。
如何构建从 noise 到 data 的路径?

答案之一:Flow Matching
在这里插入图片描述

  • 借助神经常微分方程(Neural ODE)
  • 构建流场(velocity field)
  • 将噪声样本逐步“流”向真实数据
    在这里插入图片描述

但传统 Flow Matching 仍然依赖逐步估计轨迹,本质上仍是多步。
在这里插入图片描述


Part 5:MeanFlow — 一步式生成模型的尝试

为了解决多步生成的问题,Kaiming He 和团队提出:

MeanFlow(平均流)模型

关键思想:

  • 不再逼近整条路径积分(太贵);
  • 直接建模平均速度场(average velocity);
  • 导数形式 替代积分 → 更高效;
  • 推导出 MeanFlow Identity,为训练提供直接目标;

与 Flow Matching 比较:

特性Flow MatchingMeanFlow
是否积分需要轨迹积分用微分替代积分
是否逐步生成否(一步)
可否端到端可以
速度建模实时速度 v平均速度 u

Part 6:实验证明

数据集:ImageNet 256x256

  • 1-step 生成(1-NFE) 取得 FID ≈ 3.43,媲美传统多步模型。
  • 速度提升 70%,保持生成质量。
  • 图像样例显示模型具有良好的细节保真度。

在这里插入图片描述


Part 7:未来展望

“我们是否仍处在生成模型的 AlexNet 之前?”

  • MeanFlow 仍以 Flow Matching 思维为内核;
  • 核心目标:找到真正的端到端生成建模方式
  • 挑战:
    • 如何同时兼顾速度场、轨迹、分布合理性。

总结:端到端生成建模的曙光

这场教程不仅回顾了生成模型的技术发展,还提出了一个可行的方向——一步式平均流建模

博客核心要点:

  • 生成和识别是“同一硬币的两面”;
  • Flow Matching 建立路径,但多步;
  • MeanFlow 使用导数替代积分,追求一步建模;
  • 实验效果优异,值得进一步关注。

参考资料:

  • 📄 论文地址:arXiv: MeanFlow (May 2025)
    • Denoising Diffusion Probabilistic Models
    • Consistency Models (Song+)
    • Neural ODE / Flow Matching
http://www.dtcms.com/a/270104.html

相关文章:

  • 网络--初级
  • springboot单体项目的发布生产优化
  • DMA(直接内存访问)是什么?
  • 第2章,[标签 Win32] :匈牙利标记法
  • 13届蓝桥杯省赛程序设计试题
  • 字符串大小比较的方式|函数的多返回值
  • 作业03-SparkSQL开发
  • 数字化校园升级:传统网络架构与SD-WAN智能方案对比详解
  • 汽车功能安全-软件单元验证 (Software Unit Verification)【定义、目的、要求建议】6
  • 【数据分析】基于 HRS 数据的多变量相关性分析与可视化
  • uniapp b树
  • C++笔记之使用bitset对uint32_t类型变量对位状态判断
  • 2025年深圳杉川机器人性格测评和Verify测评SHL题库高分攻略
  • 论文略读:Parameter-efficient transfer learning for NLP
  • InstructBLIP:迈向具备指令微调能力的通用视觉语言模型
  • Go语言标识符命名规则详解:工程化实践
  • Spring的依赖注入(xml)
  • RISC-V:开源芯浪潮下的技术突围与职业新赛道 (一)为什么RISC-V是颠覆性创新?
  • 安装 asciidoctor-vscode 最新版
  • 针对 SSD 固态硬盘的安全擦除 Secure Erase
  • Kotlin协程中的Job详解
  • 如何用Python编程计算权重?
  • Anolis OS 23 架构支持家族新成员:Anolis OS 23.3 版本及 RISC-V 预览版发布
  • 数据库设计精要:完整性和范式理论
  • 去掉长按遥控器power键后提示关机、飞行模式的弹窗
  • 数据提取之lxml模块与xpath工具
  • 基于Java+SpringBoot 协同过滤算法私人诊所管理系统
  • 系统架构设计师论文分享-论系统安全设计
  • IoTDB:专为物联网场景设计的高性能时序数据库
  • 把word中表格转成excle文件