当前位置: 首页 > news >正文

Flow Matching|什么是“预测速度场 vt=ε−x”?


什么是“预测速度场 vtv_tvt = ε\varepsilonε - x\mathbf{x}x

要理解这个,我们需要先了解传统扩散模型在做什么,然后看这篇论文用的新方法(Flow Matching)有什么不同。

1. 传统扩散模型(DDPM):预测噪声

在经典的扩散模型中,我们定义一个“前向过程”,逐步向一张图片 (x(\mathbf{x}(x) 添加高斯噪声,经过很多步后,图片会变成纯粹的噪声 (ε(\mathbf{\varepsilon}(ε)。(即,扩散过程往往是固定的,即采用一个预先定义好的variance schedule,比如DDPM就采用一个线性的variance schedule。)

  • 在训练时,模型看到的是一个部分噪声化的图片 (xt(\mathbf{x}_t(xt)
  • 模型的学习目标是:预测出我们当初加入的噪声 (ε(\mathbf{\varepsilon}(ε)。
  • 输出:预测的噪声 (εθ(\mathbf{\varepsilon}_{\theta}(εθ)。
2. 本文采用的Flow Matching方法:预测速度场

本文使用了更现代的Flow Matching 目标。它采用了一个更直观的“线性插值”作为前向过程:

xt=(1−t)x+tε\mathbf{x}_t = (1-t) \mathbf{x} + t \mathbf{\varepsilon}xt=(1t)x+

这里:

  • (t=0(t=0(t=0) 时,(x0=x(\mathbf{x}_0 = \mathbf{x}(x0=x),是干净的图片(在潜在空间中)。
  • (t=1(t=1(t=1) 时,(x1=ε(\mathbf{x}_1 = \mathbf{\varepsilon}(x1=ε),是纯粹的噪声。
  • (t=0.5(t=0.5(t=0.5) 时,(x0.5(\mathbf{x}_{0.5}(x0.5) 就是一半图片、一半噪声的混合体。

这个公式对时间 (t(t(t) 求导,就得到了 “速度”

dxtdt=ε−x\frac{d\mathbf{x}_t}{dt} = \mathbf{\varepsilon} - \mathbf{x}dtdxt=εx

这个速度 ((ε−x)((\mathbf{\varepsilon} - \mathbf{x})((εx)) 的方向,正好指明了如何从噪声 (ε(\mathbf{\varepsilon}(ε) 一步“流回”到干净图片 (x(\mathbf{x}(x)

所以,模型的输出是“预测速度场 (vt( v_t(vt = ε\varepsilonε - x\mathbf{x}x)” 意味着:

  • 模型的学习目标不再是预测噪声,而是学习这个方向场。它告诉模型:“在当前的噪声水平 (t(t(t) 下,为了回到干净图片,你应该朝哪个方向移动”。
  • 这被认为是一种更高效、更直接的学习信号,因此通常能带来更快的收敛速度(这也是本文强调的一个优势)。

注意FM与DDPM前向区别:

1. 传统扩散模型(DDPM)的前向过程:多次小量加噪

这是一个马尔可夫链过程,每一步都加入一点新的噪声:

xt=αtxt−1+1−αtεt\mathbf{x}_t = \sqrt{\alpha_t} \mathbf{x}_{t-1} + \sqrt{1-\alpha_t} \varepsilon_txt=αtxt1+1αtεt
其中,(εt∼N(0,I)( \varepsilon_t \sim \mathcal{N}(0, \mathbf{I})(εtN(0,I)) 是每一步新采样的独立噪声。

  • 特点:从 (x0( \mathbf{x}_0(x0) 到 (xT( \mathbf{x}_T(xT) 需要很多步(如1000步),每一步都有一个独立的 (εt( \varepsilon_t(εt)。
  • 最终状态 (xT( \mathbf{x}_T(xT) 是所有这些噪声累积的结果,近似于标准高斯分布。
    但DDPM的前向过程不是一个需要预计算并存储的“视频”,而是一个可以由数学公式随时、随地重新生成的“配方”。过程如下:
    在这里插入图片描述
    这个循环的关键在于第3步:对于每一个训练样本(x₀x_₀x),在每一个随机时间步(ttt),我们都会实时地从一个标准高斯分布中重新采样一个全新的、独立的噪声(εεε)。

2. Flow Matching(本文方法)的前向过程:一次性大量加噪,然后线性插值

这是一个非马尔可夫的、直接的过程:

  1. 准备起点和终点

    • 起点:干净数据 (x∼p(x)(\mathbf{x} \sim p(\mathbf{x})(xp(x)) (在RAE的潜在空间中)
    • 终点:一次性采样的纯噪声(ε∼N(0,I)( \varepsilon \sim \mathcal{N}(0, \mathbf{I})(εN(0,I))
  2. 构建直线路径
    在起点和终点之间进行线性插值,从而定义出中间状态 ( \mathbf{x}_t ):
    xt=(1−t)x+tε,t∈[0,1]\mathbf{x}_t = (1-t) \mathbf{x} + t \varepsilon, \quad t \in [0, 1]xt=(1t)x+,t[0,1]

关键区别在于:

  • 对于每一张训练样本 (x( \mathbf{x}(x),我们只为其采样一个噪声向量 (ε( \varepsilon(ε)。
  • 这个 (ε( \varepsilon(ε) 在整个关于这张图的训练过程中(对于所有 (t( t(t) )都是固定不变的。
  • 时间 (t( t(t) 在这里不再代表“第几步”,而是代表“沿着这条直线路径走了多远的比例”。t=0是起点(干净数据),t=1是终点(纯噪声)。

为什么要强调“ODE采样逐步去噪”?

这涉及到两种不同的“反向过程”数学形式:SDE(随机微分方程)和 ODE(常微分方程)。

1. SDE(随机微分方程)采样
  • 这是早期扩散模型常用的方法。
  • 在从噪声生成图片的每一步中,除了按照确定性的方向(漂移项)走,还会注入一些随机噪声(扩散项)。
  • 优点:理论上能生成更多样化的样本。
  • 缺点采样速度慢,通常需要很多步(如1000步)才能得到好结果,因为过程是随机的。
2. ODE(常微分方程)采样
  • 这是Flow Matching等方法对应的采样方式。
  • 它定义了一个完全确定性的过程。一旦起点(噪声)确定,生成的路径和终点(图片)就是唯一的。
  • 优点
    • 采样速度快:可以用更少的步数(如本文用的50步,甚至更少)生成高质量图片。
    • 兼容高性能ODE求解器:可以利用像Euler(欧拉法)、Heun等数值积分方法,高效地从噪声“积分”回图片。
    • 过程稳定、可逆。
为什么本文要强调“ODE采样”?

因为本文的核心贡献之一是让Diffusion Transformer在高维的RAE潜在空间中也能高效、稳定地训练和生成

  • 使用ODE采样是实现其**“高效”** 和 “实用” 主张的关键一环。
  • 它证明了他们的方法(RAE + DiT-DH + Flow Matching)可以形成一个顺畅的、确定性的生成管道,从而快速地产出高质量图片。
  • 这颠覆了“高维潜在空间中扩散训练困难”的传统观念,展示了其可行性。

简单总结:

  • 强调ODE采样,是在强调他们方法的“高效性”和“确定性”。这意味着更快的生成速度、更少的计算资源,以及更适合部署的特性,这都是相比于早期扩散模型的巨大优势。

总结

  • 输出速度场:是本文采用的Flow Matching技术的核心,模型学习的是一个从噪声指向干净数据的方向向量,这被认为比传统“预测噪声”的目标更高效。
  • 强调ODE采样:是为了突出其生成过程的确定性和高效性,可以使用更少的步骤快速生成高质量图片,这是该方法实用化的关键。
http://www.dtcms.com/a/591220.html

相关文章:

  • 福田公司网站建设福田做棋牌网站建设多少钱
  • 网站开发交接协议书郑州做企业网站的
  • 佟年给韩商言做的网站郑州设计工作室
  • wordpress网站转app个人网站 可以做论坛吗
  • 网站数据库一般多大服务型网站建设
  • 做的网站第二年续费多钱软件ui设计师
  • 杭州做网站五代理注册公司怎么收费
  • 网站搜索不到公司网站用wordpress建站会不会显得水平差
  • 闽清网站建设临湘网站建设
  • 网站案例展示分类庭院景观设计
  • 学习网站免费微信营销网站
  • 棋牌网站哪里做2024营业执照年审官网入口
  • 网站开发及app开发报价网站建设层级图
  • 甘肃三北防护林建设局网站广州模板建站公司
  • 寮步做网站公司关于网站开发的引言
  • 搜索网站程序东莞网站建设五金建材
  • 企航互联提供天津网站建设什么是电子商务采购
  • 帝国怎么做网站tinypng图片压缩网站
  • 人防工程建设网站太原seo网站管理
  • 网站开发翻译插件网站需要怎么做才能被百度收录
  • 国家企业信用查询官网河南seo推广平台
  • 罗湖装修公司网站建设建设网站如何赢利
  • 卖保温杯去什么网站做推广wordpress 底部菜单
  • 做网编去网站还是工作室好wordpress 如何调试
  • 都用什么软件做网站做网站什么东西需要费用
  • 网站首页不见怎么做网站规划的类型
  • 类似于wordpress的网站做网站备案时间
  • 举报不良网站信息怎么做wordpress如何在页首添加登录账号
  • 建设网站 课程设计南京网站流量优化
  • 网站流量来源wordpress手机后台版