当前位置：首页 > news >正文

SD3 的采样上篇——Flow Matching

news 2025/7/11 15:28:19

大家好，这里是Goodnote（好评笔记）。本篇介绍 SD3 模型的采样方法上篇——Flow Matching。号称最强模型之一的文生图模型使用的采样方法，是和之前的SD系列模型完全不一样的采样方法。

文章目录

写在开头
论文
推荐阅读
前系列扩散回顾（DDPM）

Flow Matching
Flow Matching概要
1. 背景与目标
(1) 生成模型的基本目标
(2) Flow Matching 的核心思想

2. Flow Matching 的数学原理
(1) 时间演化方程
(2) 损失函数的定义

3. Flow Matching 的训练方法
(1) 参考路径的采样
(2) 计算真实流场
(3) 计算学习到的流场 $v_\Theta(z, t)$
(4) 损失函数

4. 引入条件变量
(1) 条件分布
(2) 条件流场
(3) 损失函数

5. 训练与生成过程
(1) 训练阶段
(2) 生成阶段

6. 总结

Flow Matching公式
1. Flow Matching 的基本概念
目标
直接求解微分方程的问题
引入向量场 $u_t$

2. 正向过程中的定义
定义概率路径
边界条件

3. 条件向量场
定义条件向量场
向量场具体表达式

4. 信噪比（SNR） $\lambda_t'$ 的重新参数化
5. 原始 Flow Matching 损失函数定义
6. 原始条件化损失函数定义
(1) 条件化损失
(2) 噪声预测目标

7. 权重项与统一目标

Q&A
FM和CFM损失函数
1. Flow Matching (FM) 的问题
2. Conditional Flow Matching (CFM) 的改进

FM的扩散
1. 前向扩散
2. 反向扩散

写在开头

SD3 的采样方法是基于 RF（Rectified Flow）做的改进，而 RF（Rectified Flow）是在Flow Matching（FM）的基础上改进的，所以我们按照先后关系进行讲解，即先讲FM，再讲RF和SD3在其基础上做的优化。

原计划一篇文章讲完SD3的采样方法，但是本文讲完Flow Matching（FM），已经1.7w字，所以，RF和SD3在其基础上做的优化放在下一篇：SD3的采样下篇——Rectified Flow。下面正式开始！！！

论文

SD3论文：Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

FLUX.1论文：未公开

Flow Matching论文：FLOW MATCHING FOR GENERATIVE MODELING

Rectified Flow论文：Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow 和 Rectified Flow: A Marginal Preserving Approach to Optimal Transport

前系列扩散回顾（DDPM）

关于之前SD系列扩散模型的扩散核心采样使用DDPM、DDIM等。扩散过程本质上是多次对原始图像前向扩散（加噪），之后在训练过程中学习如何准确的预测加入的真实噪声。进而在推理过程中，对初始的随机噪声进行预测噪声，进而反向扩散（去噪），得到想要图像的过程。可以看作是一种迂回方式。扩散过程如下：

借用某乎上大佬的图(来源)来描述整个扩散过程如下：

前向扩散：这里的每一个点（注意，是点，不是整个框），其实就对应于图像空间的一张图（上图中的小猫），蓝色箭头就是在不断加噪的过程，每次随机加入一定强度的噪声。一个前向传播的过程如下：
反向扩散：依据训练过程中学到的预测噪声能力，将预测出的噪声去除，逐步恢复图像。蓝色箭头就是在不断预测并去除噪声的过程。2个反向传播过程如下：

反向扩散不是严格的从某个点映射到某个点了。而是从高斯噪声空间随机采样一个点，然后依次往回映射。假设模型已经训练好了，这时候其实靠的就是模型的泛化能力了。假如在高斯噪声空间，你采样了个红点附近的噪声，那么模型只能保证你映射回图像的时候也在红点附近。

详细的扩散过程可以参考本系列中的历史文章：
Stable Diffusion 笔记合集中的《Diffusion Model原理》和 《Stable Diffusion的加噪和去噪详解》。

本文结尾会给出FM的前向传播和反向传播过程，可以理解为 DDPM 是一步一步的逐步生成过程（逐步去噪），但是 FM 是一步到位的（直接通过 ODE 求解生成路径）。

Flow Matching

Flow Matching (FM) 和 Rectified Flow (RF) 是基于 概率流动 的生成建模技术。它们的核心思想是通过对初始分布（通常是高斯分布）和目标分布（如真实图像分布） 之间的 流动过程 建模，生成符合目标分布的数据样本。通过学习流场或流动路径，数据可以从易采样的初始分布逐步演化为复杂的目标分布。

FM 从初始分布（如高斯分布）到目标分布（如真实图像分布）的流动路径中，学习一个连续的向量场 v(x,t)，精确描述概率流动的变化。描述如何从初始分布逐步流动到目标分布。
RF 对 Flow Matching 的简化和优化，假设路径为直线路径或分段线性路径，并通过梯度修正增强灵活性和效率。

这两种方法都属于基于流动路径的生成建模技术，是现代扩散模型等生成框架的重要理论基础。

Flow Matching (FM) 是一种生成建模技术，通过学习从初始分布（如高斯分布）到目标分布（如真实图像分布）的连续流动路径，描述数据的演化过程。FM 的核心是通过一个时间依赖的向量场 $v (x, t)$ 建模这种流动，使得数据分布从起始状态平滑地转变为目标状态。其训练目标是通过优化损失函数，使学习到的流场 $v (x, t)$ 精确匹配真实流动的梯度信息，从而确保生成样本的质量。然而，FM 的主要挑战在于复杂流场的学习和数值计算的高成本，特别是在高维数据上易导致不稳定性。

Rectified Flow (RF) 是对 Flow Matching 的简化和优化，通过假设起始分布到目标分布的流动路径为 直线路径或分段线性路径（当直线路径无法很好地描述复杂分布之间的流动时，RF 支持将路径划分为多个时间段），并引入梯度修正项 $r (x, t)$ ，显著降低了计算复杂度并提升数值稳定性。在 RF 中，数据沿着直线路径流动，同时修正项对路径的偏差进行调整，使得生成结果更接近目标分布。RF 的这一改进减少了采样步数需求，并且在混合精度训练中表现更稳定。

与 FM 相比，RF 更适用于高分辨率生成任务和复杂模态的联合建模，如 SD 3 和 FLUX 系列模型，均采用 RF 来优化其扩散过程。

下面将详细介绍Flow Matching (FM) 和 Rectified Flow (RF)【下一节讲】 。

Flow Matching概要

首先我们先来了解一下FM的背景、核心目标、损失函数和训练生成的过程，之后再详细的解释其中的公式等。

Flow Matching（FM）是一种生成建模技术，通过学习从初始分布到目标分布的连续流动过程（流场）来生成数据。FM 的核心思想是建模分布之间的流动路径，使得输入分布“一步”演化为目标分布，同时简化了生成过程的理论框架和实现难度。

1. 背景与目标

(1) 生成模型的基本目标

在生成建模中，我们希望学习一个从初始分布 $p_0(z)$ 到目标分布 $p_t(z)$ 的映射，其中：

初始分布 $p_0(z)$ ： 一个已知且易于采样的简单分布，例如标准高斯分布。
目标分布 $p_t(z)$ ： 我们希望生成的复杂数据分布，例如自然图像、文本等。

(2) Flow Matching 的核心思想

Flow Matching 通过学习一个时间依赖的向量场 $v_\Theta(z, t)$ ，使得数据点 $z$ 在时间 $\in [0, T]$ 内从初始分布演化到目标分布。这个演化过程描述了分布之间的“流动”路径。

2. Flow Matching 的数学原理

这里简单介绍下核心，后面详细介绍公式。

(1) 时间演化方程

在时间 $t$ ，数据点 $z$ 的演化由以下方程描述：
$\frac{\partial z}{\partial t} = v_\Theta(z, t),$
其中 $v_\Theta(z, t)$ 是模型学习的流场。

(2) 损失函数的定义

为了使模型学习到的流场 $v_\Theta(z, t)$ 与 真实流场 $u_t(z)$ 一致，我们定义以下损失函数：
$\mathcal{L}_{\text{FM}} = \mathbb{E}_{t, p_t(z)} \left[ \| v_\Theta(z, t) - u_t(z) \|^2 \right],$
其中：

$u_t(z)$ 是参考路径的真实流场。
$p_t(z)$ 是时间 $t$ 时的分布。

3. Flow Matching 的训练方法

(1) 参考路径的采样

为了训练流场 $v_\Theta(z, t)$ ，我们需要构建从初始分布 $p_0(z)$ 到目标分布 $p_t(z)$ 的参考路径。具体步骤如下：

采样数据点：
- 从初始分布 $p_0(z)$ 中采样 $z_0$ 。
- 从目标分布 $p_t(z)$ 中采样 $z_t$ 。
采样时间 $t$ ：
- 从均匀分布 $\sim \text{Uniform}(0, T)$ 中采样时间点 $t$ 。
构建参考路径：
- 定义插值路径（例如线性插值）：
  $z_0 + \frac{t}{T}(z_t - z_0).$

(2) 计算真实流场

参考路径的真实流场 $u_t(z)$ 可以通过对 $z (t)$ 关于 $t$ 的导数计算得到：

$u_t(z) = \frac{\partial z(t)}{\partial t} = \frac{z_t - z_0}{T}.$

(3) 计算学习到的流场 $v_\Theta(z, t)$

将 $z (t)$ 和 $t$ 作为输入，传入神经网络模型 $v_\Theta$ ：
$v_\Theta(z, t) = \text{NeuralNet}(z(t), t),$
输出的是模型预测的流场 $v_\Theta(z, t)$ 。

(4) 损失函数

训练目标是使模型学习到的流场 $v_\Theta(z, t)$ 与 真实流场 $u_t(z)$ 一致，我们定义以下损失函数：

$\mathcal{L}_{\text{FM}} = \mathbb{E}_{t, p_t(z)} \| v_\Theta(z, t) - u_t(z) \|_2^2$

关键点：
- 这里的流场 $v_\Theta(z, t)$ 和 $u_t(z)$ 是基于时间 $t$ 和数据分布 $p_t(z)$ 而定义的。
- 不涉及条件变量 $\epsilon$ 。
- 主要用于无条件生成任务，例如生成自然图像等。
公式解释：
- $t$ : 时间变量，定义在区间 $[0, T]$ 内，描述从初始分布 $p_0(z)$ 到目标分布 $p_T(z)$ 的演化。
- $z$ : 数据点的位置，属于数据分布 $p_t(z)$ 。
- $p_t(z)$ : 时间 $t$ 时的数据分布，描述无条件下数据的演化过程。
- $v_\Theta(z, t)$ : 模型学习到的流场（向量场），描述 $z$ 在时间 $t$ 时的变化方向和速率。
- $u_t(z)$ : 真实的流场，是参考路径中 $z$ 在时间 $t$ 上的变化速率（通常通过插值计算）。
- $\| \cdot \|_2^2$ : 欧几里得范数的平方，用于衡量模型流场与真实流场之间的误差。

4. 引入条件变量

在某些情况下，我们希望生成的样本满足特定的条件 $\epsilon$ 。这时，我们需要引入条件流匹配（Conditional Flow Matching, CFM），并调整上述公式。

(1) 条件分布

条件初始分布 $p_0(z \mid \epsilon)$ ： 在条件 $\epsilon$ 下的初始分布。
条件目标分布 $p_t(z \mid \epsilon)$ ： 在条件 $\epsilon$ 下的目标分布。

(2) 条件流场

真实流场 $u_t(z \mid \epsilon)$ ：定义了在给定条件 $\epsilon$ 下，数据点 $z$ 应该如何流动，通常通过参考路径的导数计算得到。
注意：这里的学习流场未显式依赖于 $\epsilon$ ，但通过 $p_t(z \mid \epsilon)$ 隐式建模条件信息。显示依赖于 $\epsilon$ 的学习流场会写成 $v_\Theta(z, t, \epsilon)$

(3) 损失函数

条件流匹配的损失函数为：

CFM 的损失函数为：

$\mathcal{L}_{\text{CFM}} = \mathbb{E}_{t, p_t(z \mid \epsilon), p(\epsilon)} \| v_\Theta(z, t) - u_t(z \mid \epsilon) \|_2^2$

关键点：
- 这里引入了条件变量 $\epsilon$ ，使得流场 $u_t(z \mid \epsilon)$ 和数据分布 $p_t(z \mid \epsilon)$ 都依赖于 $\epsilon$ 。
- 条件流场 $u_t(z \mid \epsilon)$ 描述了在给定条件 $\epsilon$ 下的真实流场演化。
- 模型的学习目标是生成符合条件 $\epsilon$ 的样本。
公式解释：
- $t$ : 时间变量，定义在区间 $[0, T]$ 内，描述从条件初始分布 $p_0(z \mid \epsilon)$ 到条件目标分布 $p_T(z \mid \epsilon)$ 的演化。
- $z$ : 数据点的位置，属于条件分布 $p_t(z \mid \epsilon)$ 。
- $\epsilon$ : 条件变量，描述外部的控制信号或生成任务的特定条件，例如文本描述或类别标签。
- $p_t(z \mid \epsilon)$ : 时间 $t$ 时，在条件 $\epsilon$ 下的数据分布。
- $p(\epsilon)$ : 条件变量的分布，描述不同条件的概率分布。
- $v_\Theta(z, t)$ : 模型学习到的流场，描述 $z$ 在时间 $t$ 时的变化方向和速率。注意：这里的流场未显式依赖于 $\epsilon$ ，但通过 $p_t(z \mid \epsilon)$ 隐式建模条件信息。显示的会写成 $v_\Theta(z, t, \epsilon)$
- $u_t(z \mid \epsilon)$ : 条件下的真实流场，是条件参考路径中 $z$ 在时间 $t$ 上的变化速率（通过条件插值路径计算）。
- $\| \cdot \|_2^2$ : 欧几里得范数的平方，用于衡量模型流场与条件真实流场之间的误差。
是否包含 $\epsilon$ ： 取决于实现设计。
- 显式依赖： $v_\Theta(z, t, \epsilon)$ ，条件直接作为输入。
- 隐式依赖： $v_\Theta(z, t)$ ，条件通过分布 $p_t(z \mid \epsilon)$ 传递。

如果是显式依赖 $\epsilon$ ，则CFM 的损失函数可以写为：
$\mathcal{L}_{\text{CFM}} = \mathbb{E}_{t, p_t(z \mid \epsilon), p(\epsilon)} \left[ \| v_\Theta(z, t, \epsilon) - u_t(z \mid \epsilon) \|^2 \right].$

说明：因为我们主要讨论的是SD3 模型中的FM，所以后面的训练和推理过程讨论主要针对CFM，即加入条件变量的FM（文生图中的文本条件）。

5. 训练与生成过程

(1) 训练阶段

1.采样条件 $\epsilon$ ：

从 $p(\epsilon)$ 中采样条件 $\epsilon$ 。

2.采样数据点：

从 $p_0(z \mid \epsilon)$ 中采样初始数据点 $z_0$ 。
从 $p_t(z \mid \epsilon)$ 中采样目标数据点 $z_t$ 。

3.采样时间 $t$ ：

从均匀分布 $\sim \text{Uniform}(0, T)$ 中采样时间点 $t$ 。

4.计算参考路径和真实流场：

构建参考路径：
$z_0 + \frac{t}{T}(z_t - z_0).$
计算真实流场：
$u_t(z \mid \epsilon) = \frac{\partial z(t)}{\partial t} = \frac{z_t - z_0}{T}.$

5.计算学习到的流场 $v_\Theta(z, t)$

将 $z (t)$ 和 $t$ 作为输入，传入神经网络模型 $v_\Theta$ ：
$v_\Theta(z, t) = \text{NeuralNet}(z(t), t),$
- 输出的是模型预测的流场 $v_\Theta(z, t)$ 。

6.最小化损失函数：

使用损失函数：
$\mathcal{L}_{\text{CFM}} = \mathbb{E}_{t, p_t(z \mid \epsilon), p(\epsilon)}\|v_\Theta(z, t) - u_t(z \mid \epsilon)\|^2.$
- 通过梯度下降优化模型参数 $\Theta$ 。

7.梯度计算：

对损失函数 $\mathcal{L}_{\text{CFM}}$ 关于模型参数 $\Theta$ 的梯度：
$\nabla_\Theta \mathcal{L}_{\text{CFM}} = \frac{\partial \mathcal{L}_{\text{CFM}}}{\partial \Theta},$
- 需要使用反向传播自动计算。

8.参数更新：

使用优化算法（如 SGD 或 Adam），通过梯度下降更新参数：
$\Theta \gets \Theta - \eta \nabla_\Theta \mathcal{L}_{\text{CFM}},$
- 其中 $\eta$ 是学习率。

(2) 生成阶段

1.采样条件 $\epsilon$ ：

从 $p(\epsilon)$ 中选择或指定条件 $\epsilon$ 。

2.采样初始数据点：

从条件初始分布 $p_0(z \mid \epsilon)$ 中采样 $z_0$ 。通常， $p_0(z \mid \epsilon)$ 是一个简单的分布（如条件独立的高斯分布）。

3.时间演化：

描述流场的两种情况：
- 显式流场： $v_\Theta(z, t, \epsilon)$ ，直接依赖条件 $\epsilon$ 。
- 隐式流场： $v_\Theta(z, t)$ ，条件 $\epsilon$ 被隐式建模（通过目标分布的特性传递）。
通过微分方程演化（时间演化的具体实现方式）：
- 使用微分方程(从初始点 $z_0$ 开始，演化到时间 $t = T$ 时候的生成样本 $z_t$ ):
  $\frac{\partial z}{\partial t} = v_\Theta(z, t, \epsilon) \quad \text{或} \quad \frac{\partial z}{\partial t} = v_\Theta(z, t),$

由于学习流场通常是通过神经网络建模的，无法解析计算积分。因此，求解上述微分方程需要数值方法，主要包括 欧拉法 和 Runge-Kutta （RK4）方法。

1.时间步长 $\Delta t$ 的选择：

太大会导致不准确，太小则增加计算成本。
经验上， $\Delta t$ 需通过实验调整以平衡精度和效率。

2.方法选择：

欧拉法适合快速实验和初步测试，但精度可能不足。
RK4 方法更适合高质量生成，尤其是在生成复杂分布时。

欧拉法
欧拉法是一种简单的时间离散方法。对于每一步 $k$ ： $z_{k+1} = z_k + \Delta t \cdot v_\Theta(z_k, t_k, \epsilon),$ 其中：

$z_k$ ：第 $k$ 步时的数据点位置。
$t_k = k \cdot \Delta t$ ：当前时间。
$\Delta t$ ：时间步长。

欧拉法的优点是简单易实现，但精度较低，适合初步实验。

Runge-Kutta 方法
Runge-Kutta 方法（如 RK4）是更高阶的数值积分方法，具有更高的精度。以下是 RK4 的公式对于每一步 $k$ ：

1.计算中间变量： $k_1 = \Delta t \cdot v_\Theta(z_k, t_k, \epsilon),$ $k_2 = \Delta t \cdot v_\Theta(z_k + \frac{k_1}{2}, t_k + \frac{\Delta t}{2}, \epsilon),$ $k_3 = \Delta t \cdot v_\Theta(z_k + \frac{k_2}{2}, t_k + \frac{\Delta t}{2}, \epsilon),$
$k_4 = \Delta t \cdot v_\Theta(z_k + k_3, t_k + \Delta t, \epsilon).$

2.更新位置： $z_{k+1} = z_k + \frac{1}{6}(k_1 + 2k_2 + 2k_3 + k_4).$

RK4 方法在每一步中需要多次评估流场 $v_\Theta$ ，计算量更大，但精度更高，适合对生成结果要求较高的场景。

获取生成样本：
- 最终的 $z_t$ 就是符合条件 $\epsilon$ 的生成样本。

6. 总结

Flow Matching 技术通过学习一个时间依赖的流场 $v_\Theta(z, t)$ ，实现了从初始分布到目标分布的连续映射。在条件流匹配（CFM）中，进一步引入了条件变量 $\epsilon$ ，使得生成模型可以在给定条件下生成样本。损失函数 $\mathcal{L}_{\text{CFM}}$ 用于衡量模型学习到的流场与真实流场之间的差异，通过最小化该损失函数来训练模型。

Flow Matching公式

下面主要讲解 Flow Matching 在SD3论文：Scaling Rectified Flow Transformers for High-Resolution Image Synthesis 中的公式和推导过程。

1. Flow Matching 的基本概念

目标

希望从噪声分布 $p_1(x)$ （如高斯分布）到数据分布 $p_0(x)$ 映射样本，通过定义一个常微分方程（ODE）描述流动过程：
$\frac{dy_t}{dt} = v_\Theta(y_t, t),$

$y_t$ ：在时间 $t$ 时的样本状态。描述了从 $p_1(x)$ 到 $p_0(x)$ 的概率路径。【等同于后续出现的 $z_t$ 】
$v_\Theta(y_t, t)$ ：流动向量场，表示在时间 $t$ 上样本 $y_t$ 移动的速度。由神经网络参数化， $\Theta$ 是神经网络的参数。
- 作用：控制数据在时间上的变化方向，是整个流动模型的核心。
$\Theta$ ：神经网络的参数，通过训练学习到最优值。
$t$ ：时间变量，取值范围为 $\in [0, 1]$ ：
- $t = 0$ ：对应起始分布 $p_0(x)$ （通常是数据分布）。
- $t = 1$ ：对应目标分布 $p_1(x)$ （通常是标准正态分布 $\mathcal{N}(0, I)$ ）。

直接求解微分方程的问题

直接通过微分求解（如 Chen 等人在 2018 年提出的神经 ODE 方法）计算生成路径，计算成本非常高，尤其在处理高维数据时，需要大量的计算资源。

引入向量场 $u_t$

Flow Matching 不再直接求解微分方程，而是引入一个向量场 $u_t$ ，通过对概率路径建模，生成从 $p_1$ 到 $p_0$ 的平滑转换。我们就可以用ODE的常用求解器（欧拉方法，K4等）实现从一个高斯噪声到真实数据的生成。

此处（SD3论文）描述的是反向扩散（去除噪声，恢复图像的流程）从 $p_1$ 到 $p_0$ 。如下图：

原始FM论文中的定义是与之相反，是从 $p_0$ 到 $p_1$ 的。如下图：

2. 正向过程中的定义

这个过程类似于扩散模型中的正向扩散（加噪） 过程。它描述了从数据分布 $p_0(x)$ （通常是目标分布）到噪声分布 $p_1(x)$ （通常是标准正态分布 $\mathcal{N}(0, I)$ ）的过渡。

定义概率路径

为构造概率路径 $p_t$ ，前向过程 $z_t$ 定义：
$z_t = a_t x_0 + b_t \epsilon, \quad \epsilon \sim \mathcal{N}(0, I),$

$z_t$ ：在时间 $t$ 上的中间状态样本（从起始样本 $x_0$ 和噪声 $\epsilon$ 线性插值生成）。
$x_0$ ：来自起始分布 $p_0(x)$ 的样本（通常是数据样本）。
$\epsilon$ ：独立采样的标准高斯噪声， $\epsilon \sim \mathcal{N}(0, I)$ 。
$a_t, b_t$ ：控制数据样本和噪声贡献的权重系数。它们是时间 $t$ 的函数：
- $a_t$ ：表示数据分布在 $t$ 时的贡献权重。
- $b_t$ ：表示噪声分布在 $t$ 时的贡献权重。

样本 $z_t$ 是从数据分布 $p_0$ 到噪声分布 $p_1$ 的路径 $p_t$ ，是一个曲线。此过程受权重 $a_t$ 和 $b_t$ 控制，其中 $a_t$ 和 $b_t$ 是时间 $t$ 的非线性函数。非线性的 $a_t$ 和 $b_t$ 会导致路径为曲线，而不是简单的直线。

边界条件

当 $t = 0$ 时：
$a_0 = 1, \quad b_0 = 0, \quad z_0 = x_0 \sim p_0(x).$
- 样本完全来自数据分布，噪声无贡献。
当 $t = 1$ 时：
$a_1 = 0, \quad b_1 = 1, \quad z_1 = \epsilon \sim \mathcal{N}(0, I)或者p_1.$
- 样本完全来自噪声分布。

3. 条件向量场

定义条件向量场

$u_t(z \mid \epsilon) := \frac{\partial}{\partial t} \psi_t(\psi_t^{-1}(z \mid \epsilon) \mid \epsilon),$

$u_t(z \mid \epsilon)$ ：在给定噪声条件 $\epsilon$ 下的向量场。
- 作用：描述样本 $z_t$ 在时间 $t$ 上的运动速率。
$\psi_t$ ：从 $x_0$ 到 $z_t$ 的映射函数：
$\psi_t(x_0 \mid \epsilon) = a_t x_0 + b_t \epsilon.$
- 作用：通过 $a_t$ 和 $b_t$ 的权重组合，构建从数据到噪声的过渡路径。

向量场具体表达式

$u_t(z_t \mid \epsilon) = \frac{a_t'}{a_t} z_t - \epsilon b_t \left( \frac{a_t'}{a_t} - \frac{b_t'}{b_t} \right)$

$\frac{a_t'}{a_t}, \frac{b_t'}{b_t}$ ：描述 $a_t, b_t$ 的时间变化速率。
- $a_t', b_t'$ 是相对于时间 $t$ 的导数。
第一项 $\frac{a_t'}{a_t} z_t$ ：描述样本本身的变化速度。
第二项 $-\epsilon b_t \left(\frac{a_t'}{a_t} - \frac{b_t'}{b_t}\right)$ ：描述噪声在样本中的动态变化。

4. 信噪比（SNR） $\lambda_t'$ 的重新参数化

为了进一步简化，定义信噪比（Signal-to-Noise Ratio, $\lambda_t$ ）：
$\lambda_t := \log\left(\frac{a_t^2}{b_t^2}\right),$

$\lambda_t$ ：衡量信号（数据）与噪声的比例。
- 当 $\to 0$ ：信号占主导， $\lambda_t \to \infty$ 。
- 当 $\to 1$ ：噪声占主导， $\lambda_t \to -\infty$ 。
导数 $\lambda_t'$ ：
$\lambda_t' = 2\left(\frac{a_t'}{a_t} - \frac{b_t'}{b_t}\right).$
引入信噪比后，向量场可以重写为：
$u_t(z_t \mid \epsilon) = \frac{a_t'}{a_t} z_t - \frac{b_t}{2} \lambda_t' \epsilon.$
- 第一项 $\frac{a_t'}{a_t} z_t$ ：表示数据部分的贡献。
- 第二项 $-\frac{b_t}{2} \lambda_t' \epsilon$ ：表示噪声部分的贡献。

5. 原始 Flow Matching 损失函数定义

$\mathcal{L}_{\text{FM}} = \mathbb{E}_{t, p_t(z)}\|v_\Theta(z, t) - u_t(z)\|_2^2$

$\mathcal{L}_{\text{FM}}$ ：衡量学习到的速度场 $v_\Theta(z, t)$ 与真实速度场 $u_t(z)$ 的差异。

6. 原始条件化损失函数定义

(1) 条件化损失

为解决边缘化的难点（最后详细介绍），将损失重写为条件化形式：
$\mathcal{L}_{\text{CFM}} = \mathbb{E}_{t, p_t(z \mid \epsilon), p(\epsilon)}\|v_\Theta(z, t) - u_t(z \mid \epsilon)\|_2^2$

条件化损失的优点：
- 通过引入噪声条件 $\epsilon$ ，消除了对边缘分布 $p_t(z)$ 的直接依赖，更易计算。

(2) 噪声预测目标

最终，将损失转换为噪声预测形式：
$\mathcal{L}_{\text{CFM}} = \mathbb{E}_{t, p_t(z \mid \epsilon), p(\epsilon)}\left(-\frac{b_t}{2} \lambda_t' \|\epsilon_\Theta(z,t) - \epsilon\|^2\right),$

$\epsilon_\Theta$ ：神经网络的噪声预测目标，定义为：

$\epsilon_\Theta := \frac{-2}{\lambda_t' b_t} \left(v_\Theta - \frac{a_t'}{a_t} z\right).$

变量解析：

$\epsilon_\Theta$ ：
- 这是神经网络预测的噪声目标，用于与真实噪声 $\epsilon$ 进行比较。
- 这个量将 $(v_\Theta, z)$ 的关系转化为扩散模型中的标准噪声预测任务。
$-\frac{2}{\lambda_t' b_t}$ ：
- 这是一个缩放因子，取决于时间相关的信噪比导数 $\lambda_t'$ 和权重系数 $b_t$ 。
- 确保噪声预测任务在优化过程中数值稳定。
$(v_\Theta - \frac{a_t'}{a_t} z)$ ：
- 这里表示神经网络预测的速度场 $v_\Theta$ 减去通过 $\frac{a_t'}{a_t} z$ 计算的线性项。
- 这部分是为了将速度场预测转化为噪声预测任务，使模型更容易优化。
$z$
- 在时间 $t$ 上的状态变量（中间样本），描述了从噪声分布 $p_1(x)$ 到数据分布 $p_0(x)$ 的过渡路径。

7. 权重项与统一目标

为了统一分析，包括经典扩散模型在内的各种目标形式，损失函数可以进一步写成：

进一步引入时间依赖权重 $w_t$ ：
$\mathcal{L}_w(x_0) = -\frac{1}{2} \mathbb{E}_{t \sim \mathcal{U}(t), \epsilon \sim \mathcal{N}(0, I)} \left[ w_t \lambda_t' \| \epsilon_\Theta(z_t, t) - \epsilon \|^2 \right],$

这是加权损失函数，用于生成模型中的流匹配优化目标，旨在通过引入时间和噪声的动态权重 $w_t$ 来改善优化路径。

参数解释

$\mathcal{L}_w(x_0)$ ：
- 整体损失函数，作用是最小化模型 $\epsilon_\Theta(z_t, t)$ 预测的噪声与实际噪声 $\epsilon$ 之间的误差。
- 优化目标在时间 $t$ 和噪声 $\epsilon$ 的分布下进行。
$\sim \mathcal{U}(t)$ ：
- 时间 $t$ 的分布，假设均匀分布（ $\mathcal{U}$ 表示均匀分布）。
- 时间 $t$ 控制 $z_t$ 在数据分布和噪声分布之间的插值程度。
$\epsilon \sim \mathcal{N}(0, I)$ ：
- 噪声 $\epsilon$ 的分布，假设服从零均值单位协方差的标准正态分布。
- 用于前向过程 $z_t = a_t x_0 + b_t \epsilon$ 中的噪声注入。
$w_t$ ：
- 时间依赖的权重函数，控制优化过程中不同时间点的贡献。例如，当 $w_t = -\frac{1}{2} \lambda_t b_t^2$ 时，损失函数等价于 $\mathcal{L}_{CFM}$ 。
- 不同的权重选择可以影响生成模型的性能和生成路径的平滑性。
$\lambda_t'$ ：
- 信噪比的时间导数，定义为：
  $\lambda_t' = 2 \left( \frac{a_t'}{a_t} - \frac{b_t'}{b_t} \right),$
  其中 $a_t, b_t$ 是控制数据和噪声分量的插值系数。
- 信噪比导数描述了时间 $t$ 上数据与噪声的比例变化。
$\epsilon_\Theta(z_t, t)$ ：
- 模型 $\Theta$ 的输出，用于预测前向过程中加入的噪声 $\epsilon$ 。
- 表达式为：
  $\epsilon_\Theta(z_t, t) = \frac{-2}{\lambda_t b_t} \left( v_\Theta(z_t, t) - \frac{a_t'}{a_t} z_t \right),$
  其中 $v_\Theta$ 是模型拟合的速度场。
$\epsilon$ ：
- 前向过程中实际加入的噪声。
- 优化的目标是让 $\epsilon_\Theta(z_t, t)$ 尽可能接近实际的噪声 $\epsilon$ 。
$\| \epsilon_\Theta(z_t, t) - \epsilon \|^2$ ：
- 预测噪声与真实噪声之间的二次误差。
- 是损失函数的核心项，衡量预测和真实值之间的差距。

上面的步骤是完全按照论文中的公式进行讲解的，可以照着SD3论文：Scaling Rectified Flow Transformers for High-Resolution Image Synthesis，进行详细的阅读，如果觉得难以将这些步骤串起来，可以先读懂每个公式，之后按照1 2 5 3 4 6 7 的顺序进行梳理【个人认为这个顺序好理解】，参考此文尝试再次理解。

Q&A

FM和CFM损失函数

论文中提到将FM损失函数写成CFM是为解决边缘化的难点（Flow Matching objective directly is intractable due to the marginalization）。

1. Flow Matching (FM) 的问题

FM 的目标函数是：
$\mathcal{L}_{FM} = \mathbb{E}_{t, p_t(z)} \| v_\Theta(z, t) - u_t(z) \|^2_2,$
其中：
- $v_\Theta(z, t)$ 是神经网络预测的向量场；
- $u_t(z)$ 是目标向量场，描述了从分布 $p_1$ 到 $p_0$ 的时间演化。
直接优化的困难：
- $p_t(z)$ 是一个边际分布（边际化计算的难度，直接使用它通常不现实），表示在时间 $t$ 时的样本分布。
- 计算 $p_t(z)$ 需要对噪声变量 $\epsilon$ 积分：
  $p_t(z) = \mathbb{E}_{\epsilon \sim \mathcal{N}(0, I)}[p_t(z \mid \epsilon)].$
  这个积分在高维数据中是非常难以解析计算的。

2. Conditional Flow Matching (CFM) 的改进

在 FM 中， $u_t(z)$ 是一个边际向量场，其计算依赖于整个数据分布的联合信息，而在高维空间中估计这个向量场非常困难。

CFM 的解决方案：

定义条件向量场 $u_t(z \mid \epsilon)$ ，它明确依赖于噪声变量 $\epsilon$ 。
CFM 引入了条件分布 $p_t(z \mid \epsilon)$ ，将原本边际分布中的积分直接展开为条件概率形式，从而简化优化目标。

CFM 的目标函数是：

$\mathcal{L}_{CFM} = \mathbb{E}_{t, p_t(z \mid \epsilon), p(\epsilon)} \| v_\Theta(z, t) - u_t(z \mid \epsilon) \|^2_2,$

改进点：
- 直接在条件分布 $p_t(z \mid \epsilon)$ 下优化，避免了计算边际分布 $p_t(z)$ 的复杂性。
- 条件分布 $p_t(z \mid \epsilon)$ 是通过前向过程 $z_t = a_t x_0 + b_t \epsilon$ 明确定义的，因此易于采样。
数学优势：
- 边际化问题通过条件分布展开变得可计算。
- 训练过程直接依赖于噪声 $\epsilon$ 的采样，减少了计算复杂度。

FM的扩散

这里改编某乎上大佬的图(来源)来描述整个扩散过程如下：

1. 前向扩散

如下图红色箭头：

样本 $z_t$ 是从数据分布 $p_0$ 到噪声分布 $p_1$ 的路径 $p_t$ ，路径通常是曲线，由时间 $\in [0, 1]$ 和插值参数 $a_t, b_t$ 控制的。这个过程是基于公式：
$z_t = a_t x_0 + b_t \epsilon, \quad \epsilon \sim \mathcal{N}(0, I),$
其中 $x_0 \sim p_0$ ，即从目标数据分布中采样的样本。