当前位置：首页 > news >正文

【三维编辑】DREAMCATALYST：平衡可编辑性和ID的快速高效3D编辑

news 2025/11/16 5:21:36

在这里插入图片描述

文章目录

一、摘要
二、预备知识
- 1.扩散模型
- 2.分数蒸馏采样
三、主要方法
- 1.动机
- 2.PDS的一般公式
- 3.扩散友好的SDS编辑
- 3.使用 freeu 提升可编辑性
四、实验

标题：《DREAMCATALYST: FAST AND HIGH-QUALITY 3D EDITING VIA CONTROLLING EDITABILITY AND IDENTITY PRESERVATION》
项目：https://dream-catalyst.github.io.
来源：韩国 KAIST 人工智能研究生院

一、摘要

分数蒸馏采样（SDS）作为文本驱动的3D编辑任务的有效框架崭露头角，通过利用扩散模型实现3D一致性编辑。但是由于其与扩散模型采样动态的冲突，基于SDS的3D编辑方法存在训练耗时长、生成效果欠佳的缺陷。我们将SDS视为基于数据空间采样的3D编辑扩散逆过程。相比之下，现有方法简单粗暴地使用扩散模型蒸馏分数函数。DreamCatalyst框架在SDS框架中融入了采样动态考量。具体而言，我们设计DreamCatalyst的优化过程以近似编辑任务中的扩散逆过程，从而与扩散采样动态保持一致。最终，DreamCatalyst成功缩短了训练时间并提升了编辑质量。我们的方法提供两种模式：(1) 快速模式，编辑神经辐射场（NeRF）场景的速度比现有最先进NeRF编辑方法快约23倍；(2) 高质量模式，生成效果更优且速度比现有方法快约8倍。值得注意的是，我们的高质量模式在速度和质量两方面均超越现有最先进NeRF编辑方法。DreamCatalyst还超越了当前最先进的3D高斯溅射（3DGS）编辑方法，确立了其作为高效且模型无关的3D编辑解决方案的地位。

二、预备知识

1.扩散模型

扩散模型包含两个核心模块：正向过程和反向过程。正向过程通过噪声 $ϵ$ 逐步扰动初始数据点 $x_0$ ，反向过程则对含噪数据进行逐步去噪。 $x_t$ 表示 $t$ 时刻的扰动数据。预定义的噪声调度系数包括噪声方差系数 $α_s$ 和噪声方差系数的均值 $αˉt:=∏s=1tαs\bar{α}_t:=\prod ^t_{s=1} α_s$ 。反向过程则采用神经网络预测的评分函数和采样器，该评分函数等同于扩散模型中由参数化噪声方差系数（θ）控制的去噪网络（ϵθ）。该过程通过去噪评分匹配技术进行训练：

在这里插入图片描述

去噪扩散隐式模型（DDIM ，Song等人，2020a），其逆过程可通过Tweedie公式（Efron，2011）进行表达：

在这里插入图片描述

DDPM的反向过程定义为一个马尔可夫链，每一步都依赖于上一步并引入新的随机噪声

此处， $x^0∣t\hat{x}_{0|t}$ 表示基于 $x_t$ 预测的 $x_0$ ，而 $ϵ~\tilde{ϵ}$ 则是由确定性项和随机项 $ϵ \sim N (0, I)$ 构成的噪声项。 $ϵ_θ$ 是用训练好的模型预测出的噪声（这是一个确定的函数输出，给定输入就有固定输出）。当超参数 $η$ 和系数 $B$ 调控随机特性时，噪声项 $ϵ~\tilde{ϵ}$ 的随机性可被控制，此时确定性采样即通过超参数 $η$ 和 $β_t$ 实现：

在这里插入图片描述

2.分数蒸馏采样

与在图像空间进行采样的扩散模型不同，DreamFusion(2022）提出了一种在参数空间进行采样的SDS框架。SDS通过扩散训练目标优化参数化模型，例如可微分图像生成器如NeRF和3DGS。三维生成中，SDS通过噪声 $ϵ$ 对渲染图像 $x = g (ψ, c)$ 进行扰动( $g$ 是NeRF或3DGS模型, $ψ$ 是模型参数， $c$ 是相机参数)。随后从具有丰富二维先验的预训练扩散模型中提取特征，用于训练NeRF或3DGS。训练目标：

在这里插入图片描述

其中，采用无分类器引导（CFG）方法 预测的噪声表达式为：

在这里插入图片描述

参数 $ω_y$ 表示文本引导的强度， $y$ 为文本提示， $y_∅$ 为空白文本。为提升计算效率，SDS算法省略了U-Net的雅可比项，即：

在这里插入图片描述

虽然SDS是三维生成的有效框架，但由于其无法体现ID保持特性，因此在编辑任务中存在局限性。

Delta Denoising Score（DDS）。该编辑任务包含两大核心要素：(1)保持源内容的ID，(2)与目标文本提示保持一致。其对SDS的调整：

在这里插入图片描述

其中 $xttgtx^{tgt}_t$ 和 $xtsrcx^{src}_t$ 分别表示在时间步 $t$ 时受扰目标数据 $x0tgtx^{tgt}_0$ 和源数据 $x0srcx^{src}_0$ （含随机噪声 $ϵ$ ）， $y^{tgt}$ 和 $y^{src}$ 则对应目标提示与源提示。通过估计 $xtsrcx^{src}_t$ 的噪声，可作为保持源数据ID的基准点

后验蒸馏采样（Posterior Distillation Sampling，PDS ）。是一种直接的三维编辑技术，与Instruct-Nerf2NeRF（IN2N）形成对比——后者仅在二维空间进行场景编辑。虽然 DDS 在二维图像编辑中表现出色，但在三维编辑时会出现质量下降。这种质量下降源于三维编辑需要比二维编辑更强的ID保持能力。然而， DDS 通过最小化源目标场景的蒸馏采样损失残差来优化NeRF模型，且未添加任何额外的身份保持正则化项。这种缺失的正则化导致模型偏离原始场景。为解决这一问题，PDS在 DDS 损失函数中引入随机潜在匹配损失，以显式添加身份保持项。stochastic latent $z_t$ （包含 $x_0$ 的结构细节）的计算公式为：

在这里插入图片描述

随机潜在匹配损失：

在这里插入图片描述

按照 SDS 忽略的U-Net 的雅可比项，随机潜在匹配损失 $L_{PDS}$ 的梯度可表示为：

在这里插入图片描述

$Φ^{PDS}(t)$ 和 $Ψ^{PDS}(t)$ 是随时间步 $t$ 变化的身份保持系数和可编辑性系数。公式意味着PDS损失函数隐含了显式的身份保持项和编辑的 DDS 梯度项。

三、主要方法

1.动机

我们的目标是设计一个类似PDS的优化函数，该函数需具备两大核心特性：(1)必须包含明确体现强身份保持的显式项；(2)需与扩散时间步长的功能相协调，同时减少与近似扩散逆向采样之间的冲突。为实现这一目标，我们通过重新加权方程7中的各项，确保在强噪声扰动下强调身份保持特性，而在弱扰动条件下不会出现发散现象。然而，随机潜在匹配的公式设计本身已隐含身份保持项和 DDS 损失函数的梯度，这使得其无法直接调整系数。为此，我们对 DDS 进行了全新诠释，并基于此视角提出了PDS的通用公式，通过重新加权各项来实现优化目标。此外，我们提出了一种专门的公式，与扩散时间步的作用相匹配，并支持扩散逆过程。两个优势：(1)通过考虑扩散时间步的作用，公式能够生成精细的3D编辑结果；(2)通过扩散逆过程，极大地缩短了训练时间

2.PDS的一般公式

逆向SDEdit过程与 DDS 之间的内在联系（SDEdit见附录A）：DreamCatalyst的核心洞见在于： DDS 的目标等同于基于单步 DDIM 的SDEdit采样。逆向SDEdit过程通过求解随机微分方程（SDEs）实现随机编辑，其噪声项采用随机采样方式：

在这里插入图片描述

SDEdit 是一种基于扩散模型的图像编辑和生成技术，如草图转化为成品图。草图前向加噪到一个中间状态 $t = τ$ ，反向去噪是从这个中间状态 $x_τ$ 开始，使用预训练扩散模型执行随机反向去噪，直到生成最终图像 $x_0$ 。加噪相当于抹去图像细节和局部结构，保留全局的语义布局和轮廓。

Reverse SDEdit 的思想与 SDEdit 完全相反。不是随机地加噪，而是使用像 DDIM 这样的确定性采样方法，从真实图像 $x_0$ 反向运行到某个中间状态 $x_τ$ 。从捕获的 $x_τ$ 开始，我们执行标准的前向过程（加噪），直到得到纯噪声 $x_T$ 。从 $x_T$ 开始，我们执行随机反向过程，重新生成一张图像 $x^0\hat{x}_0$

。然而，近期编辑研究（Tumanyan等人，2023；Cao等人，2023）采用 DDIM 逆运算来保持源序列的同一性。通过将SDEdit与 DDIM 逆运算相结合以保持同一性，基于 DDIM 的SDEdit采样被定义为：
在这里插入图片描述

其中 $x0tgtx^{tgt}_0$ 表示待编辑的渲染图像。当采用确定性采样时（即设 $ηβ_t=0$ ），噪声表达式为 $ϵ~=ϵθ(xt−1src,ysrc,t)\tilde \epsilon = \epsilon_θ(x^{src}_{t−1},y^{src},t)$ 。此时，基于 DDIM 逆变换的扰动图像定义为（单步前向操作）：

在这里插入图片描述

我们可以用方程2和前向步骤重新写出方程8如下：

在这里插入图片描述

我们可以将其理解为如下所示的优化问题：

在这里插入图片描述

方程12表明，当 $x0tgt=g(ψ,c)x^{tgt}_0=g(ψ,c)$ 时， DDS 目标函数等同于优化问题的目标函数。因此，求解 DDS 目标函数可确保其与 SDEdit 的单步生成过程等效。进一步而言，采用递减时间步采样策略优化 DDS 目标函数，即对应于逆向 SDEdit 过程。我们注意到，本文提出的反转方法属于proximal inversion。传统的 DDIM 反转通过multi-step inversion 计算 $ϵ~\tilde \epsilon$ 以实现pivoting（轨迹转向），然而这种多步反转方法在三维编辑中需要对每个视角图像进行大量计算。为缓解计算负担，本方法对每个噪声扰动 level 仅采样single-step 的 $ϵ~\tilde \epsilon$ ，通过不同时间步 t 对应的差异化 $ϵ~\tilde \epsilon$ 实现 proximal inversion 。需要特别强调的是，尽管 DreamSampler 提出了类似观察结论，但其默认假设 $x_0^{tgt}=x_0^{src}$ 。该假设与 DDS的公式表述存在本质差异。在此假设前提下，公式4所示的通用 DDS 目标函数无法被阐释为优化问题。相较之下，本文对 DDS 给出了不受该假设限制的更具普适性的理论阐释，从而提供了较 DreamSampler 更广阔的视角。

将 DDS 目标函数表述为如公式12所示的优化问题，可以引入额外的正则化项来强制保持ID，在逆向SDEdit过程中提供补充指导：

在这里插入图片描述
基于这种可控的广义PDS公式，后续章节将开发专门针对扩散模型采样动态的优化公式。

3.扩散友好的SDS编辑

由于我们广义PDS公式允许在每个时间步显式控制每个项，因此可以充分利用可控性，使3D编辑过程与扩散模型的采样动态保持同步。具体而言，我们提出了方程13的专门化公式，该公式考虑了扩散时间步及其与逆向SDEdit过程的对齐作用。DreamCatalyst的设计选择旨在满足两个条件： (1)在大时间步中保持强特征保真度 ；可减少高噪声扰动环境下源特征的信息丢失，从而确保源特征在早期扩散逆向过程中得以保留。 (2)在小时间步中降低特征保真度 ，通过扩散机制实现3D编辑所需的精细细节合成。满足这两个条件的DreamCatalyst专用公式如下：

在这里插入图片描述
实验中超参数设定为 $χ = 0.075 、 δ = 0.2 、 γ = 0.8$ 。如图2b所示，DreamCatalyst与PDS的主要区别在于对 $Φ (t)$ 和 $Ψ (t)$ 的公式化处理。这种改进通过两种关键方式缩短了编辑时间：(1)重新加权方案使近似扩散逆过程得以应用，这与扩散采样流程相契合；(2)DreamCatalyst避免了低效蒸馏。在PDS中，小步长蒸馏会导致过度保留原图，从而破坏编辑效果。相比之下，我们的加权机制在不影响编辑流程的前提下实现了高效蒸馏。这些改进显著减少了优化步骤数量，从而大幅缩短了整体编辑时间。

为实现 $L_{DreamCatalyst}$ 的最小化目标，SDEdit流程需要采用扩散逆向过程——即decreasing timestep sampling，均匀地从 $t=T→1t=T\rightarrow1$ 的时间步进行采样。虽然non-increasing 时间步采样（Huang等人，2023）也是可行方案，但我们选择递减时间步采样以满足所有时间步的方程12要求。这种特殊目标函数结合递减时间步采样，使得SDEdit流程能够与参数化模型（如本文中的NeRF和3DGS）协同工作。DreamCatalyst的整体框架如图3所示：首先通过递减时间步采样获取时间步 $t$ ，随后根据 $t$ 对渲染图和源图进行扰动，接着用每个扰动后的图像计算方程14，最终通过损失函数优化3D模型。为计算 $L_{DreamCatalyst}$ 的梯度，我们沿用了前人研究中省略U-Net雅可比矩阵项的做法。

在这里插入图片描述

我们通过图1验证了满足这两个条件即可实现高效的三维编辑。DreamCatalyst不仅能在多种场景下完成高质量的三维场景编辑，其编辑速度还优于现有方法。此外，我们在图2b中展示了两个特殊案例，证明只要满足这两个条件，专用公式中的系数仍保持稳健性。为直观对比，我们固定 $Φ^*$ 仅改变 $Ψ^*$ ，将两个新增案例设定为 $Ψ^*_2(t)=1$ 和 $Ψ^*_3(t)=1−0.2t/T$ 。第四节表明，这些满足条件的特殊案例在编辑速度和质量上均超越现有最先进基准方法。由此可见，满足这两个条件能显著提升编辑效率与质量。

在这里插入图片描述

3.使用 freeu 提升可编辑性

为优化架构设计，我们在3D编辑中引入FreeU技术，实现无需额外内存占用和计算成本即可提升编辑效率。FreeU通过放大骨干特征（其中蕴含大量低频信息）来抑制高频特征（Si等人，2023）。这种放大机制使低频特征得到强化，从而有效降低高频特征的影响。由于高频特征的锐利特性在边缘特征弱化过程中被平滑处理，高频特征的抑制显著提升了编辑灵活性。同时，通过放大骨干特征，低频域对应的特征保持得以维持。因此，FreeU在确保特征保真度的前提下实现了编辑效率的双重提升。此外，采用FreeU替代Dreambooth和LoRA模型可省去额外的模块计算，最终实现整合FreeU技术后，编辑耗时缩短且计算开销可控。

四、实验

我们在IN2N和PDS数据集的真实场景中开展实验，场景类型包括静坐人物、全身人物、面部、物体及户外场景。通过具有40组源文本与目标文本提示对的八个场景中对我们的方法和基准模型进行评估。为进行对比，我们分别在NeRF场景（IN2N和PDS）和3DGS场景（PDS、GaussianEditor（陈等人，2024b）及 DGE（陈等人，2024a））中，将我们的方法与当前最先进的基准模型进行比对。此外，我们对比了DreamCatalyst的两种模式：(1)高质量模式，以及(2)快速模式（该模式所需的训练迭代次数少于高质量模式）。同时，我们通过消融研究探讨了FreeU对DreamCatalyst的影响。除非特别说明使用 $Ψ^∗_2(t)$ 或 $Ψ^∗_3(t)$ ，否则所有实验结果（无论是在NeRF还是3DGS场景中）均基于默认的 $Ψ^∗(t)$ 系数。

图4中，DreamCatalyst通过保留背景细节和整体结构，成功保持了源场景的身份特征。虽然PDS在主体编辑方面与目标文本提示高度契合，但在身份保留方面仍存在不足。具体而言，PDS生成的背景画面常出现过度饱和或色彩失真的问题。这暴露出PDS的核心缺陷——它往往为了追求编辑效果而牺牲原始场景的原汁原味：

在这里插入图片描述

定量实验。三个指标：CLIP方向相似度、CLIP图像相似度和美学评分。CLIP方向相似度衡量图文对齐效果，CLIP图像相似度评估身份保持程度，美学评分反映编辑的视觉质量。如表1和图5所示，DreamCatalyst在NeRF编辑任务中所有指标均取得最高分。这一表现尤为突出，因为其他基准方法（如PDS）往往在某一方面表现优异——比如CLIP方向相似度或美学评分——但在其他方面表现欠佳，特别是在保持身份保持方面。DreamCatalyst则在所有三个指标上实现了平衡，生成的编辑既具有高度写实性，又忠实于原始场景。

在这里插入图片描述

如表2所示，DreamCatalyst在3DGS编辑的多数指标上均取得最高分值，这表明我们的方法是一种适用于NeRF和3DGS场景的高效模型无关编辑方案。此外，将DreamCatalyst与高斯编辑器（GE）结合使用可获得业界领先效果，证明DreamCatalyst能显著提升3DGS专用方法的性能。更值得一提的是，GE与DreamCatalyst的快速模式不仅超越基线模型，相比原版GE还实现了1.25倍的训练加速。需要强调的是，随着采用评分蒸馏技术的更优3DGS基线架构不断涌现，我们的方法可进一步应用于提升其性能表现。

在这里插入图片描述