当前位置：首页 > news >正文

【三维生成】Matrix-3D：全向可探索的三维世界生成

news 2025/9/8 7:09:39

在这里插入图片描述

标题：<Matrix-3D: Omnidirectional Explorable 3D World Generation>
来源：Skywork AI；香港科技大学；中国科学院计算技术研究所；北京师范大学
主页：https://matrix-3d.github.io/.

文章目录

摘要
一、相关工作
- 1.3D 世界生成模型
- 2.像机控制的视频扩散模型
- 3.全景生成模型
二、预备知识
三、主要方法
- 3.1 轨迹引导的全景视频生成
- 3.2 三维世界生成
- - 3.2.1 基于优化的三维重建
  - 3.2.2 大范围全景重建模型
四、Matrix-Pano 数据集
五、实验

Matrix-3D: Omnidirectional Explorable 3D World Generation（全向可探索的三维世界生成）

https://matrix-3d.github.io
Skywork AI（昆仑万维旗下）；香港科技大学；中国科学院计算技术研究所；北京师范大学人工智能学院

摘要

基于单张图像或文本提示生成可探索的三维世界，是空间智能的核心基石。近期研究通过视频模型实现了广域且通用的三维世界生成，但现有方法常受限于生成场景的覆盖范围。本研究提出Matrix-3D框架，结合条件视频生成与全景三维重建技术，利用全景表征实现广域全向可探索三维世界生成。我们首先训练了基于轨迹引导的全景视频扩散模型，通过场景网格渲染作为生成条件，实现高质量且几何一致的场景视频生成。为将全景视频转化为三维世界，我们提出两种独立方法：(1)前馈式大型全景重建模型，用于快速三维场景重建；(2)基于优化的流水线方法，实现精准细致的三维场景重建。为促进有效训练，我们还引入了Matrix-Pano数据集——首个包含11.6万条高质量静态全景视频序列的大规模合成数据集，所有视频均配有深度与轨迹标注。

一、相关工作

1.3D 世界生成模型

物体级三维生成算法：[18Lrm,68Gs-Lrm,14Prm,29Triposg,69Clay,20Dimer]已取得显著进展，这主要得益于大规模三维物体数据集的涌现。相比之下，三维场景生成仍处于相对未充分探索的阶段，相关基准测试较少且空间推理与布局复杂度较高。近期研究利用视频扩散模型[50 Wan, 22 Hunyuanvideo, 5 SVD]生成三维场景：[63Viewcrafter, 38 Gen3c, 13 Cat3d, 45 Dimensionx, 48 Sv3d, 40 Zeronvs]。这些方法通常遵循两阶段优化流程：第一阶段，扩散模型基于稀疏或单视图输入及目标相机位姿生成新视角；第二阶段，则根据生成的视角及其关联位姿进行逐场景优化。尽管成效显著，但这种两阶段方法存在效率瓶颈。最新研究[75 Long-lrm, 30 Wonderland]尝试通过前馈重建模型实现广覆盖三维场景的高效重建，但这些方法主要针对透视图像输入，限制了其恢复全向三维结构的能力。本研究旨在开发一种有效的前馈模型及基于优化的方法，实现全景三维场景的完整重建。

2.像机控制的视频扩散模型

随着视频扩散模型[43,17,44,35,50,72,22,74]的快速发展，如何在视频生成过程中控制摄像机运动已成为研究热点。近期诸如MotionCtrl [55]、CameraCtrl [15]、ViewCrafter [63]、TrajectoryCrafter [62]和MatrixGame [73]等研究，提出了多种将摄像机信息融入预训练视频生成器的策略。这些方法通过不同形式的摄像机条件化手段，包括摄像机外参参数、Plucker嵌入[42]和点云渲染技术。尽管取得进展，但基于外参参数或Plucker嵌入的条件化方法往往难以实现精准控制。相比之下，点云渲染虽能提升可控性，却常受莫尔纹干扰和前景背景遮挡关系错误影响，导致生成质量下降。本研究提出采用具有精确遮挡关系的场景网格渲染作为条件信号，显著提升了生成视频的视觉效果。值得注意的是，现有多数研究[38,7,1,2,55,13,15,63]主要聚焦透视视频生成，这限制了其在广覆盖三维场景重建中的应用潜力

3.全景生成模型

基于近年来在二维图像合成领域的突破，基于扩散的全景图像生成模型[67,27,59,12,60]取得了显著进展。然而，尽管这些全景图像提供了完整的360度视野，但其固有缺陷在于缺乏物理遮挡区域的信息。为克服这一局限并捕捉更丰富的空间上下文，需要通过全景视频来构建更完整且空间连贯的世界模型。360DVD[53]推出了WEB360数据集，为使用视觉-语言模型进行文本到全景视频生成的标注工作建立了早期基准。近期，PanoWan [56]整合了来自360-1M [49]、360+x [8]、Imagine360 [46]、WEB360 [53]、Panonut360 [58]以及一个公共沉浸式VR视频数据集[25]的全景视频，并通过Qwen-2.5-VL [3]生成文本描述。然而现有数据集仅提供视频和文本提示，却忽略了相机轨迹和几何信息——这些要素对于构建三维一致的世界模型至关重要。基于这些数据集，诸如4K4DGen [28]和DynamicScaler [31]等方法通过建模真实物体运动推进了动态全景视频生成技术。GenEx [33]则引入了动作条件化的全景生成流程。但目前所有方法均无法实现具有精准场景轨迹控制的全景视频生成，也无法将全景视频转化为三维世界模型。

二、预备知识

视频生成模型旨在学习条件分布 $p (z ∣ c, s)$ ， $z$ 表示由视频VAE[50,22]生成的干净视频 latent code， $c$ 代表条件信号（如文本或图像）， $s$ 对应相机参数。在流匹配框架[50]中，训练过程首先通过变分自编码器将清晰视频 $x$ 投影到潜在代码 $z_1$ 。随后采样噪声 $z_0∼N(0,I)$ ，并为采样时间步 $t \in [0, 1]$ 构建插值潜在代码 $z_t = tz_1+(1−t)z_0$ 。训练目标是通过最小化损失函数来预测真实速度 $v_t = dz_t/d_t = z_1−z_0$ ：

在这里插入图片描述
$u_θ(z_t,c,s,t)$ 表示模型预测的速度：流匹配（flow matching）本质是通过学习从噪声分布到数据分布的概率流常微分方程（ODE）的向量场（即速度场）来实现生成。

在这里插入图片描述

全景表示。全景图像通过固定视角捕捉场景的完整360◦×180◦视角，本质上是球面域上的视觉信号表示，如图2所示。这种球面特性通常通过球坐标系 $(ϕ, θ)$ 进行参数化， $ϕ$ 表示方位角， $θ$ 表示仰角。全景视频是由一系列全景图像组成的序列，能够呈现大规模广角覆盖的三维场景。

在这里插入图片描述

多伦多大学提出 wonderland，基于视频扩散模型的菲尔德forward 3DGS方法。该视频扩散模型专为精确追踪指定摄像机运动轨迹而设计，能够生成压缩视频潜在数据，既能编码多视角信息又保持三维一致性。我们采用渐进式学习策略训练三维重建模型在视频潜在空间中运行，从而高效生成高质量、广角且通用的三维场景。首次证明：通过扩散模型的潜在空间构建三维重建模型，可实现高效的三维场景生成。

在这里插入图片描述

三、主要方法

目标是通过单张图像或文本输入，生成几何一致的全向可探索三维世界。为实现这一目标，我们利用全景表征，并结合图像扩散和视频扩散先验。整体框架包含三个阶段：

首先采用基于LoRA的图像扩散模型，将输入文本或视角图像转换为全景图像，其深度可通过MoGe [54]等方法进行预测；
其次是图3，结合深度信息生成符合轨迹约束的全景视频；
最后将生成的全景视频提升至三维。

在这里插入图片描述

3.1 轨迹引导的全景视频生成

轨迹引导重建。给定一张包含深度信息的 全景图像和反映生成场景范围的预设相机运动轨迹，我目标是生成一个完全遵循输入轨迹的全景视频。为此，我们通过构建一系列场景渲染序列，并将其作为条件性全景视频生成模型的轨迹引导。具体实现时，首先根据 输入的全景图像及其深度信息 构建polygonal mesh（多边形网格），随后按照输入轨迹将其渲染成视频。

具体来说，给定一张包含的全景图像 $I_0$ ，将深度图 $D_0∈R^{H×W×1}$ 的深度值投影到世界坐标系，生成初始场景网格 $S$ ，从而获得网格顶点位置。随后根据像素空间中的连接关系，将这些顶点与对应的网格面相连。每个网格顶点的颜色由其在 $I_0$ 中的对应像素颜色决定。为准确渲染 $I_0$ 的不可见区域并捕捉其与可见部分的遮挡关系，选取深度值发生剧烈变化的像素点，将其对应顶点标记为不可见区域，并赋予纯黑色。具体而言，每个像素的深度变化通过计算其1环邻近像素间的深度差异来确定，当深度变化超过预设阈值时，该像素将被标记为不可见。

在这里插入图片描述

通过初始场景网格 $S$ 和包含 $N_f$ 帧相机位姿的预定义摄像机轨迹 $C$ ，生成场景网格渲染序列{ $I_i,M_i)$ } $i=1Nf^{N_f}_{i=1}$ ，作为轨迹引导。Ii和Mi分别代表在第i个相机位姿下渲染的RGB图像和二值掩膜图像。在第i帧中，若某像素在可见面部且所有顶点均被渲染，则将其在Mi中的对应值标记为1；否则，该像素在Mi中的对应值设为0。如图4所示，先前研究[63,62]通常采用点云渲染作为条件，但常出现莫尔纹现象（Moiré patterns）及物体间遮挡错误等问题。相比之下，我们提出的场景网格渲染方法能有效减少这些几何伪影，从而显著提升视频生成质量。

全景视频生成：改进图像到视频（I2V）扩散模型以生成全景视频。首先使用视频的3DVAE对{ $I_i$ }进行编码，获得 video latent。对应的掩码序列{ $M_i$ }经过降采样和reshape，得到mask latent。随后，将其与noise latent $ϵ$ 拼接，输入Diffusion Transformer去噪。为提供全局语义引导，还将全景图像 $I_0$ 及相关或标注的文本提示注入网络(具体使用CLIP 处理 $I_0$ 获得嵌入向量，与文本提示嵌入融合，通过交叉注意力机制整合到生成过程中）。同时引入LoRA模块来实现稳定且快速的训练。在训练过程中，基础模型保持冻结状态，仅更新LoRA参数。

3.2 三维世界生成

为了生成可探索且一致的三维世界，我们需要弥合二维视频生成与三维场景重建之间的差距。我们提供了两种方法：一种是基于优化的详细三维场景重建方法，另一种是支持快速重建的大规模全景重建模型。

3.2.1 基于优化的三维重建

基于优化的方法以生成的视频作为输入，该视频包含相机的运动轨迹。由于相邻帧存在大量冗余信息，我们通过每隔五帧选取一个全景帧构建关键帧集，并仅使用这些关键帧进行优化。我们注意到，在原始3DGS优化流程[21]中，初始化质量对优化后的三维场景影响显著。因此，我们采用MoGe [54]算法估算关键帧的全景深度，通过最小二乘配准技术对齐生成的深度图，并将对应的三维坐标点云作为3DGS块体的初始化数据。由于原始3DGS优化流程仅接受透视图像作为输入，我们首先将每个全景关键帧裁剪为12张透视图像，随后应用StableSR [51]对这些透视图像进行超分辨率处理，最终输入3DGS优化流程[21]。渲染图像与输入图像之间的L1损失被用作目标函数。

3.2.2 大范围全景重建模型

近期多项研究探索了前馈式三维场景重建技术[30,75]，以实现三维内容的高效生成。受Wonderland[30]启发，我们致力于直接从生成的视频潜在数据中推断3DGS[21]，利用其与图像的感知等效性[39]，有效降低将原始图像转换为大量token时产生的内存消耗。

给定视频潜在表示 $z∈R^{t×h×w×c}$ 及其对应的相机位姿（编码为球形Plucker嵌入 $p∈R^{T×H×W×6}$ ），首先通过 patchify 模块，转换为latent tokens 和 pose tokens，沿通道维度拼接后输入Transformer块。高斯属性预测采用DPT head[37]。由于该头部仅沿空间维度进行上采样，我们引入三维反卷积层实现时间维度的上采样，确保与原始视频序列在时间维度上保持对齐。最终，三维反卷积层生成的三维高斯属性 $G∈R^{T×H/n×W/n×12}$ 是一个12通道张量，包含3个RGB颜色通道、3个尺度通道、4个旋转通道（以四元数表示）、1个透明度通道和1个深度通道，其中n为空间下采样因子。更多模型架构细节可参见附录B。

优化。以往的全景3DGS重建方法[23]主要集中在从3DGS渲染全景图像，并在全景图像域计算光度损失，是优化模型的常规做法，但我们通过实验发现：当使用透视3DGS光栅化器渲染时，直接将全景图像作为监督数据会导致稀疏伪影现象，这会严重影响实际应用效果。为此，我们提出创新策略：首先为每张选定的全景图像生成12个透视视角补丁，这些补丁共同覆盖完整的360◦视场。由于一次性使用全部12个补丁作为监督数据计算成本过高，我们改为随机选取每个全景图像的一个补丁，使用标准透视光栅化器进行渲染。为进一步防止对观测视角的过拟合，我们还通过插值和外推两种方式扩充参考集。训练过程中，我们通过计算每个渲染透视补丁与对应真实图像区域之间的重建损失，从而实现精准的全景3D重建。

两阶段训练策略。由于video latent 与 3DGS 存在显著领域差异，通过video latent估算全景深度时，尽管video latent 能保持与原始图像的外观一致性，但由于缺乏明确的几何线索，深度预测工作变得尤为困难。

第一阶段以深度损失作为初始训练目标，具体而言，我们的目标是基于video latent ，预测每帧的度量深度。与采用逆深度作为训练目标的DepthPro [6]不同，我们专注于绝对深度计算。这种策略能更精准地捕捉靠近相机的区域——这些区域对重建精度至关重要，而远离相机的区域则相对次要。此外，为加速其他全局先验属性的两阶段优化，我们在第一阶段引入了harmonic loss，促使预测的三通道RGB颜色与对应像素值保持一致。第一阶段的总训练目标定义为：

在这里插入图片描述
其中， $D^\hat{D}$ 和 $D$ 分别表示预测和真实的逆深度图； $H^\hat{H}$ 和 $H$ 代表预测的和真实的harmonic RGB分量， $λ_1$ 是损失权重。

第二阶段使用MSE和LPIPS损失[70]的图像重建损失，优化剩余的GS属性：

在这里插入图片描述

第二阶段冻结深度预测参数，仅更新剩余的高斯属性。为避免对已观测视角产生过拟合并提升对新视角的泛化能力，我们随机选取32个参考视角，包含三类：上下文帧中出现的视角、插值视角和外推视角——其中插值与外推视角属于新采样的视角。每个全景视角随后被裁剪为12张透视图像，这些图像可包含512×512分辨率下的完整全景，并随机选择60◦至120◦的视场范围。这些裁剪图像作为GS的监督信号

四、Matrix-Pano 数据集

训练Matrix-3D，需要详细相机轨迹标注和对应深度图的全景数据集，而现有数据集中均未提供此类信息。为解决这一问题，推出Matrix-Pano数据集，基于 Unreal Engine5构建，具备高精度模拟效果、多样化环境场景以及精准的相机轨迹标注。数据集的构建流程如图5，包含以下步骤：

在这里插入图片描述

第一步： Unreal Engine数据采集。通过整合504个高清3D场景，我们构建了涵盖室内外环境的多样化场景库，包含不同天气条件和光照效果的实景素材，为基于轨迹的视频录制技术奠定了坚实基础。
第二步：探索路线采样。我们开发了一种轨迹采样算法，用于生成合理且视觉连贯的摄像机路径。针对每个场景，首先识别可行走表面（如道路或地板），然后应用 Delaunay triangulation算法——该算法通过二维平面上的稀疏点生成一组互不重叠的三角网格。如图5所示，路径候选体将通过三个步骤进行采样：(1)随机选取两个网格顶点；(2)使用迪杰斯特拉算法计算最短路径（红色线条）；(3)应用拉普拉斯平滑处理以减少急转弯（绿色曲线）。最终仅保留长度超过18米的轨迹，以确保时间动态效果的充分呈现。
第三步：碰撞检测。我们通过碰撞检测机制剔除可能导致几何体被遮挡或物体相交的轨迹，这类情况会降低模拟质量与稳定性。采用 bounding box proxy 算法，根据物体的最近点和最远点将其简化为三维边界框，从而在空间精度与计算效率之间取得平衡。模拟过程中对轨迹进行逐级处理，任何发生相交的路径都会被剔除。
第四步：数据标注与质量过滤。我们通过两个过滤阶段来保证数据集的质量:
1.自动过滤：我们使用Video-LLaMA3 [65]根据详细的质量、语义信息和运动丰富度来评估视频，过滤掉低质量的内容
2.人工审核：系统会对每段视频的首帧进行人工审查，剔除渲染质量不佳或细节缺失的样本。最终，Video-LLaMA3将自动为视频添加标注，以支持文本控制和多模态任务。

经过这一系列多步骤处理流程，最终保留了11.6万条高质量静态全景视频序列，每条序列都配有对应的3D探索路线和深度图。更多数据准备细节可参见附录C。我们在样本数量、场景多样性、相机位姿与深度图可用性、长距离探索支持、文本标注存在性、分辨率以及是否包含视频序列等维度，将本数据集与现有全景数据集进行对比（详见表1）。我们的数据集在相机参数和深度图信息方面具有独特优势，能够提供全面且精准的数据支撑。

五、实验

实施细节。基于Wan2.1-I2V-14B[50]构建了轨迹约束全景视频生成模型。分别在480×960（480p）和720×1440（720p）分辨率下训练两个模型，每个视频包含81帧。在精心挑选的20万条全景视频序列数据集上，网络经过6000次迭代训练，学习率设为1×10−4，批量大小为21。针对大型全景3D重建模型，我们的网络架构主要沿用Wonderland [30]的设计，关键改进在于采用DPT头[37]预测3D全局光照属性，并通过球面投影实现3D全局光照均值预测。该大型重建模型基于480p全景视频生成模型进行训练，从视频序列中随机选取81帧作为上下文输入，步长范围为1至3。监督策略采用Wonderland [30]提出的采样方案，每次迭代从三种帧类型中选取32个参考视图：上下文帧、插值帧和外推帧。模型训练时学习率保持1×10−4。推理阶段，输入全景图的初始深度图可由用户直接提供，也可通过MoGe [54]等深度估计方法进行估算。

在这里插入图片描述