当前位置：首页 > news >正文

51c视觉~3D~合集6

news 2025/9/18 6:28:47

我自己的原文哦~ https://blog.51cto.com/whaosoft/14201639

#3D/4D World Model（WM）近期发展的总结和思考

有关xx智能，在今年前三季度的大部分工作和思考仍旧集中在数据的收集和数据的利用上——即如何高效的利用视频的示例数据去训练一个性能表现都不错的基础模型的研究。这个上半年一直持续挖掘的工作，似乎也没有激起很多的水花。大家在分析和总结前期遇到的问题的时候，不免会对一些无法清晰回溯的内容进行质疑，即在数据采集上是否有大问题，我们对于数据的利用上的思考是否还存在很大的不足。

于是，在对数据分析的过程中，3D/4D的世界模型开始重新回归大家的思考。即针对所采集的数据合理性和丰富性进行进一步拓展优化的研究思路。

从目前行业发展来看，最近的3D/4D的世界模型也开始走成了两派的思路即隐式和显式的两种研究主张：

隐式3D的世界模型，通过提取出3D/4D的内容来提升视频的空间理解能力；
显式3D的世界模型，需要显式的给出3D Mesh或者其他的结构信息和物理规律，才能保证系统的稳定和可用。

一个金色头发的老头正在参观一个中式的客厅

从实际的应用上看感觉两者的局限性在一开始就暴露得清晰无疑，然后我们对于这些局限性似乎也没有很好的一个解决思路。于是我开始翻看以前的自己的思考和总结，我觉得一年多前自己提出的Real2sim(wm)2Real的思考还挺有道理的。我打算在这篇文章中结合现阶段多个很不错的研究和之前提出的想法，可以帮助一部分初学者或者还迷茫要怎么开展研究的同学共同理清楚一下脉络。

基于仿真器出发研究，3D Phys-Diff-Simulator

目前我们对于显示世界模型的研究依旧集中在静态3D场景当中——模型来构建场景再结构化的decouple场景，拓展可交互空间；又或者是先通过scan的方式构建initiate 3D 场景，再丰富场景。 （两种方法其实在性能，成本和效果上都各有优势，目前的方法都很成熟，是可以开箱即用的程度，所以我们暂时进一步讨论优劣。）

整个过程中不涉及动态的物理模拟，所以并不满足世界模型最初定义的完整工作流，只初步完成了初始化Env搭建这一环而已。类似于Hunyuanworld-1.0[1]，Matrix-3D[2]的工作中，构建全景图和从全景图中恢复3D Mesh场景就是目前工作中的典型。不过也有很多工作尝试完善这个世界模型的工作闭环，即环境到交互再到环境变化。Discoverse[3]和EmbodiedGen[4]把环境的构建区分为了前景和背景的构建，背景使用pano或者是scan的3D场景构建出静态的内容，前景则使用Google的Mujoco[5]或者Mujoco-Warp[6]中的Mesh物理仿真+3DGS的渲染来完成高保真动态的物体交互。Genesis[7]则是通过Taichi[8]来对Mujoco内素材的再次渲染来完成超高画质的场景重建。

我的上一篇文章中《Real2sim2Real的破局之法》提到了一些Real2sim2Real的常见问题。很可惜，这些问题在问题在上面这些工作中依然存在。

首先是3DGS<===>Mesh方案，目前已知是3DGS对于物理表面的建模效果比较一言难尽。后续如SuGaR[9]、2DGS[10]等技术对3DGS进行结构化改造，但是从基本geometry的优化上，依旧发现了这些方案对于表面的优化较为粗糙。GSDF[11]、Pano2Room[12]这两个工作，则把Mesh或者是SDF当成监督，在学习的过程中进行优化，能够一定程度上解决3DGS的表面平滑的问题，但是对于3DGS以及生成出的mesh和却没办法又很好的保障。

完全弃用3DGS，而采用提高Image-generation模型提升Mesh面数和贴更加高清UV纹理的方式，可能又会带来渲染饱和度过高和物体-场景光照不平衡的图形学问题（image-gen模型会把光照烘焙进去texture里面），因此又再次把visual-gap的问题引入了回来。期望这一系列问题在未来会有一些优化的相关论文来帮助做得更完善。

光照问题比如De-lighiting的工作（eg. TSGS[13], GS-ID[14]）正在逐渐优化;表面的问题也有一些结合了Mesh监督再加上结构化处理3DGS的思考论文;未来越来越高质量的3D-Recon工作也会逐步打破real2sim的visual gap以及在geometry上稳定性问题。

除了上述问题，在当前的整体设计中，我们不得不再提一点——跨物理仿真器平台之间的部署问题。上述的方案在物理参数设计上基本都是复用了mujoco上物理参数设定，至于在Isaac平台上这些方案能不能处理好，在SAPIEN上呢？Roboverse[15]就考虑到仿真器之间的物理差距，从而设计一个统一的跨物理仿真器的平台，来帮助我们进一步的优化世界模型的物理表达。

对于Phys-diff-simulator这种范式而言，如何进行大规模数据的scaling-up，是一个难点。我们可以灵活的设计各种动作表达，微分出各种交互，但是相对于Imitation learning的数据需求上，这些仍旧是远远不足的。

基于视频生成/多视角出发的世界模型研究

随着25年的通义万相[16]系列模型的出现，我们发现规模化的清洗数据和数据标注能够带来motion上的提升。

得益于Feed forward 3D 展示出强大的模型带来的3D信息的预测和估计的能力，3DGS/4DGS和世界模型的结合的工作也开始逐步的发展起来(如GWM和Enerverse[17]).与此同时Dust3R[18]、Mono3R[19]、Gssplat3R[20]、MoGe[21]这些3R技术演进到最近的VGGT[22]，逐步把“单/少帧 → 点图/深度/相机/稠密几何”的一站式推理做稳，让示例视频也可以拥有3D属性，强化模型对于空间理解交互的工作Robot4DGen[23]开启了Imitation Learning 3R时代的进一步发展。这些工作是基于目前空间结构化能力还不能很顺利的被我们采集的示例视频学习到，于是借助3R/3DGS的技术来帮助模型可以进一步的把没有办法学习到的3D空间知识学习下来。

这个思路符合目前大家对于pixel-worldmodel scaling-up的理解，也很好的弥补了在训练过程中不同的训练视频上动作空间不同步的问题。

目前来说这类技术的问题核心在于从2D到3D的转换依旧不够成熟，遮挡时的像素漂移，不同相机角度采样下难以保持跨视角一致等问题还需要进一步解决。

符合物理的4D生成

目前的4D生成技术主要分为以下3类：

Template-base，使用模板（静态网格/骨架/蒙皮/4Dmesh）为基础，通过LBS、BlendShapes、MPM，关节轨迹预测，视频生成出的轨迹变换来生成或者是预测对象的motion变化，进而实现4D；
Generate-base，信息可能从生成的3D模型或者视频中来。通过文本/图像控制生成出3D模型，再通过video来实现motion的变化，最后把motion内容与3D模型的进行绑定，从而实现4D模型的构建；
从交互视频反演几何+物理，得到可模拟4D的内容。

如何把4D生成迁移到仿真环境当中

对于4D如何参与到simulation阶段，目前的研究比较空白。无论是基于template和基于video的生成式的4D生成方案，对于motion和interact的模拟以及评价指标依旧停留重建的画质以及几何一致性，然后通过user study对其余的运动属性进行评估来构建指标的体系。

对于如何把可控物理属性，通过这些物理属性预测出的物体状态变化，依旧是比较少的。在视频生成领域多数用高质量的清洗过的物理数据和物理评估指标去优化整个视频的motion变化。目前，大部分的视频生成的工作在motion上能有很好的表现，但是对于物体交互以及物理交互之后在环境中产生的变化，目前的视频生成依旧是没法做好。问题主要集中在视频生成无法理解具体的物理变化，可能多数时间模型只是在学习一个轨迹变化。例如打篮球的时候，你会发现运球的时候，球和地面接触再回到手里面，这个状态的改变是不太连贯的。

从视频中学习出带时序的3D Point，之后通过Personalization的Text-3D生成4D的抽象表情包

这其中的难点主要集中在视频生成模型能否有足够的能力从训练数据中反演出物理规律，理解物理自身属性和交互属性。这些问题在一段时间内似乎仍然不好解决。因此，基于仿真器的物理驱动模拟，短期内并不会被取代。未来一段时间可能会发展出仿真器-视频生成组合相关的一些工作(如RoboTransfer[24])。但是希望通过这种方式来压榨视频生成模型的能力，快速克服sim2real上的一系列问题，一定程度上也极大的限制了视频生成模型进化为世界模型的可能性。

结尾：

严格意义上来说，3D/4D世界模型其实和现有的V-JEPA 2[25]等工作并不是一个体系的内容。现在的工作更注重于3D/4D质量和内容的发展，并不是世界模型所看重的预测能力。相比于Genie3所生成的交互式、可编辑的概念，目前的3D/4D的工作会更加重视几何一致性的表达，还有场景图像质量上的问题。

基于上述的理解和考虑，我们可以预测出之后的工作会朝着进一步的外挂或者内嵌物理知识的方向进行发展。未来的3年内，我们会不断的看到相关工作的发表，通过这种方式来重新让Real2Real的embodied-ai任务焕发生机，不止是机械化的组合simulator，或者是教条化的引入video-gen来处理某些gap的问题。而是更多希望引入这些方法来支撑起数据金字塔，打破数据上的瓶颈。本质上我还是期望未来的模型拥有更好的直接物理理解能力，以及拥有不错的视推理能力。同时我也觉得，世界模型最后或许也会发展成xx智能基模架构中的一个模块化的内容，当然这也取决于后续大家对于世界模型的思考，以及不减少功能下，对于世界模型定义的简化。

参考资料

[1]

Hunyuanworld-1.0: https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0

[2] Matrix-3D: https://github.com/apple/ml-matrix3d

[3] Discoverse: https://github.com/TATP-233/DISCOVERSE

[4] EmbodiedGen: https://github.com/HorizonRobotics/EmbodiedGen

[5] Mujoco: https://github.com/google-deepmind/mujoco

[6] Mujoco-Warp: https://github.com/google-deepmind/mujoco_warp

[7] Genesis: https://github.com/Genesis-Embodied-AI/Genesis

[8] Taichi: https://github.com/taichi-dev/taichi

[9] SuGaR: https://github.com/Anttwo/SuGaR

[10] 2DGS: https://arxiv.org/html/2403.17888v1

[11] GSDF: https://city-super.github.io/GSDF/

[12] Pano2Room: https://github.com/TrickyGo/Pano2Room

[13] TSGS: https://longxiang-ai.github.io/TSGS/

[14] GS-ID: https://github.com/dukang/gs-id

[15] Roboverse: https://roboverseorg.github.io/

[16] 通义万相: https://github.com/Wan-Video/Wan2.1

[17] Enerverse: https://github.com/AgibotTech/EnerVerse-AC

[18] Dust3R: https://github.com/naver/dust3r

[19] Mono3R: https://github.com/Junyi42/monst3r

[20] Gssplat3R: https://github.com/btsmart/splatt3r

[21] MoGe: https://github.com/microsoft/MoGe

[22] VGGT: facebookresearch/vggt

[23] Robot4DGen: https://robot4dgen.github.io/

[24] RoboTransfer: RoboTranfer

[25] V-JEPA 2: https://arxiv.org/abs/2506.09985

#Event Camera Guided Visual Media Restoration & 3D Reconstruction: A Survey

杜比实验室最新综述，一文看懂事件相机如何引领视觉媒体修复与3D重建的技术浪潮

传统相机以固定的帧率捕捉世界，但在高速运动或极端光照条件下常常力不从心，导致运动模糊、曝光不足或过曝。现在，一种模仿生物视觉系统的 事件相机（Event Camera） 正在为这些挑战带来革命性的解决方案。

来自 杜比实验室（Dolby Laboratories） 的研究者们发表了一篇全面的综述，系统性地梳理了事件相机在视觉媒体修复和3D重建领域的最新进展。这篇综述探讨了如何将事件相机独特的、基于亮度变化的异步数据流与传统图像帧相结合，以显著提升视频质量和三维场景的重建效果。对于希望了解这一前沿领域的读者来说，这篇综述提供了一个绝佳的切入点和全面的技术图谱。

论文标题：Event Camera Guided Visual Media Restoration & 3D Reconstruction: A Survey
作者：Aupendu Kar, Vishnu Raj, Guan-Ming Su
机构：杜比实验室 (Dolby Laboratories)
论文地址：https://arxiv.org/abs/2509.09971

什么是事件相机？

事件相机，又称动态视觉传感器（Dynamic Vision Sensor, DVS），是一种新颖的成像设备。它不像传统相机那样拍摄一张张完整的图片，而是 异步地、逐像素地 记录亮度的变化。

当某个像素点的亮度变化超过一个阈值时，相机就会产生一个“事件”，这个事件包含了三个核心信息：

时间戳（t）：事件发生的确切时间。
像素位置（x, y）：事件发生在哪个像素上。
极性（p）：亮度是增加（+1）还是减少（-1）。

这种工作方式带来了几大优势：

极高的时间分辨率：可以达到微秒级别，能捕捉到极快的动态过程。
高动态范围（HDR）：不易在明暗差异巨大的场景中过曝或欠曝。
低延迟和低功耗：只记录变化的信息，数据量远小于传统视频，处理速度快。

下图直观地展示了传统相机帧与事件相机数据流的区别。在手快速挥动的场景中，传统相机会产生严重的运动模糊，而事件相机则清晰地记录了运动的轨迹。

综述研究内容组织

这篇综述系统地组织了事件相机在两大核心应用领域的研究进展：视觉媒体修复 和 3D重建。作者将修复任务进一步划分为时间和空间两个维度，清晰地勾勒出该领域的技术版图。

事件引导的视觉媒体修复

将事件数据与传统图像帧融合，是提升视频质量的通用范式。其典型流程如下图所示：利用两个模糊或低质量的图像帧之间捕捉到的高频事件信息，来恢复出高质量的中间帧或增强原始帧。

时间维度增强 (Temporal Enhancement)

时间维度的增强主要关注视频的流畅度和清晰度。

视频帧插值 (Video Frame Interpolation, VFI) ：在低帧率视频中插入新的帧，以提升视频的流畅度。传统方法在物体快速运动时容易产生伪影。事件相机以其微秒级的时间分辨率，能够精确捕捉物体在两帧之间的运动轨迹，从而生成 物理上更真实、更平滑 的中间帧。综述回顾了从早期的光流法到现代基于深度学习（如U-Net、Transformer）的各种事件引导的VFI方法。
运动去模糊 (Motion Deblurring) ：相机或物体的快速运动会导致图像模糊。事件数据由于只记录运动，相当于提供了清晰的运动“边缘”信息。通过将这些边缘信息与模糊的图像帧对齐，模型可以有效地“反解”出模糊过程，恢复出清晰的图像。这对于处理高速摄影、车载摄像头等场景至关重要。

空间维度增强 (Spatial Enhancement)

空间维度的增强则聚焦于提升单帧图像的质量。

超分辨率 (Super-Resolution, SR) ：事件相机本身的空间分辨率通常低于传统相机。但其记录的高频时间信息可以作为补充，帮助算法恢复图像中因低分辨率而丢失的纹理和细节。
低光与HDR增强 (Low-light and HDR Enhancement) ：事件相机具有天然的高动态范围特性。在极暗或光线复杂的环境中，传统相机可能完全欠曝或过曝，丢失大量信息。而事件相机依然能捕捉到微弱的亮度变化。将这些事件信息“注入”到低质量的图像中，可以极大地 提升亮度和恢复细节，实现令人惊艳的HDR成像效果。
伪影抑制 (Artifact Reduction) ：视频压缩或传输过程中可能引入各种伪影。事件流作为一种独立的、未被压缩的信源，可以为修复这些伪影提供宝贵的参考信息。

事件引导的3D重建

3D重建是计算机视觉的另一个核心领域。事件相机同样在此展现出巨大潜力，尤其是在与近年来火热的 神经辐射场（NeRF） 和 3D高斯溅射（3D Gaussian Splatting, 3DGS） 等技术结合时。

处理动态场景：NeRF和3DGS在处理静态场景时效果惊人，但对于动态场景（如移动的人物、变化的光照）则面临巨大挑战。事件相机能够精确捕捉场景中的动态变化，为动态NeRF/3DGS提供了关键的运动先验，从而实现对动态世界的高保真4D（3D+时间）重建。
克服运动模糊：在手持相机或无人机进行3D扫描时，快速移动会导致输入图像模糊，严重影响重建质量。利用事件相机进行去模糊，可以为NeRF/3DGS提供清晰的输入，从而获得更精细的3D模型。

作者在综述中总结了事件相机在NeRF和3DGS中的应用现状，并指出了未来的潜在研究方向，如下图所示（绿色为已探索领域，红色为未来方向）。