当前位置：首页 > news >正文

Amodal3R ，南洋理工推出的 3D 生成模型

news 2025/10/30 3:22:54

Amodal3R 是一款先进的条件式 3D 生成模型，能够从部分可见的 2D 物体图像中推断并重建完整的 3D 结构与外观。该模型建立在基础的 3D 生成模型 TRELLIS 之上，通过引入掩码加权多头交叉注意力机制与遮挡感知注意力层，利用遮挡先验知识优化重建过程。Amodal3R 仅依赖合成数据进行训练，在实际应用中展现出卓越的性能，显著优于传统的“2D 预测补全 + 3D 重建”两步法，为遮挡场景下的 3D 重建设定了新的标杆。

Amodal3R是什么

Amodal3R 是一款条件式 3D 生成模型，旨在从部分可见的 2D 图像中推测并重建完整的 3D 形态和外观。该模型基于“基础”3D 生成模型 TRELLIS 进行开发，通过引入掩码加权多头交叉注意力机制和遮挡感知注意力层，结合遮挡先验知识来指导重建过程。Amodal3R 仅使用合成数据进行训练，能够在真实场景中表现优异，明显优于现有的“2D 预测补全 + 3D 重建”两步法，为遮挡场景下的 3D 重建树立了新的基准。

Amodal3R的主要功能

遮挡感知的 3D 重建：Amodal3R 能够针对遮挡严重的 2D 图像，结合可见的 2D 片段信息与语义推测，生成完整的 3D 模型。
超越现有技术：与传统的“2D 预测补全 + 3D 重建”两步法相比，Amodal3R 在处理遮挡情况下的表现更为突出，建立了新的 3D 重建标准。

Amodal3R的技术原理

基础 3D 生成模型的扩展：Amodal3R 从一个基础的 3D 生成模型出发，扩展其能力以处理遮挡的 2D 图像，从而恢复合理的 3D 几何形状和外观。
掩码加权多头交叉注意力机制：模型采用掩码加权多头交叉注意力机制，更有效地处理遮挡问题。该机制通过掩码引导注意力，使得模型在生成过程中更加关注可见部分，同时利用遮挡先验知识推测被遮挡区域的形状与纹理。
遮挡感知注意力层：在掩码加权多头交叉注意力机制之后，Amodal3R 引入了遮挡感知注意力层，进一步增强了模型的性能。
DINOv2 驱动的特征提取：Amodal3R 利用 DINOv2 进行高质量视觉特征提取，提供的特征能为 3D 重建过程提供丰富的上下文信息，帮助模型更准确地进行重建。
合成数据的训练与泛化能力：Amodal3R 仅依靠合成数据进行训练，能够学习在真实场景中，即使存在遮挡时也能恢复完整 3D 对象的能力。这表明模型具有出色的泛化能力，可以将从合成数据中获得的知识应用于实际场景。

Amodal3R的项目地址

项目官网：https://sm0kywu.github.io/Amodal3R/
HuggingFace模型库：https://huggingface.co/Sm0kyWu/Amodal3R
arXiv技术论文：https://arxiv.org/pdf/2503.13439

Amodal3R的应用场景

增强现实（AR）和虚拟现实（VR）：在 AR 和 VR 应用中，Amodal3R 能够从部分可见的 2D 图像中重建完整的 3D 模型，为用户提供更加沉浸的体验。
机器人视觉：在复杂环境中工作时，机器人常常会遇到物体被部分遮挡的情况。Amodal3R 可以帮助机器人更准确地理解周围环境中的物体，从而更有效地进行路径规划和任务执行。
自动驾驶：在自动驾驶领域，车辆需要实时感知周围环境中的物体。Amodal3R 可以从遮挡的图像中重建完整的 3D 模型，帮助自动驾驶系统更精准地识别和处理复杂的交通场景。
3D 资产创建：在游戏开发、电影制作及其他需要 3D 资产的领域，Amodal3R 可以从简单的 2D 图像生成高质量的 3D 模型，从而简化 3D 建模流程。
学术研究：Amodal3R 为计算机视觉和 3D 重建领域的研究提供了新的工具和方法，研究人员可以借助该模型探索更复杂的场景和更高效的重建算法。