当前位置：首页 > news >正文

【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（四）

news 2025/11/6 0:47:52

An evaluation of SVBRDF Prediction from Generative Image

Models for Appearance Modeling of 3D Scenes

输入3D场景的几何和一张参考图像，通过扩散模型和SVBRDF预测器获取多视角的材质maps，这些maps最终合并成场景的纹理地图集，并支持在任意视角、任意光照条件下进行重新渲染。样例图如下：

在当前时代的技术背景下，生成与几何匹配的3D场景，以及根据RGB图像恢复SVBRDF都已经能够做到【1】。结合这两个技术可以使得我们根据一个几何快速生成多个视角的RGB图像，并估计出SVBRDF来。但是这么做仍面临一些问题。第一，从单个视角的图像中预测SVBRDF，会出现和其他视角下预测的SVBRDF不一致的问题，从而产生错误的纹理地图集。第二，根据模型去生成RGB图像时，不同模态下的模型（我理解为视角）也会导致生成的RGB图像在多个视角下不一致，所以也会间接影响到SVBRDF的多视角下的一致性估计。作者采用了一个标准的U-Net和相关的复杂设计解决这一问题。具体怎么解决的，请看下文对文章overview的介绍。

【1】真的吗，挠头。实际上diffuse类型材质的恢复还是可以的，如果带有glossy材质，我认为仍然面临着巨大问题，因为高频的反光、阴影、焦散的效果会和几何直接过分耦合，特别是单图输入且带有强光照时，高光会导致被照射的区域过曝，这部分的像素对恢复该区域的纹理无法提供有效信息，所以glossy材质的场景恢复出来的SVBRDF必然会在maps中表现出不均匀的情况，其中与高光相关的区域会出现明显的burn in artifacts，在重新渲染时，会明显看到光照在同一类型材质上的形状非常不稳定。

SVBRDF texturing pipeline overview。Step1. 先用一个image diffusion model以深度图、轮廓图为条件生成一系列的不同视角的场景图。其中，第一张生成的场景图要求必须是尽可能完整的，意思是尽可能地看到场景全貌，剩下不同视角的场景图在生成时，会进行额外的处理：首先将完整的场景图进行重新投影到不同的视角上，然后再结合不同视角的深度、轮廓图进行条件重绘，投影时因为遮挡出现的孔洞会在重绘的过程中修复。这样能确保生成过程的一致性【2】。Step2. 然后再继续根据每个不同视角的图像估计SVBRDF。Step3.重新渲染。整个流程见下图：