【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔(三)
VideoMat: Extracting PBR Materials from Video Diffusion Models
给定一个3D模型和一段文本指令(也可以是一张图像),该方法能通过微调的视频扩散模型(video diffusion models)生成高质量的PBR材质,从而在不同光照下进行渲染,见下图:

这篇文章先将几何和光照条件输入到视频扩散模型中,得到同一个3D模型的不同视角的图像(video形式),这些图像被赋予了与输入指令匹配的材质。然后采用一个模型从生成的video中去提取本征属性,包括base color, roughness, metallic。最后,将这些本征属性和生成的video一起输入可微的路径追踪器,从而提取出可以兼容常见内容创作工具的PBR材质。
下图展示了整个工作流的overview:

我们根据这个图介绍一些细节。首先,该方法中包含了两个video model。第一个video model的作用是,输入目标物体的法线video、shading video(包含diffuse,半specular,全specular三种情况,光照假设已知,这里的diffuse和specular是指Cook-Torrance着色时的diffuse和specular两部分)和代表材质信息的相关指令,输出被赋予材质后的物体多个视角下的生成结果。然后,再把生成的video输入到第二个video model中进行本征分解,然后生成材质属性的G-buffers(base color、roughness、metallic) video。最后将第一个模型生成的video和第二个模型生成的video以及已知的3D几何和HDR环境光贴图输入到可微的路径追踪器中进行多视角重建,从而提取出高质量的PBR材质来。
这篇文章的流程跟MAPA、DreamMAT有点像,但是具体细节不相同,感兴趣的读者可以去看看。