Hi3DEval:以分层有效性推进三维(3D)生成评估
摘要:尽管三维(3D)内容生成技术发展迅猛,但对生成的3D资产进行质量评估仍颇具挑战。现有方法主要依赖基于图像的指标,且仅在对象层面进行操作,这限制了它们捕捉空间连贯性、材质真实感以及高保真局部细节的能力。1)为应对这些挑战,我们推出了Hi3DEval——一个专为3D生成内容量身定制的分层评估框架。该框架结合了对象层面和部件层面的评估,既能实现跨多个维度的整体评估,又能进行精细化的质量分析。此外,我们不仅关注纹理的美观性,还通过明确评估材质的真实感来拓展纹理评估的范围,重点关注反照率、饱和度和金属度等属性。2)为支撑这一框架,我们构建了Hi3DBench——一个包含多样化3D资产和高质量标注的大型数据集,并配套了可靠的多智能体标注流程。我们还进一步提出了一种基于混合3D表征的、具备3D感知能力的自动化评分系统。具体而言,我们利用基于视频的表征进行对象层面和材质主题的评估,以增强对时空一致性的建模,并采用预训练的3D特征进行部件层面的感知。大量实验表明,我们的方法在建模3D特征方面优于现有的基于图像的指标,并且与人类偏好具有更高的一致性,为人工评估提供了一种可扩展的替代方案。项目主页地址为:Github 。Huggingface链接:Paper page,论文链接:2508.05609
研究背景和目的
研究背景:
随着计算机视觉和图形学领域的快速发展,三维(3D)内容的生成技术取得了显著进步。在游戏开发、虚拟现实(VR)、增强现实(AR)以及机器人技术等众多领域,高质量的3D资产生成变得至关重要。然而,尽管生成技术不断进步,如何准确评估生成的3D资产的质量仍然是一个挑战。传统的评估方法主要依赖于基于图像的指标,并且通常只在对象级别进行操作,这限制了它们捕捉空间连贯性、材质真实感以及高保真局部细节的能力。例如,基于图像的评估指标可能无法全面反映3D模型的空间结构和材质特性,导致评估结果不够准确和全面。
研究目的:
本研究旨在解决现有3D生成评估方法存在的局限性,提出一种分层有效性评估框架Hi3DEval,以实现对3D生成内容的全面、准确评估。具体目标包括:
- 多维度评估:结合对象层面和部件层面的评估,实现跨多个维度的整体评估。
- 材质真实性评估:通过评估反照率、饱和度和金属度等物理属性,拓展纹理评估的范围。
- 构建大规模数据集:为支撑评估框架,构建包含多样化3D资产和高质量标注的大型数据集Hi3DBench。
- 自动化评分系统:提出一种基于混合3D表征的自动化评分系统,提高评估的准确性和效率。
研究方法
数据集构建:
为支持Hi3DEval评估框架,研究团队构建了Hi3DBench数据集。该数据集包含15,300个由30种不同3D生成方法生成的资产,每个方法生成了510个对象。这些资产涵盖了多种语义类别和难度级别,确保了数据集的多样性和代表性。为确保评估的全面性和准确性,研究团队对每个资产进行了360度环绕视频渲染,包括RGB、法线和阴影格式。
分层评估框架:
Hi3DEval评估框架结合了对象层面和部件层面的评估。在对象层面,评估指标包括几何合理性、几何细节、纹理质量、几何-纹理一致性和提示对齐。在部件层面,评估指标主要关注几何合理性和几何细节。此外,材质评估重点关注细节与复杂性、色彩丰富度与饱和度、一致性与瑕疵以及材质合理性等维度。
多智能体标注流程:
为确保标注的准确性和一致性,研究团队引入了多智能体多模态标注流程(M²AP)。该流程利用旋转视频和多视图图像作为输入,结合先进的图像感知和视频感知多模态大语言模型(LLMs)处理丰富的视觉数据。通过这一流程,研究团队实现了对3D资产的大规模、可靠且具有成本效益的质量标注。
混合3D表征自动化评分系统:
研究团队提出了基于混合3D表征的自动化评分系统。该系统结合了视频表征和原生3D表征,以增强评估者对3D结构的感知。具体而言,研究团队利用预训练的视频编码器(如InternVideo2.5)提取丰富的时空特征,并设计了一个轻量级的预测头来处理这些高维特征。在训练阶段,研究团队通过对比学习,将视频编码器与CLIP预训练编码器进行对比学习,以增强评估者对时空一致性的建模能力。在第二阶段,研究团队训练了质量预测头,结合人类评估的质量分数进行回归学习。此外,研究团队还采用了排名损失作为辅助目标,以捕捉相对质量判断并增强模型的区分能力。
研究结果
分层评估框架的有效性:
Hi3DEval评估框架在多个维度上展现了其优越性。在对象层面,研究团队选择了6,000个扫描对象和生成对象进行评分,并训练了五个评估维度(正常、RGB)的视频类型。通过对比学习,视频编码器在对象层面和材质主题评估上均取得了比传统基于图像的指标更高的评分一致性。在部件层面,基于预训练特征的评分模型也展现了强大的部分评估能力。通过结合全局上下文信息和局部几何特征,该模型能够更准确地捕捉3D资产的空间细节,实现了更精确的质量评估。
数据集和评估系统的可靠性:
研究团队构建的Hi3DBench数据集为自动化评分系统提供了可靠的支持。通过对比实验,研究团队验证了自动化评分系统的优越性。在对象层面和材质主题评估中,Hi3DEval框架下的评估方法在多个评估维度上均优于传统指标,展现了更高的评分一致性和准确性。
研究局限
数据集的主观性挑战:
尽管Hi3DBench数据集通过多智能体协作标注实现了更准确和一致的评估,但仍存在主观性挑战。不同智能体之间的评分差异可能导致评估结果出现偏差。特别是在处理复杂语义和细节分析时,如何确保不同智能体之间的评分一致性仍然是一个挑战。
部分评估模型的局限性:
现有的部分评估模型主要基于预训练特征,可能无法全面捕捉3D资产的局部几何特征。这在处理复杂3D结构时可能显得力不从心,特别是在捕捉高保真局部细节和空间连贯性方面存在局限性。
计算资源需求:
视频编码器和3D特征提取对计算资源的需求较高。在资源有限的情况下,如何平衡评估的准确性和计算效率是一个挑战。特别是在处理大量3D资产时,计算成本和时间效率成为制约评估效率的关键因素。
未来研究方向
扩展数据集:
未来的研究可以进一步扩展Hi3DBench数据集,以涵盖更多3D生成方法和应用场景。这可以通过引入更多生成技术和应用场景,提高评估的全面性和准确性。例如,可以引入更多基于新兴生成技术(如神经辐射场(NeRF)和3D高斯溅射(3D Gaussian Splatting)的3D资产,以增强评估框架的适用性和前瞻性。
改进自动化评分系统:
未来的研究可以探索更高效的视频和3D特征提取方法,以降低计算成本并提高评估效率。通过引入更先进的深度学习架构和优化算法,可以进一步提升自动化评分系统的性能和稳定性。
跨模态评估:
未来的研究还可以探索跨模态评估方法,结合文本、图像和视频等多种模态信息,以提高评估的全面性和准确性。通过引入多模态融合技术和跨模态交互机制,可以更好地捕捉3D资产的语义信息和结构特征。