当前位置：首页 > news >正文

【三维重建1】模型与概念

news 2025/11/17 10:59:56

1、SOTA 模型（State-of-the-Art Model）指的是在特定任务或数据集上，当前性能表现 “最先进” 的模型 —— 即该模型在准确率、精度、速度、效率等关键评价指标上，达到了现阶段公开研究或工业应用中的最高水平，是同类任务的 “标杆”。

2、核心特点

动态的“性能状态”，会根据研究的进展不断更新。
任务依赖性：每个任务具体的模型完全不同。
数据集依赖性：统一任务下，不同数据集的SOTA可能不同。
指标明确性：3D 人体姿态估计常用 MPJPE（平均关节位置误差）衡量精度。PCK 是，Percentage of Correct Keypoints ，意为关键点正确检测率，它是人体姿态估计中常用的评价指标，主要用于衡量检测到的关键点与真实关键点之间的接近程度。
时效性：随着新模型架构（如从 CNN 到 Transformer）、训练技巧（如预训练、数据增强）、硬件算力的发展，旧 SOTA 会被新模型取代。

3、如何获取 / 验证 SOTA？
AI 领域的 SOTA 通常通过公开渠道透明化，研究者和开发者可通过以下方式查询：

权威数据集排行榜：Human3.6M Leaderboard、MPI-INF-3DHP Benchmark（3D 人体姿态估计）
顶会论文与开源项目：SOTA 模型通常会以论文形式发表在 AI 顶会（如 CVPR、NeurIPS、ICML），并开源代码（GitHub），方便他人复现和验证（例如 ViT、ChatGPT 的相关变体、MotionBERT 等均有开源实现）。
复现与验证：只有能稳定复现的性能，才被认可为有效 SOTA。

4、3D人体姿态估计SOTA模型演进

2017 年 Stacked Hourglass
2021 年 MotionBERT
2023 年 + Hourglass Tokenizer（基于 MotionBERT）

“Hourglass Tokenizer” 就是在 “高效 3D 姿态估计” 这一细分方向上，对原有 Transformer 类 SOTA（如 MotionBERT）的优化 —— 在不损失精度的前提下降低计算成本，成为该细分场景下的新 SOTA。

5、模型

MHFormer：是一个基于 Transformer 的三阶段框架，用于从单目视频中估计 3D 人体姿态，通过学习多个合理姿态假设的空间 - 时间表征来生成这些假设。其主要创新点包括多假设生成（MHG）、自假设精炼（SHR）和跨假设交互（CHI）三个模块。MHFormer 在 Human3.6M 和 MPI - INF - 3DHP 两个数据集上性能显著优于先前的 PoseFormer，性能提升了 3%。
MixSTE：全称是 Mixed Spatio - Temporal Encoder，它有一个时间 Transformer 模块来分别对每个关节的时间运动进行建模，还有一个空间 Transformer 模块来学习关节间的空间相关性。这两个模块交替使用，以获得更好的时空特征编码。此外，网络输出从输入视频的中心帧扩展到整个帧，从而提高了输入和输出序列之间的连贯性。在 Human3.6M、MPI - INF - 3DHP 和 HumanEva 等基准数据集上的实验表明，该模型在 P - MPJPE 指标上比最先进的方法提高了 10.9%，在 MPJPE 指标上提高了 7.6%。
MotionBERT：是基于 Transformer 的 3D 人体姿态估计模型，它通常将每一帧视频处理成一个独立的 Pose Token，通过处理长达数百帧的视频序列来实现卓越的性能表现。MotionBERT 在 Human3.6M 数据集上有较好的表现，不过其计算量较大。而 Hourglass Tokenizer（HoT）框架应用于 MotionBERT 时，可以在不牺牲精度的情况下，将其 FLOPs 降低近 50%，提高模型的运行效率。

6、三维重建的主要方法分类

（1）基于多视图几何的方法

多视图立体（MVS）：通过多个视角的图像，利用立体匹配和三角化原理恢复场景深度与三维结构。例如传统的 PatchMatch 方法，以及结合深度学习的 MVSNet 系列模型。

运动恢复结构（SfM）：从运动的相机序列中，先恢复相机姿态，再重建场景三维结构，典型应用于大场景三维重建（如城市建模）。

（2）基于深度传感器的方法

结构光（Structured Light）：向场景投射编码图案，通过图案变形计算深度。例如微软 Kinect 一代采用的结构光技术，可快速获取稠密深度图。

激光雷达（LiDAR）：通过发射激光并接收反射信号计算距离，生成三维点云。在人体姿态领域，头戴式 LiDAR 结合 IMU 可实现大规模场景下的人体动作捕捉。

TOF（飞行时间）相机：通过测量光的飞行时间计算深度，适用于动态场景的实时深度获取。

（3）基于单目视觉的方法

单目深度估计：仅通过单张图像预测深度，如 Depth Anything V2 等模型，可作为三维重建的先验信息。

单目三维人体网格重建：从单张图像直接回归人体三维网格（如 SMPL 模型），典型方法有 HMR、MultiROI-HMR 等。

（4）基于深度学习的三维重建方法