【三维重建1】模型与概念
1、SOTA 模型(State-of-the-Art Model) 指的是在特定任务或数据集上,当前性能表现 “最先进” 的模型 —— 即该模型在准确率、精度、速度、效率等关键评价指标上,达到了现阶段公开研究或工业应用中的最高水平,是同类任务的 “标杆”。
2、核心特点
- 动态的“性能状态”,会根据研究的进展不断更新。
- 任务依赖性:每个任务具体的模型完全不同。
- 数据集依赖性:统一任务下,不同数据集的SOTA可能不同。
- 指标明确性:3D 人体姿态估计常用 MPJPE(平均关节位置误差) 衡量精度。PCK 是,Percentage of Correct Keypoints ,意为关键点正确检测率,它是人体姿态估计中常用的评价指标,主要用于衡量检测到的关键点与真实关键点之间的接近程度。
- 时效性:随着新模型架构(如从 CNN 到 Transformer)、训练技巧(如预训练、数据增强)、硬件算力的发展,旧 SOTA 会被新模型取代。
3、如何获取 / 验证 SOTA?
AI 领域的 SOTA 通常通过公开渠道透明化,研究者和开发者可通过以下方式查询:
- 权威数据集排行榜:Human3.6M Leaderboard、MPI-INF-3DHP Benchmark(3D 人体姿态估计)
- 顶会论文与开源项目:SOTA 模型通常会以论文形式发表在 AI 顶会(如 CVPR、NeurIPS、ICML),并开源代码(GitHub),方便他人复现和验证(例如 ViT、ChatGPT 的相关变体、MotionBERT 等均有开源实现)。
- 复现与验证:只有能稳定复现的性能,才被认可为有效 SOTA。
4、3D人体姿态估计SOTA模型演进
- 2017 年 Stacked Hourglass
- 2021 年 MotionBERT
- 2023 年 + Hourglass Tokenizer(基于 MotionBERT)
“Hourglass Tokenizer” 就是在 “高效 3D 姿态估计” 这一细分方向上,对原有 Transformer 类 SOTA(如 MotionBERT)的优化 —— 在不损失精度的前提下降低计算成本,成为该细分场景下的新 SOTA。
5、模型
- MHFormer:是一个基于 Transformer 的三阶段框架,用于从单目视频中估计 3D 人体姿态,通过学习多个合理姿态假设的空间 - 时间表征来生成这些假设。其主要创新点包括多假设生成(MHG)、自假设精炼(SHR)和跨假设交互(CHI)三个模块。MHFormer 在 Human3.6M 和 MPI - INF - 3DHP 两个数据集上性能显著优于先前的 PoseFormer,性能提升了 3%。
- MixSTE:全称是 Mixed Spatio - Temporal Encoder,它有一个时间 Transformer 模块来分别对每个关节的时间运动进行建模,还有一个空间 Transformer 模块来学习关节间的空间相关性。这两个模块交替使用,以获得更好的时空特征编码。此外,网络输出从输入视频的中心帧扩展到整个帧,从而提高了输入和输出序列之间的连贯性。在 Human3.6M、MPI - INF - 3DHP 和 HumanEva 等基准数据集上的实验表明,该模型在 P - MPJPE 指标上比最先进的方法提高了 10.9%,在 MPJPE 指标上提高了 7.6%。
- MotionBERT:是基于 Transformer 的 3D 人体姿态估计模型,它通常将每一帧视频处理成一个独立的 Pose Token,通过处理长达数百帧的视频序列来实现卓越的性能表现。MotionBERT 在 Human3.6M 数据集上有较好的表现,不过其计算量较大。而 Hourglass Tokenizer(HoT)框架应用于 MotionBERT 时,可以在不牺牲精度的情况下,将其 FLOPs 降低近 50%,提高模型的运行效率。
6、三维重建的主要方法分类
(1)基于多视图几何的方法
多视图立体(MVS):通过多个视角的图像,利用立体匹配和三角化原理恢复场景深度与三维结构。例如传统的 PatchMatch 方法,以及结合深度学习的 MVSNet 系列模型。
运动恢复结构(SfM):从运动的相机序列中,先恢复相机姿态,再重建场景三维结构,典型应用于大场景三维重建(如城市建模)。
(2)基于深度传感器的方法
结构光(Structured Light):向场景投射编码图案,通过图案变形计算深度。例如微软 Kinect 一代采用的结构光技术,可快速获取稠密深度图。
激光雷达(LiDAR):通过发射激光并接收反射信号计算距离,生成三维点云。在人体姿态领域,头戴式 LiDAR 结合 IMU 可实现大规模场景下的人体动作捕捉。
TOF(飞行时间)相机:通过测量光的飞行时间计算深度,适用于动态场景的实时深度获取。
(3)基于单目视觉的方法
单目深度估计:仅通过单张图像预测深度,如 Depth Anything V2 等模型,可作为三维重建的先验信息。
单目三维人体网格重建:从单张图像直接回归人体三维网格(如 SMPL 模型),典型方法有 HMR、MultiROI-HMR 等。
(4)基于深度学习的三维重建方法
神经辐射场(NeRF)及其变体:通过神经网络隐式表示三维场景,实现照片级新视角合成,也可用于人体重建(如 Neural Human)。
基于体素或点云的深度学习方法:将三维空间离散为体素或点云,通过 3D CNN 或 Transformer 直接预测三维结构,例如 VoxelPose 用于多视角人体姿态估计。
7、适用于人体姿态的三维重建方法
(1)多视角三维人体姿态估计
基于匹配与三角化的方法:如 MVPose,先检测多视角 2D 人体关键点,再通过几何约束三角化得到 3D 姿态。
基于体素的方法:如 VoxelPose,将多视角特征聚合到 3D 体素空间,直接预测人体关键点的 3D 位置。
基于 Transformer 的方法:如 MvP,单阶段直接预测多人 3D 姿态,避免多阶段流程的误差累积。
(2)结合传感器融合的人体动作捕捉
LiDAR+IMU 融合:如 HiSC4D,通过头戴式 LiDAR 和惯性传感器(IMU),在大规模场景中实现双人交互的人体姿态捕捉,解决 IMU 漂移问题。
结构光 + 标记点:如基于双目视觉的结构光方法,结合人体标记点实现高精度人体姿态测量(精度可达 0.03mm),适用于汽车座椅设计等工业场景。
(3)基于参数化人体模型的重建
SMPL/SMPL-X 模型驱动:通过优化模型参数(姿态、形状)拟合图像或传感器数据,实现人体三维网格重建,典型方法有 SPIN、Meta-HMR 等。
(4) 动态人体运动捕捉
基于视频的时序方法:利用视频的时序连续性,结合 LSTM、时序卷积等网络,提升人体姿态估计的稳定性,例如处理动作抖动问题。
全身精细运动捕捉:通过扩展人体模型(如 SMPL-X 加入手、脸建模),实现包括手指、面部的精细动作重建。
8、补充概念
人体姿态先验:简单说就是人们对 “正常人体姿态该是什么样” 的固有认知和规律总结,是三维人体姿态重建中用来约束和修正结果的 “常识性信息”。
体素(Voxel) :是 “体积像素(Volume Pixel)” 的简称,是三维空间中类比于二维图像里 “像素” 的基本单元。体素是具有固定空间位置、尺寸和属性(如颜色、密度、语义类别等)的三维立方体单元,是对三维空间的离散化表示。
