Pi3 (π³) 是由浙江大学和上海 AI Lab 联合开发的前馈神经网络,提供了一种革命性的视觉几何重建方法,彻底打破了传统固定参考视图的依赖。它采用完全排列 (置换) 等变架构,无需参考坐标系即可直接预测仿射不变的相机姿态和尺度不变的局部点图,使模型对输入图像顺序具有内在鲁棒性和高度可扩展性。
- 输入顺序无关性:模型输出随输入图像排列而相应排列,但几何结构保持不变,确保每个图像与输出 (姿态、点图) 一一对应
- 实现方式:通过移除所有依赖顺序的组件 (如位置嵌入、参考视图标记),采用交替的视图级和全局自注意力层处理输入
- 数学表达:满足 φ(p_π(s)) = p_π(φ(s)),即输入置换后输出相应置换,保证语义不变
- 直接从无序图像集合中预测相机姿态和点图,无需指定参考视角
- 解决传统方法中 "参考视图选择不当导致重建失败" 的问题
- 适用于单幅图像、视频序列或静态 / 动态场景的任意图像组合
- 尺度不变点图:预测的 3D 点图在未知但一致的尺度因子下保持不变,解决单目重建的尺度模糊
- 仿射不变姿态:通过监督相对位姿 (视图间的相对旋转和平移) 消除全局参考系模糊
- 特征提取:使用 CNN 提取输入图像特征
- 排列等变处理:通过交替的视图级和全局自注意力机制处理特征,确保等变性
- 多任务预测:并行输出每个图像对应的
- 相机姿态 (旋转矩阵 + 平移向量)
- 像素对齐的 3D 点图
- 置信度分数
- 轻量级 5 层 Transformer:仅对单个图像特征应用自注意力,减少计算复杂度
- 解码头:相机姿态、点图和置信度共享相同架构但不共享权重
输入图像集合 → 特征提取 → [视图级自注意力 → 全局自注意力] × N → 解码头 → 输出
- 视图级自注意力:捕捉单幅图像内部特征关系
- 全局自注意力:建立不同图像间的关联,不依赖顺序
- 相机姿态:预测相对位姿(旋转矩阵 R 和平移向量 T),而非绝对位置
- 局部点图:为每个像素预测在该图像相机坐标系下的 3D 位置,形式为 (X, Y, Z)
- 尺度一致性:通过优化尺度因子 s* = argmin Σ(1/z_ij)||s・x̂_ij - x_ij||₁,使预测点与真实点在最佳尺度下对齐
- 鲁棒性:对输入视图数量、分布和顺序不敏感,降低部署门槛
- 高效性:无需迭代优化,一次前馈即可完成多任务预测
- 可扩展性:模型规模增加时性能持续提升,训练收敛更快
- 多任务统一:一个模型同时解决相机位姿、深度和 3D 点云重建
- 消除归纳偏置:传统方法的参考视图假设被完全摒弃,使模型更适应复杂多变的真实世界
Pi3 (π³) 算法通过排列等变架构和无参考视图设计,彻底革新了视觉几何学习领域。它不仅在多项任务上达到 SOTA 性能,更重要的是为 3D 视觉重建提供了更灵活、更鲁棒的解决方案,有望推动 AR/VR、自动驾驶、机器人导航等领域的突破性发展。
注:该算法已于 2025 年 7 月发表于 arXiv,并开源了代码和模型,可在 GitHub 上获取。