⭐CVPR2025 单目视频深度估计新框架 Seurat
📄论文题目:Seurat: From Moving Points to Depth
✍️作者及机构:Seokju Cho1、Jiahui Huang2、Seungryong Kim1、Joon-Young Lee2(1KAIST AI;2Adobe Research)
🧩面临问题:单目视频的精确深度估计仍具挑战,因单视图几何存在固有模糊性,缺乏立体视觉等关键深度线索1。同时,单目视频序列中,动态物体的复杂运动以及长序列中深度估计的时间一致性维持困难,进一步增加了任务难度2。
🎯创新点及其具体研究方法:
1️⃣ 基于轨迹的深度推断框架:受人类通过观察物体运动时的大小和间距变化感知相对深度的启发,提出通过分析跟踪到的 2D 轨迹的空间关系和时间演变来推断相对深度。使用现成的点跟踪模型捕获 2D 轨迹,再利用空间和时间 Transformer 处理这些轨迹,直接推断随时间的深度变化1。
2️⃣ 双分支 Transformer 架构:为避免查询点分布不均导致的偏差,引入支持轨迹与查询轨迹的双分支设计。支持轨迹分支处理从图像均匀采样网格点得到的轨迹,捕获全局运动信息;查询轨迹分支处理用户定义的查询点轨迹,通过交叉注意力注入支持分支的运动信息,确保深度预测不受查询点分布偏差影响45。
3️⃣ 滑动窗口预测与窗口级损失函数:针对长视频序列处理导致的深度预测复杂不稳定问题,采用滑动窗口方式在较短片段中预测时间深度变化。设计窗口 - wise log-ratio 深度损失函数,使模型专注于相对深度变化的准确预测,提升学习相对深度的可靠性36。
4️⃣ 深度比率与度量深度结合策略:将预测的深度比率与现成的度量深度估计器结合,通过分段尺度匹配,将模型的时间深度变化与度量深度估计器的空间深度关系对齐,得到兼具时间稳定性和空间精确性的最终深度估计78。