当前位置: 首页 > news >正文

⭐CVPR2025 单目视频深度估计新框架 Seurat

📄论文题目:Seurat: From Moving Points to Depth
✍️作者及机构:Seokju Cho1、Jiahui Huang2、Seungryong Kim1、Joon-Young Lee2(1KAIST AI;2Adobe Research)

在这里插入图片描述

🧩面临问题:单目视频的精确深度估计仍具挑战,因单视图几何存在固有模糊性,缺乏立体视觉等关键深度线索1。同时,单目视频序列中,动态物体的复杂运动以及长序列中深度估计的时间一致性维持困难,进一步增加了任务难度2。

🎯创新点及其具体研究方法:
1️⃣ 基于轨迹的深度推断框架:受人类通过观察物体运动时的大小和间距变化感知相对深度的启发,提出通过分析跟踪到的 2D 轨迹的空间关系和时间演变来推断相对深度。使用现成的点跟踪模型捕获 2D 轨迹,再利用空间和时间 Transformer 处理这些轨迹,直接推断随时间的深度变化1。
2️⃣ 双分支 Transformer 架构:为避免查询点分布不均导致的偏差,引入支持轨迹与查询轨迹的双分支设计。支持轨迹分支处理从图像均匀采样网格点得到的轨迹,捕获全局运动信息;查询轨迹分支处理用户定义的查询点轨迹,通过交叉注意力注入支持分支的运动信息,确保深度预测不受查询点分布偏差影响45。
3️⃣ 滑动窗口预测与窗口级损失函数:针对长视频序列处理导致的深度预测复杂不稳定问题,采用滑动窗口方式在较短片段中预测时间深度变化。设计窗口 - wise log-ratio 深度损失函数,使模型专注于相对深度变化的准确预测,提升学习相对深度的可靠性36。
4️⃣ 深度比率与度量深度结合策略:将预测的深度比率与现成的度量深度估计器结合,通过分段尺度匹配,将模型的时间深度变化与度量深度估计器的空间深度关系对齐,得到兼具时间稳定性和空间精确性的最终深度估计78。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

http://www.dtcms.com/a/312237.html

相关文章:

  • 嵌入式系统的中断控制器(NVIC)
  • rosdep的作用以及rosdep install时的常用参数
  • 质数时间(二分查找)
  • ​​​​​​​第二十一天(CDN绕过)
  • EPICS aSub记录示例2
  • [学习笔记-AI基础篇]02_深度基础
  • Kotlin协程极简教程:5分钟学完关键知识点
  • 工业场景工服识别准确率↑32%:陌讯多模态融合算法实战解析
  • OpenVLA复现
  • 23th Day| 39.组合总和,40.组合总和II,131.分割回文串
  • Linux—进程状态
  • 深入 Go 底层原理(九):context 包的设计哲学与实现
  • 智能手表:电源检查
  • Java多线程详解(2)
  • 一、灵巧手捉取几何原理——空间五指平衡捉取
  • GraphRag安装过程中的报错:系统找不到指定的文件(Could not install packages due to an OSError)
  • AI赋能测试:技术变革与应用展望
  • C++const成员
  • [网安工具] Web 漏洞扫描工具 —— AWVS · 使用手册
  • 机器学习【五】decision_making tree
  • Linux重定向和缓冲区
  • Piriority_queue
  • 三、摩擦刚体——捉取质量函数
  • ARP协议是什么?ARP欺骗是如何实现的?我们该如何预防ARP欺骗?
  • 前端与后端部署大冒险:Java、Go、C++三剑客
  • Codeforces Round 1039 (Div. 2) A-C
  • nodejs读写文件
  • 数据类型Symbol
  • 裸露土堆识别准确率↑32%:陌讯多特征融合算法实战解析
  • 数据结构基础