当前位置: 首页 > news >正文

RoMo: Robust Motion Segmentation Improves Structure from Motion

前言

看起来像是一篇投稿CVPR的文章,不知道被哪个瞎眼审稿人拒了。同期还有一篇CVPR被接收的工作Segment Any Motion in Videos,看起来不如这篇直白(也可能是因为我先看过spotlesssplats的缘故),后面也应该一并介绍了的。总体来说:就是如何给sam2提供一个很好地prompt,获得视频序列的dynamic mask 分割结果。

RoMo: Robust Motion Segmentation Improves Structure from Motion

造成像素变化的原因有两种:相机移动和物体移动,如何把这两种解耦并只获得物体移动的变化?

第一步

epipolar(RANSAC) 估计相机运动,RAFT估计光流变化,使用以下公式计算t到t’上的重投影误差:
在这里插入图片描述
并设置两个阈值:2v0.01v,其中v是整体光流的平均移动速度。
在这里插入图片描述
这里获得了两个大致的动态mask和静态mask。

第二步

训练一个简单的分割网络(2个iteration),损失函数如下:
在这里插入图片描述
其中,H就是网络估计出来的dynamic mask。G是从sam2的encoder中取的最后一层feature。
在这里插入图片描述
对于公式(5),目的就是让上述mask中估计出来的动态位置,MLP的预测值一定尽可能接近1,静态位置MLP预测值尽可能接近0。
由于上面是feature层面的操作,所以分辨率小于原始分辨率,最后再使用SAM2做致密化。

Segment Any Motion in Videos

http://www.dtcms.com/a/114382.html

相关文章:

  • 【c语言】结构体
  • [自制调试工具]构建高效调试利器:Debugger 类详解
  • at定时任务(超详细)
  • SpringBoot整合JUnit
  • [ctfshow web入门] web1
  • 【学习笔记】深度学习环境部署相关
  • 提高MCU的效率方法
  • Redis常见命令
  • 反向查询详解以Django为例
  • 速解!Cadence SPB24.1 ORCAD 开始页空白难题
  • Chapter06_图像复原
  • Transformer与注意力机制详解
  • Unity:Colliders(碰撞体) Rigidbody(刚体)
  • 解锁健康密码,拥抱品质生活
  • Redis最佳实践——购物车管理详解
  • RPG UNITY实战
  • MySQL篇(四)事务相关知识详解
  • 小白 thingsboard 拆分前后端分离
  • 第七章:从类库到服务的分布式基石_《凤凰架构:构建可靠的大型分布式系统》
  • iPhone XR:一代神机,止步于此
  • 浅谈 MVVM 模式
  • MessageQueue --- RabbitMQ WorkQueue and Prefetch
  • ROS Master多设备连接
  • React 函数组件间怎么进行通信?
  • java如何处理网络延时问题,并保证数据安全?
  • 丹麦波尔实验室2025.4.5
  • 学生管理系统(java)
  • [C++面试] 如何在特定内存位置上分配内存、构造对象
  • Rust所有权详解
  • L3-21