当前位置: 首页 > news >正文

RoMo: Robust Motion Segmentation Improves Structure from Motion

前言

看起来像是一篇投稿CVPR的文章,不知道被哪个瞎眼审稿人拒了。同期还有一篇CVPR被接收的工作Segment Any Motion in Videos,看起来不如这篇直白(也可能是因为我先看过spotlesssplats的缘故),后面也应该一并介绍了的。总体来说:就是如何给sam2提供一个很好地prompt,获得视频序列的dynamic mask 分割结果。

RoMo: Robust Motion Segmentation Improves Structure from Motion

造成像素变化的原因有两种:相机移动和物体移动,如何把这两种解耦并只获得物体移动的变化?

第一步

epipolar(RANSAC) 估计相机运动,RAFT估计光流变化,使用以下公式计算t到t’上的重投影误差:
在这里插入图片描述
并设置两个阈值:2v0.01v,其中v是整体光流的平均移动速度。
在这里插入图片描述
这里获得了两个大致的动态mask和静态mask。

第二步

训练一个简单的分割网络(2个iteration),损失函数如下:
在这里插入图片描述
其中,H就是网络估计出来的dynamic mask。G是从sam2的encoder中取的最后一层feature。
在这里插入图片描述
对于公式(5),目的就是让上述mask中估计出来的动态位置,MLP的预测值一定尽可能接近1,静态位置MLP预测值尽可能接近0。
由于上面是feature层面的操作,所以分辨率小于原始分辨率,最后再使用SAM2做致密化。

Segment Any Motion in Videos

相关文章:

  • 做网站原价商品打个横线整合营销方案案例
  • 有域名了怎么建站蚌埠网络推广
  • 承德网站建设案例体验营销策划方案
  • 电子商务网站有那些功能关键词优化包年推广
  • 做司考题的网站安徽搜索引擎优化seo
  • 自己网站上做支付宝怎么收费的网站客服
  • 【c语言】结构体
  • [自制调试工具]构建高效调试利器:Debugger 类详解
  • at定时任务(超详细)
  • SpringBoot整合JUnit
  • [ctfshow web入门] web1
  • 【学习笔记】深度学习环境部署相关
  • 提高MCU的效率方法
  • Redis常见命令
  • 反向查询详解以Django为例
  • 速解!Cadence SPB24.1 ORCAD 开始页空白难题
  • Chapter06_图像复原
  • Transformer与注意力机制详解
  • Unity:Colliders(碰撞体) Rigidbody(刚体)
  • 解锁健康密码,拥抱品质生活
  • Redis最佳实践——购物车管理详解
  • RPG UNITY实战
  • MySQL篇(四)事务相关知识详解
  • 小白 thingsboard 拆分前后端分离
  • 第七章:从类库到服务的分布式基石_《凤凰架构:构建可靠的大型分布式系统》
  • iPhone XR:一代神机,止步于此