当前位置: 首页 > news >正文

【论文研读】SlowFast Networks for Video Recognition

论文简介

标题:SlowFast Networks for Video Recognition
作者:Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, Kaiming He
期刊:IEEE
年份:2019
引用:C. Feichtenhofer, H. Fan, J. Malik and K. He, "SlowFast Networks for Video Recognition," 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea (South), 2019, pp. 6201-6210, doi: 10.1109/ICCV.2019.00630.

论文模型架构

SlowFast 模型架构

上图为 SlowFast 网络分为两种 Slow pathway 与 Fast pathway,而在其过程中又将 Fast 路径的输出结果通过侧向连接送入 Slow 通道,最终进行结果预测。

Slow pathway & Fast pathway

Slow 通道主要捕捉视频中的空间语义信息(如物体、场景等静态或缓慢变化的特征)。其采取了Low frame rate 获取低频图像数据。在论文实验中 Slow 通道设置了每秒跳过16帧(τ=16),即若按30FPS每秒的视频,刷新速度大约每秒2帧采样。将 Slow 通路采样的帧数表示为 T ,原始片段长度是 T×τ 帧。

Fast 通道主要捕捉快速运动信息(如动作细节、瞬时变化)。其采取了 High frame rate 用于获取高频图像数据。

Fast 通道追求高帧率、高时间分辨率以及低通道数量。为了实现高帧率,Fast 通道使用小的时序步长 τ/α ( 其中,α>1 是 Fast 和 Slow 通路之间的帧率比,Fast 通道采样帧数为 α​T 会比 Slow 通道密集α倍)。为了实现高时间分辨率,Fast 通道到分类前的全局池化层之前,都没有使用任何时间下采样层(既没有时间池化也没有时间步长卷积)。为了实现低通道数量,Fast 通道数量通常为 Slow 通道数的 β ( β<1 )倍。

Lateral connections

Slow 通道和 Fast 通道两条通道的信息会进行融合,由 Fast 通道将信息传递至 Slow 通道,故而一条通路不会对另一条通路学习到的表示一无所知。

论文相关实验

论文在四个数据集(Kinetics-400 、Kinetics-600、Charades、AVA)中进行了实验验证。其中前三个数据集用于验证动作分类,最后一个数据集用于验证动作检测。

论文在Kinetics-400上取得很好的效果,实验数据如下图:

论文在Kinetics-600上的数据如下:

论文在AVA数据集上进行实验得到如下数据:

http://www.dtcms.com/a/289461.html

相关文章:

  • 2024年全国青少年信息素养大赛Scratch算法创意实践挑战赛 小高组 初赛 真题
  • http基础一
  • HarmonyOS 启动提速秘籍:懒加载全链路实战解析
  • 如何解决pip安装报错ModuleNotFoundError: No module named ‘lxml’问题
  • 红宝书单词学习笔记 list 51-75
  • 基于Chinese-LLaMA-Alpaca-3的多模态中医舌诊辅助诊断系统设计与实现
  • securecrt连接服务器报错 Key exchange failed 怎么办
  • QFutureInterface和QFuture间联系与区别
  • 力扣 hot100 Day50
  • Transformers基础组件—Model(上)
  • shared_ptr创建方式以及循环引用问题
  • MES系列 - MES是提升制造执行效率与透明度的关键系统
  • 单线程 Reactor 模式
  • C++ 继承和多态
  • linux安装Mysql后添加mysql的用户和密码
  • 负的 Content-Length 问题解析与修复方案
  • Claude Code 逆向工程分析,探索最新Agent设计
  • 超参数消融
  • Kafka 在分布式系统中的关键特性与机制深度解析
  • 多任务学习AITM算法简介
  • 虚拟机动态IP配置
  • MongoDB多节点集群原理 -- 复制集
  • 玄机——第六章 流量特征分析-蚂蚁爱上树
  • c语言进阶 自定义类型 (结构体 位段)
  • LWJGL教程(3)——时间
  • 【OD机试】池化资源共享
  • 30天打牢数模基础-K近邻(KNN)讲解
  • `/etc/samba/smb.conf`笔记250719
  • 【1】计算机视觉方法(更新)
  • Spring Boot 自动装配用法