当前位置: 首页 > news >正文

[CVPR]DVFL-Net:用于时空动作识别的轻量级蒸馏视频调焦网络

研究背景与动机

  1. 视频识别技术演进​:

    • 从传统3D CNN转向Transformer架构,因后者能更好捕获长时空依赖关系。
    • 核心问题​:Transformer的自注意力机制计算复杂度高(O(n2)),处理密集视频数据时资源消耗大。
  2. 现有方案局限​:

    • Video-FocalNet(前期工作)用焦点调制(Focal Modulation)替代自注意力,但基础模型参数量达157M,仍不适合边缘设备部署。

核心创新:DVFL-Net

  1. 整体架构​:

    • 师生蒸馏框架​:
      • 教师模型​:预训练的Video-FocalNet Base(157M参数)。
      • 学生模型​:轻量化VFL-Net(22M参数),通过知识蒸馏继承教师模型的时空知识。
      • 蒸馏机制​:结合前向KL散度损失(Lkd​)和交叉熵损失(Lce​),优化目标为:
        Ltotal​=α⋅Lkd​+(1−α)⋅Lce​
      • </
http://www.dtcms.com/a/289074.html

相关文章:

  • 连接语言大模型(LLM)服务进行对话
  • vben-admin 导入并使用基础版的vxe-table
  • 【LeetCode 热题 100】236. 二叉树的最近公共祖先——DFS
  • oracle 11g drop user 失败,报错ORA-00600
  • jxORM--编程指南
  • EXPLAIN:你的SQL性能优化透视镜
  • 【Docker-Day 7】揭秘 Dockerfile 启动指令:CMD、ENTRYPOINT、ENV、ARG 与 EXPOSE 详解
  • 软件测试-Bug
  • 最简单的 Android TV 项目示例
  • 【RK3576】【Android14】显示屏MIPI开发调试
  • USB 2.0 vs USB 3.0:全面技术对比与选择指南
  • HuggingFace基础知识和环境安装
  • 如何在 QGIS 中定义/更改坐标系?
  • 吴恩达《AI for everyone》第二周课程笔记
  • Redis 概率型数据结构实战指南
  • 浅谈 Vue 的双向数据绑定
  • 10-day07文本分类
  • 借助AI学习开源代码git0.7之四update-cache
  • 常用框架知识
  • 基于单片机的温湿度报警系统设计与实现
  • 神经网络:池化层
  • 数字图像处理(四:图像如果当作矩阵,那加减乘除处理了矩阵,那图像咋变):从LED冬奥会、奥运会及春晚等等大屏,到手机小屏,快来挖一挖里面都有什么
  • 41.FeignClient整合Sentinel
  • 7-20 关于mysql
  • C#.NET EFCore.BulkExtensions 扩展详解
  • 【机器学习工具】Weights Biases
  • C++string类用法
  • gradle微服务依赖模版
  • OpenTelemetry学习笔记(九):Elastic 对 OTLP 的原生支持
  • 【成品设计】基于STM32的宠物检测系统