当前位置: 首页 > news >正文

MoPKL与SPAR的思考

MoPKL与SPAR都引入了文本模态+构图的思路来解决小目标难以检测的问题,具体来说:

SPAR:

将视觉特征与文本进行交互:SPAR将多尺度特征concat,对文本与图像做多头交叉注意力,这一步相当于将图像特征融入到文本描述中;后续再通过更新后的文本嵌入对图像像素特征进行更新,使特征图也包含文本的语义信息。

构图:SPAR从特征图中选出M个高分区域,表示“最容易识别,语义最明确”的特征;将M个像素节点与类别节点构图;通过计算节点的相似度构建归一化邻接矩阵,表示节点相连信息;依据此邻接矩阵更新图;最后回写特征图进行更新。

类比推理逻辑的实现:Self-prompting阶段模型已经初步建立了图像-文本的对齐;图卷积部分,模型把容易节点的特征与语义信息融合,使语义得到全局特征的更新;在检测时,困难目标会吸收高分区域传来的语义信息,实现“类比推理”。

MoPKL

构建文本描述:将图像划分网格,每个网格找到可能目标并计算两帧间的速度和方向,拼成模板句子并构成文本嵌入。

视觉特征与文本描述对齐:相较于SPAR模型中将交互后的文本节点与像素节点一起加入图的做法,MoPKL采取了将视觉特征与文本描述融合的方式。模型选取最相近的节点进行加权融合,得到了新的跨模态节点。

建边思路:利用帧间差分与互信息(单帧熵与联合熵)得到图中网格块的运动信息,选择出运动信息值最高的N块(更可能包含运动小目标),通过计算马氏距离来表示块间相关关系(运动模式相似的块构建边)。

构图:跨模态节点与块间相关关系构图

语言先验逻辑:用先验约束视觉特征,减少噪声;提供运动语义信息,弥补小目标外观不足。

http://www.dtcms.com/a/389286.html

相关文章:

  • Ubuntu 启动分配不到 ip 地址问题
  • iOS 推送证书配置 - p12
  • Qt QVPieModelMapper详解
  • 【MySQL数据库管理问答题】第1章 MySQL 简介
  • 铁头山羊视stm32-HAL库
  • iOS 26 帧率检测实战攻略 如何监控FPS、GPU渲染、Core Anima
  • AWS Lightsail vs 阿里云轻量:企业上云服务器选型深度对比
  • stm32中的位带操作的使用意义
  • Qt QStackedBarSeries详解
  • WebSocket Secure(WSS)在Django项目中的使用
  • RocketMQ 部署;与Golang服务交互
  • 南京某高校校园外卖点餐系统_django
  • 类的基础语法(笔记补充)
  • pycharm 连git 传文件到GitHub
  • 11 简答题-伪码转为NS图 PAD图
  • Java 中如何利用 CAS 实现原子操作?以AtomicInteger 为例
  • Custom SRP - Point And Spot Shadows
  • 无障碍前端组件实践(上):基础交互组件与色彩无障碍
  • 矩阵的导数运算
  • 微算法科技(NASDAQ:MLGO)多注意力循环网络:MARN技术如何让机器理解语言、手势与语音的微妙交互
  • 混合架构(SpringCloud+Dubbo)的整合方案与适用场景(二)
  • centos的hadoop的允许hdfs命令覆盖linux系统目录文件或生成副本
  • 跨平台开发框架全景分析:Flutter、RN、KMM 与腾讯 Kuikly 谁更值得选择?
  • 燃料电池负载均衡测试:解锁高效供能密码
  • ip地址在哪里查看?怎样查询自己电脑ip?如何找到使用内网ip,判断看本地有无公网ip?内网ip怎么给外网访问?
  • 设计模式-模板方法模式详解
  • Red Hat 8.5.0-18 部署ceph文件系统
  • 将ceph文件存储挂载给k8s使用
  • ENVI系列教程(七)——自定义 RPC 文件图像正射校正
  • 「Java EE开发指南」如何用MyEclipse开发Java EE企业应用程序?(二)