当前位置：首页 > news >正文

MoPKL与SPAR的思考

news 2025/9/19 6:43:15

MoPKL与SPAR都引入了文本模态+构图的思路来解决小目标难以检测的问题，具体来说：

SPAR：

将视觉特征与文本进行交互：SPAR将多尺度特征concat，对文本与图像做多头交叉注意力，这一步相当于将图像特征融入到文本描述中；后续再通过更新后的文本嵌入对图像像素特征进行更新，使特征图也包含文本的语义信息。

构图：SPAR从特征图中选出M个高分区域，表示“最容易识别，语义最明确”的特征；将M个像素节点与类别节点构图；通过计算节点的相似度构建归一化邻接矩阵，表示节点相连信息；依据此邻接矩阵更新图；最后回写特征图进行更新。

类比推理逻辑的实现：Self-prompting阶段模型已经初步建立了图像-文本的对齐；图卷积部分，模型把容易节点的特征与语义信息融合，使语义得到全局特征的更新；在检测时，困难目标会吸收高分区域传来的语义信息，实现“类比推理”。

MoPKL

构建文本描述：将图像划分网格，每个网格找到可能目标并计算两帧间的速度和方向，拼成模板句子并构成文本嵌入。

视觉特征与文本描述对齐：相较于SPAR模型中将交互后的文本节点与像素节点一起加入图的做法，MoPKL采取了将视觉特征与文本描述融合的方式。模型选取最相近的节点进行加权融合，得到了新的跨模态节点。

建边思路：利用帧间差分与互信息（单帧熵与联合熵）得到图中网格块的运动信息，选择出运动信息值最高的N块（更可能包含运动小目标），通过计算马氏距离来表示块间相关关系（运动模式相似的块构建边）。

构图：跨模态节点与块间相关关系构图

语言先验逻辑：用先验约束视觉特征，减少噪声；提供运动语义信息，弥补小目标外观不足。

Ubuntu 启动分配不到 ip 地址问题

iOS 推送证书配置 - p12

Qt QVPieModelMapper详解

铁头山羊视stm32-HAL库

stm32中的位带操作的使用意义

Qt QStackedBarSeries详解

RocketMQ 部署；与Golang服务交互

南京某高校校园外卖点餐系统_django

类的基础语法（笔记补充）

pycharm 连git 传文件到GitHub

11 简答题-伪码转为NS图 PAD图

Custom SRP - Point And Spot Shadows

矩阵的导数运算

设计模式-模板方法模式详解

Red Hat 8.5.0-18 部署ceph文件系统

将ceph文件存储挂载给k8s使用