Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReID 2025最新无人机跟踪
Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReID 2025最新无人机跟踪
自己研一期间的小论文大致上的结构和内容基本上已经完成,到了最后在测试集上测试数据的阶段,在跑测试集的时间上就去看一些25年和多目标跟踪的领域相关的一些内容。掌握一些前言的内容,也可以为之后的实验和后续的工作提高一些baseline去使用。
热红外视频中多无人机的检测和跟踪是一个具有挑战性的问题,因为目标的对比度低、环境噪声大、目标尺寸小。
自己所做的论文存在的比较困难的一个地方就是对极小目标的跟踪上存在困难,检测器能检测到,但是提取特征上存在困难。
摘要
文章本身的创新性上感觉参考的价值不大,主要是集中在了从之前使用比较多的YOLOX上转换到了使用最新的YOLO12的模型来进行替换,整个代码中yolo12的使用是更有参考价值的。
提出了一个基于YOLOv 12和BoT-SORT的跟踪框架,而不是依赖于带有DeepSORT管道的YOLOv5
与传统的RGB图像相比,热红外视频具有许多优势,例如在低光照和恶劣天气条件下增强了能见度,使其成为安全和监控应用的理想选择。
这里论文中给出的图片信息应该就是热红外视频的跟踪方法。
下面的图像就说明了:从训练集中的边界框注释中裁剪的图像块,说明了UAV的不同大小,从几个像素到个位数像素。我们通过利用最新的YOLOv 12 探测器和BoT-SORT 跟踪算法构建了一个完整的无人机跟踪工作流程,其性能优于成熟的YOLOv 5 与DeepSORT的组合。
将文章主要的创新点总结如下:
-
我们建立了一个基于YOLOv 12和BoT-SORT的多无人机跟踪工作流程,为基于热红外视频的多无人机跟踪任务奠定了坚实的基础。
-
我们对各种试验调整提供了深入的分析,例如输入图像大小和跟踪器缓冲区调整的影响,并从我们强大的基线开始为未来的改进提供了基本考虑。
感觉这个第二个创新点直观的看上去我自己水平可能是理解不了,自我感觉是稍微有点水没提出以些实际有效的模块或者算法提供出来。
我们的方法通过利用最新的探测器和跟踪器,设置一个新的基准热红外视频为基础的无人机跟踪和指导未来的研究在多无人机跟踪任务的领域。
Methodology方法论
介绍了主要的检测模型YOLOv 12和跟踪算法BoT-SORT,然后详细介绍了我们的训练和推理策略。
BOT-SORT对于自己来说是十分熟悉的论文其代码的形式也是很了解用的比较多。对于最新的YOLO12确实是没了解过。
- 首先说明了它这个无人机跟踪算法的主要的三个任务:
挑战由三个轨道组成,每个轨道对应于不同的场景。航迹1和航迹2是SOT任务,不同之处在于是否给出了UAV的初始位置。航迹3是一个MOT任务,提供了无人机的初始位置。(Single Object Tracking (SOT))
报告了宽度、高度和面积分布,沿着它们的平均值和标准差,为模型超参数调整提供了重要的见解。请注意,与正式发布版本相比,数量可能略有不同,因为我们已删除了冗余注释和缺陷案例,如下图1所示。
后面介绍的主要是实验训练和验证以及设置的一些参数条件。
YOLOv12 with BoT-SORT-ReID for MOT
YOLOv 12因其卓越的上级性能而被选为所有轨道。
YOLOv 12的核心是采用剩余有效层聚合网络(R-ELAN),该网络解决了与注意力机制相关的优化挑战,特别是在大规模模型中。基于ELAN ,R-ELAN引入了具有自适应缩放的块级残差设计以及精细的特征聚合策略,以最小的开销共同促进有效的特征重用和稳定的梯度传播。
这里自己没看过YOLO12的论文不做详细的解释。
YOLOv12通过将FlashAttention与空间感知模块相结合,集成了以注意力为中心的架构,从而在保持低延迟的同时增强了上下文建模。引入7×7大核可分离卷积拓宽了感受野并加强了目标定位,特别是对于中小型目标。该架构针对现代GPU内存层次结构进行了优化,在不影响检测性能的情况下提高了计算效率并缩短了推理时间。这些创新使YOLOv12能够平衡速度和准确性,使其非常适合实时应用,大规模检测任务和跟踪管道。
对BOT-SORT的简单介绍
BoT-SORT 将卡尔曼滤波器与相机运动补偿(CMC)相结合,以在动态条件下稳定跟踪。CMC通过仿射变换采用全局运动补偿(GMC),使用金字塔Lucas-Kanade光流和离群值拒绝跟踪的图像关键点。
BoT-SORT-ReID通过集成来自四种不同ReID架构的外观线索来增强多对象跟踪。Bag of Tricks(Bagtricks)基线采用ResNet-50骨干,具有批量归一化,三重损失和交叉熵损失,用于鲁棒的特征提取。注意力广义平均池与加权三重损失(AGW)改进。
此外,在ByteTrack [45]之后,具有20帧间隙的线性tracklet插值减轻了遮挡或注释错误的错过检测
训练策略和推理的流程
为了减少YOLOv12检测器的训练时间,我们采用了两阶段训练策略。
- 第一正常的训练和表中的是一样的
- 随后,从这个检查点开始,我们在MOT数据集或更大的输入图像分辨率上微调这些模型。
推理工作流程如图:
带BoT-SORT-SBS-S50的YOLOv 12 n工作流程图。该工作流程遵循原始的BoT-SORT,但略有修订:合并丢失的轨迹以补偿无信息帧并提高对象连续性。具体地,对于磁道1和磁道2,丢失的目标信息被用于注释潜在的对象位置,而磁道3保留BoT-SORT原始输出。
没有使用线性轨迹插值,因为由于摄像机运动或快速移动的无人机,ID切换频繁发生,使得插值对于恢复丢失的检测无效。相反,对于SOT任务,我们采用的策略基于以下假设:每个帧最多包含一架UAV,并遵循以下优先级顺序:
(1)报告在线目标中具有最高置信度得分的UAV,(2)如果没有在线目标可用,则继续报告先前ID作为后续跟踪器缓冲帧中的丢失目标,(3)如果没有先前ID可用,则报告最后已知位置,直到检测到新的在线目标。
由于在线和丢失目标之间频繁的重叠和ID切换,这将导致效果不佳,因此该策略对于MOT任务是不可行的。因此,在本例中,我们保留了Track 3的原始输出。
测试的相关指标和MOT17中的指标计算方式上是保持一致的。
最后论文给出的这种应该是类似传统的消融实验的结果图,感觉和其他的一些论文相比较之下缺少和其他一些比较知名算法的对比实验。
提供的预训练模型如果是在MOT数据集上训练的其实对于做传统的MOT任务的要友好一些,但是代码中给出的替代YOLOX检测器的代码结构还是值得作为后续涨点的一种方式。
https://github.
com/wish44165/YOLOv12-BoT-SORT-ReID