YOLOv13来了!基于超图增强的自适应视觉感知实时目标检测
导读
YOLO(You Only Look Once)是一种实时目标检测框架,通过单次卷积神经网络(CNN)直接预测图像中的物体位置与类别,实现端到端检测。YOLO系列一路进化,目前已经到了v13版本了。YOLOv13版本由清华大学、北京理工大学、深圳大学、香港科技大学、太原理工大学、西安交通大学联合研究团队发布。
- 论文地址:https://arxiv.org/pdf/2506.17733
- GitHub地址:https://arxiv.org/pdf/2506.17733
YOLOv13有多强
YOLO 系列模型凭借其卓越的准确率和计算效率,在实时目标检测领域占据主导地位。然而,YOLOv11 及更早版本的卷积架构,以及 YOLOv12 中引入的基于区域的自注意力机制,都局限于局部信息聚合和成对关联建模,缺乏捕捉全局多对多高阶关联的能力,这在复杂场景中限制了检测性能。
YOLOv13—— 一种精准且轻量化的目标检测器。为解决上述挑战,设计了基于超图的自适应关联增强(HyperACE)机制。该机制通过超图计算,自适应地挖掘潜在的高阶关联,克服了以往方法仅限于成对关联建模的局限,实现了高效的全局跨位置和跨尺度特征融合与增强。
随后,基于 HyperACE 提出了全流程聚合与分配(FullPAD)范式,通过将关联增强后的特征分配到整个网络流程中,有效实现了全网络内细粒度的信息流和表示协同。
最后,提出采用深度可分离卷积替代传统的大核卷积,并设计了一系列模块,在不牺牲性能的前提下显著减少了参数数量和计算复杂度。
在广泛使用的 MS COCO 基准数据集上进行了大量实验,结果表明,YOLOv13在参数和计算量更少的情况下,实现了最先进的性能。具体而言, YOLOv13-N 比 YOLOv11-N 的平均精度(mAP)提升了 3.0%,比 YOLOv12-N 提升了 1.5%。
YOLOv13 核心架构
YOLOv13 系列包含四个版本:Nano(纳米版)、Small(标准版)、**Large(增强版)**和 X-Large(旗舰版),其核心技术包括:
-
HyperACE:基于超图的自适应关联增强机制
- 将多尺度特征图中的像素视为超图顶点。
- 采用可学习的超边构建模块,自适应挖掘顶点间的高阶关联。
- 借助线性复杂度的消息传递模块,在高阶关联的引导下有效聚合多尺度特征,实现对复杂场景的高效视觉感知。
-
FullPAD:全流程聚合与分配范式
- 利用 HyperACE 聚合骨干网络的多尺度特征,在超图空间中提取高阶关联。
- 该范式通过三条独立通道,将经关联增强的特征分别传递至 “骨干网络与颈部连接层”“颈部内部各层” 和 “颈部与头部连接层”,使 YOLOv13 在全网络流程中实现细粒度的信息流与表征协同。
- 显著优化梯度传播,提升检测性能。
-
基于深度可分离卷积的轻量化模块
- 用基于深度可分离卷积构建的模块(DSConv、DS-Bottleneck、DS-C3k、DS-C3k2)替代大核卷积,在保留感受野的同时大幅减少参数与计算量。
- 在不损失精度的前提下实现更快的推理速度。
YOLOv13数据表现
备注
- 更多细节请阅读论文和GitHub源码,纸上得来终觉浅,绝知此事要躬行!