当前位置：首页 > news >正文

YOLOv13来了！基于超图增强的自适应视觉感知实时目标检测

news 2025/7/12 9:19:51

导读

YOLO（You Only Look Once）是一种实时目标检测框架，通过单次卷积神经网络（CNN）直接预测图像中的物体位置与类别，实现端到端检测。YOLO系列一路进化，目前已经到了v13版本了。YOLOv13版本由清华大学、北京理工大学、深圳大学、香港科技大学、太原理工大学、西安交通大学联合研究团队发布。

论文地址：https://arxiv.org/pdf/2506.17733
GitHub地址：https://arxiv.org/pdf/2506.17733

YOLOv13有多强

YOLO 系列模型凭借其卓越的准确率和计算效率，在实时目标检测领域占据主导地位。然而，YOLOv11 及更早版本的卷积架构，以及 YOLOv12 中引入的基于区域的自注意力机制，都局限于局部信息聚合和成对关联建模，缺乏捕捉全局多对多高阶关联的能力，这在复杂场景中限制了检测性能。

YOLOv13—— 一种精准且轻量化的目标检测器。为解决上述挑战，设计了基于超图的自适应关联增强（HyperACE）机制。该机制通过超图计算，自适应地挖掘潜在的高阶关联，克服了以往方法仅限于成对关联建模的局限，实现了高效的全局跨位置和跨尺度特征融合与增强。

随后，基于 HyperACE 提出了全流程聚合与分配（FullPAD）范式，通过将关联增强后的特征分配到整个网络流程中，有效实现了全网络内细粒度的信息流和表示协同。

最后，提出采用深度可分离卷积替代传统的大核卷积，并设计了一系列模块，在不牺牲性能的前提下显著减少了参数数量和计算复杂度。

在广泛使用的 MS COCO 基准数据集上进行了大量实验，结果表明，YOLOv13在参数和计算量更少的情况下，实现了最先进的性能。具体而言， YOLOv13-N 比 YOLOv11-N 的平均精度（mAP）提升了 3.0%，比 YOLOv12-N 提升了 1.5%。
在这里插入图片描述

YOLOv13 核心架构

在这里插入图片描述
YOLOv13 系列包含四个版本：Nano（纳米版）、Small（标准版）、**Large（增强版）**和 X-Large（旗舰版），其核心技术包括：

HyperACE：基于超图的自适应关联增强机制
- 将多尺度特征图中的像素视为超图顶点。
- 采用可学习的超边构建模块，自适应挖掘顶点间的高阶关联。
- 借助线性复杂度的消息传递模块，在高阶关联的引导下有效聚合多尺度特征，实现对复杂场景的高效视觉感知。
FullPAD：全流程聚合与分配范式
- 利用 HyperACE 聚合骨干网络的多尺度特征，在超图空间中提取高阶关联。
- 该范式通过三条独立通道，将经关联增强的特征分别传递至 “骨干网络与颈部连接层”“颈部内部各层” 和 “颈部与头部连接层”，使 YOLOv13 在全网络流程中实现细粒度的信息流与表征协同。
- 显著优化梯度传播，提升检测性能。
基于深度可分离卷积的轻量化模块
- 用基于深度可分离卷积构建的模块（DSConv、DS-Bottleneck、DS-C3k、DS-C3k2）替代大核卷积，在保留感受野的同时大幅减少参数与计算量。
- 在不损失精度的前提下实现更快的推理速度。