当前位置: 首页 > news >正文

学习经验分享【39】YOLOv12——2025 年 2 月 19 日发布的以注意力为核心的实时目标检测器

      YOLO算法更新速度很快,已经出到V12版本,后续大家有想发论文或者搞项目可更新自己的baseline了。

代码:GitHub - sunsmarterjie/yolov12: YOLOv12: Attention-Centric Real-Time Object Detectors

摘要:长期以来,增强 YOLO 框架的网络架构一直至关重要,但尽管注意力机制在建模能力方面已被证明具有优越性,此前的改进却一直集中在基于卷积神经网络(CNN)的方面。这是因为基于注意力机制的模型在速度上无法与基于 CNN 的模型相媲美。本文提出了一个以注意力机制为核心的 YOLO 框架,即 YOLOv12,它在利用注意力机制性能优势的同时,能够达到与之前基于 CNN 的模型相当的速度。YOLOv12 在精度上超越了所有流行的实时目标检测器,并且速度也极具竞争力。例如,YOLOv12-N 在 T4 GPU 上实现了 40.6% 的平均精度均值(mAP),推理延迟为 1.64 毫秒,在速度相当的情况下,其 mAP 比先进的 YOLOv10-N/YOLOv11-N 高出 2.1%/1.2%。这一优势也延伸到了其他模型规模。YOLOv12 还超越了改进自 DETR 的端到端实时检测器,如 RT-DETR/RT-DETRv2:YOLOv12-S 击败了 RT-DETR-R18/RT-DETRv2-R18,同时运行速度快 42%,仅使用了 36% 的计算量和 45% 的参数。

1 核心技术

  • 区域注意力(Area Attention):将图像分割为多个区域,默认纵向 / 横向 4 份,仅对区域间进行注意力计算。使计算量从²降至,计算成本减半,保持大视野的同时精度损失微小。
  • 残差高效层聚合网络(R-ELAN):引入残差连接和分层聚合设计,跨层传递特征增强信息流通,减少中间模块降低计算开销,加速梯度流动并稳定训练。
  • 架构优化:取消最后阶段的三层堆叠改为单层 R-ELAN;用轻量级卷积替代全连接层;移除位置编码;调整 MLP 比例从 4:1 降至 1.2:1;引入 FlashAttention 解决注意力的内存访问问题,还引入大卷积核(7×7 卷积)增强位置感知能力。
2 性能优势 
  • 精度更高:在 COCO 数据集上,YOLOv12-N 在 T4 GPU 上实现了 40.6% 的平均精度(mAP),比 YOLOv11-N 高出 1.2% 的 mAP;YOLOv12-S 的 mAP 也高于 RT-DETR-R18 等模型。
  • 速度相当或更快:YOLOv12-N 推理延迟为 1.64 毫秒,与 YOLOv11-N 速度相当;YOLOv12-S 比 RT-DETR-R18 快 42%。
  • 资源占用少:YOLOv12-S 仅使用了 RT-DETR-R18 36% 的计算量和 45% 的参数;大模型如 YOLOv12-L/X 超越 RT-DETR 系列,参数量减少 37%-55%。
3 应用领域

YOLOv12 作为 YOLO 系列的最新版本,继承了 YOLO 系列的高效和快速,理论上可应用于 YOLO 算法的常见领域:

  • 自动驾驶:用于实时检测道路上的行人、车辆、交通标志等,帮助自动驾驶系统做出安全驾驶决策。
  • 视频监控:用于智能视频监控系统,检测公共场所中的可疑人员、丢失物品或暴力事件等,实现异常行为检测和预警。
  • 机器人视觉:帮助机器人更准确地识别和理解周围环境中的物体,对机器人导航、抓取和操作等任务至关重要。
  • 农业自动化:可由农业无人机或地面机器人携带摄像头拍摄农田图像,用于检测农作物病虫害,帮助农民及时发现并采取措施减少损失。
  • 医疗影像分析:可探索用于某些医疗影像分析场景,如肺结节检测等,检测并标记出潜在的病灶区域。
  • 精度更高:在 COCO 数据集上,YOLOv12-N 在 T4 GPU 上实现了 40.6% 的平均精度(mAP),比 YOLOv11-N 高出 1.2% 的 mAP;YOLOv12-S 的 mAP 也高于 RT-DETR-R18 等模型。
  • 速度相当或更快:YOLOv12-N 推理延迟为 1.64 毫秒,与 YOLOv11-N 速度相当;YOLOv12-S 比 RT-DETR-R18 快 42%。
  • 资源占用少:YOLOv12-S 仅使用了 RT-DETR-R18 36% 的计算量和 45% 的参数;大模型如 YOLOv12-L/X 超越 RT-DETR 系列,参数量减少 37%-55%。

相关文章:

  • vue2 和 vue3 中 computer 计算属性的用法
  • 单臂路由
  • 【算法系列】荷兰国旗问题:三指针法原地排序
  • comfy 面部修复(ComfyUI-Impact-Pack)
  • mybatis 细节(${ ..}和#{..},resultType 和 resultMap的区别,别名的使用,Mapper 代理模式)
  • vue-treeselect显示unknown的问题及解决
  • React 高阶组件的优缺点
  • CMake入门
  • HDFS Java 客户端 API
  • QML MouseArea 鼠标事件详解
  • SQLMesh 系列教程8- 详解 seed 模型
  • 每日一题——验证IP地址
  • Docker教程(喂饭级!)
  • 数字化电子(不动产经营租赁服务)发票版式文件说明
  • 孜然单授权系统V2.0PHP授权系统
  • List 接口中的 sort 和 forEach 方法
  • Linux-GlusterFS进阶分布式卷
  • python 虚拟机的使用方式
  • 实验-安装Proteus
  • 大模型监督微调(SFT)技术解析
  • 长沙潮宗街内“金丝楠木老屋文旅博物馆”起火:明火已扑灭,无伤亡
  • “一节课、两小时”,体育正在回归“C位”
  • 2025上海十大动漫IP评选活动启动
  • 洗冤录|县令遇豪强:黄榦处理的一起地产纠纷案
  • 体坛联播|郑钦文收获红土赛季首胜,国际乒联公布财报
  • 2025年度上海市住房城乡建设管理委工程系列中级职称评审工作启动