当前位置: 首页 > news >正文

YOLOv12:以注意力为中心的实时目标检测器

YOLOv12:以注意力为中心的实时目标检测器

 

 

更新内容

 

YOLOv12 是一种创新的实时目标检测器,它在精度和速度上超越了所有流行的实时对象检测器。以下是 YOLOv12 的主要更新内容:

 

 

1.创新点

 

 

• 区域注意力机制(A2):将特征图划分为多个区域,在这些区域内进行注意力计算,显著降低了计算复杂度,同时保持了较大的感受野。避免了复杂的窗口划分操作,只需简单的重塑操作,从而提高了速度。

 

• 残差高效层聚合网络(R-ELAN):为解决注意力机制(尤其是大规模模型)引入的优化挑战,R-ELAN 基于原始 ELAN 引入了两个改进:基于缩放技术的块级残差设计;重新设计的特征聚合方法。

 

• 优化注意力架构:引入 FlashAttention 以克服注意力的内存访问问题,移除如位置编码等设计以使模型快速且简洁,调整 MLP 比例从 4 到 1.2 以平衡注意力和 FFN 之间的计算,减少堆叠块的深度以促进优化,尽可能多地使用卷积算子以利用其计算效率。

 

 

2.性能提升

 

 

• YOLOv12 在准确率上超越了所有流行的实时目标检测器,同时保持了有竞争力的速度。例如,YOLOv12-N 在 T4 GPU 上实现了 1.64ms 的推理延迟,达到 40.6%的 mAP,比先进的 YOLOv10-N/YOLOv11-N 分别高出 2.1%/1.2%的 mAP,且速度相当。

 

• 这一优势也扩展到其他模型规模。YOLOv12 还超越了改进 DETR 的端到端实时检测器,如 RT-DETR/RTDETRv2:YOLOv12-S 在运行速度上快 42%,仅使用 36%的计算资源和 45%的参数,就击败了 RT-DETR-R18/RT-DETRv2-R18。

 

 

3.模型变体

 

YOLOv12 开发了一组具有 5 个模型尺度的实时检测器:YOLOv12-N、S、M、L 和 X。这些模型在遵循 YOLOv11 的标准目标检测基准上进行了广泛的实验,证明了 YOLOv12 在这些尺度上提供了显著的改进。

 

 

4.支持的任务

 

YOLOv12 是一个多功能模型,支持多种核心计算机视觉任务,包括目标检测、实例分割、图像分类、姿态估计和定向目标检测(OBB)。这使得 YOLOv12 在各种应用场景中都具有强大的实用性。

 

 

使用教程

 

 

1.环境配置

 

 

推荐配置

 

 

• Python 版本:3.11

 

• 使用 Anaconda:推荐新手使用 Anaconda 进行环境管理,便于安装和管理依赖包。

 

 

安装步骤

 

 

```bash

# 创建并激活 conda 环境

conda create -n yolov12 python=3.11

conda activate yolov12

 

# 安装依赖包

pip install -r requirements.txt

 

# 安装 YOLOv12

pip install -e .

```

 

 

 

2.训练模型

 

 

准备数据集

 

将你的数据集按照 COCO 格式组织,或者使用其他支持的格式。如果需要从零开始训练,可以参考相关的教程。

 

 

训练命令

 

 

```bash

yolo task=detect mode=train model=yolov12n.yaml data=coco.yaml epochs=100 batch=64 imgsz=640

```

 

 

 

• `task`:指定任务类型,如`detect`表示目标检测。

 

• `mode`:指定模式,如`train`表示训练模式。

 

• `model`:指定模型配置文件,如`yolov12n.yaml`。

 

• `data`:指定数据集配置文件,如`coco.yaml`。

 

• `epochs`:训练的轮数。

 

• `batch`:批量大小。

 

• `imgsz`:输入图像的尺寸。

 

 

3.推理

 

 

推理命令

 

 

```bash

yolo task=detect mode=predict model=yolov12n.pt source=image.jpg

```

 

 

 

• `model`:指定预训练的模型权重文件,如`yolov12n.pt`。

 

• `source`:指定输入源,可以是图像文件、视频文件或摄像头。

 

 

4.部署

 

YOLOv12 支持多种部署方式,包括在服务器上部署、移动设备上部署以及使用 TensorRT 加速等。你可以根据实际需求选择合适的部署方案。

 

 

总结

 

YOLOv12 通过引入区域注意力机制、残差高效层聚合网络以及优化注意力架构等创新点,实现了在精度和速度上的双重提升。它的多功能性和高效性使其在各种计算机视觉任务中都表现出色。无论是进行目标检测、实例分割还是其他任务,YOLOv12 都是一个值得尝试的强大工具。

相关文章:

  • mac部署GPT-SoVITS,生成粤语踩坑点及使用记录
  • Spring框架中的单例Bean是线程安全的吗
  • 《Android应用性能优化全解析:常见问题与解决方案》
  • 自动化领域零部件企业研究
  • windows上传uniapp打包的ipa文件到app store构建版本
  • OpenManus-通过源码方式本地运行OpenManus,含踩坑及处理方案,chrome.exe位置修改
  • 小肥柴慢慢手写数据结构(C篇)(4-3 关于栈和队列的讨论)
  • CentOS 8 更换软件源
  • Ubuntu 22.04 无法进入图形界面的解决方法
  • 浅谈大语言模型(LLM)的微调与部署
  • centos 安装 php gmp 模块
  • YashanDB认证,YCA证书认证教程,免费证书,内含真题考试题库及答案——五分钟速成
  • 设备物联网无线通信,ESP32-C3芯片模组方案,智能化联动控制
  • 003-SpringCloud Alibaba-Nacos(配置中心)
  • python读取word文档 | AI应用开发
  • 22. 备忘录模式
  • 爬虫中一些有用的用法
  • 【ISP】对于ISP的关键算法补充
  • Python第十七课:卷积神经网络 | 计算机视觉之眼
  • Vue3接入谷歌邮箱登录功能
  • 如何搭建情侣网站/苏州百度推广服务中心
  • 兰州优化网站推广/社群营销怎么做
  • 成都旅游的网站建设/迅雷磁力链bt磁力种子
  • 南昌市住房城乡建设委门户网站/项目推广网站
  • 自己做网站上传视频/网站如何做seo排名
  • 智能模板网站建设收费/西安百度竞价外包