当前位置: 首页 > news >正文

目标检测进化史

1object as anchor

(1) 核心思想

  • Anchor-based 方法:通过在图像中预定义一组锚点(Anchor),并将目标检测问题转化为对锚点的分类和回归问题。
  • 典型方法:Faster R-CNN、SSD、YOLOv2/v3 等。

(2) 具体实现

  • 锚点生成:在图像的每个位置生成多个不同尺度和长宽比的锚点。
  • 分类与回归:对每个锚点进行分类(判断是否包含目标)和回归(调整锚点的位置和大小)。

(3) 优点

  • 高精度:通过多尺度和多长宽比的锚点,能够较好地覆盖各种目标。
  • 成熟稳定:Anchor-based 方法是目标检测领域的经典方法,具有丰富的理论和实践基础。

(4) 缺点

  • 计算开销大:需要生成大量的锚点,导致计算开销较大。
  • 超参数敏感:锚点的尺度和长宽比需要根据数据集进行调整,超参数敏感。
  • 后处理:复杂大量的后处理

2 object as point

核心思想

  • Anchor-free 方法:将目标检测问题转化为对目标中心点的预测问题,而不是依赖于预定义的锚点。
  • 典型方法:CenterNet、FCOS 等。

(2) 具体实现

  • 中心点预测:直接预测目标的中心点位置。
  • 尺寸回归:通过回归预测目标的宽度和高度。

(3) 优点

  • 简化设计:不需要预定义锚点,简化了模型设计。
  • 计算效率高:减少了锚点生成和匹配的计算开销。

(4) 缺点

  • 对小目标不敏感:由于直接预测中心点,对小目标的检测效果可能较差。
  • 重叠目标不敏感:重叠物体的中心可能会重叠,导致难以区分
  • 后处理复杂:需要额外的后处理步骤(如非极大值抑制)来去除重复检测

3 object as query

Query Token 的高维空间可以看作是一个 语义特征空间,其中每个维度或者不同dimension的某种组合对应某种抽象语义特征(如类别、大小、颜色、形状等)。具体来说:

  • 类别:通过分类头(Classification Head),Query Token 能够预测目标的类别。
  • 大小:通过回归头(Regression Head),Query Token 能够预测目标的边界框大小。
  • 颜色:通过交叉注意力机制,Query Token 能够从图像特征中学习到目标的颜色信息。
  • 形状:通过交叉注意力机制,Query Token 能够从图像特征中学习到目标的形状信息。

这些抽象语义特征以参数的形式被编码到 Query Token 的高维空间中,并通过训练过程不断更新

本质上object as query的decoder 是在学习一个表征(decoder query token),该表征可以很好地区分不同类别、大小、颜色、形状等抽象特征,这些抽象语义特征以参数的形式被编码到token 的高维空间中,通过学习代理任务(学习object 类别、位置,大小)的方式来进行更新

总结

从 Object as Anchor 到 Object as Point 再到 Object as Query,目标检测方法的发展确实呈现出一定的 稀疏化 趋势:

###(1) 稀疏化的体现

  • Object as Anchor:需要生成大量的锚点,计算开销较大。
  • Object as Point:直接预测目标的中心点,减少了锚点生成和匹配的计算开销。
  • Object as Query:通过 Transformer 模型生成一组查询,进一步减少了计算开销(此处的计算开销主要是指原来的多个anchor 后处理来说的)。

###(2) 稀疏化的优势

  • 计算效率高:稀疏化方法能够减少不必要的计算,提高计算效率。
  • 模型设计简化:稀疏化方法简化了模型设计,减少了超参数的数量, 但是transformer类型的计算复杂度相对同等的conv显得较高。同时稀疏化的检测方法更难解释

###(3) 稀疏化的挑战

  • 训练难度大:稀疏化方法可能需要更多的训练数据和计算资源。
  • 对小目标不敏感:稀疏化方法可能对小目标的检测效果较差。

  • Object as Anchor:通过预定义锚点进行目标检测,计算开销大但精度高。
  • Object as Point:通过预测目标中心点进行目标检测,简化设计但对小目标不敏感。
  • Object as Query:通过 Transformer 模型生成查询进行目标检测, 对于数据均衡性要求较高,灵活性高但训练难度大。

目标检测方法的发展确实呈现出一定的稀疏化趋势,但稀疏化方法也面临一些挑战(如训练难度大、对小目标不敏感等)。未来,目标检测领域可能会继续探索更高效、更灵活的表示方法,以平衡计算效率和检测精度。

本文为原创文章,未经作者允许禁止转载。

http://www.dtcms.com/a/398540.html

相关文章:

  • 北京做养生SPA的网站建设高端网站建设 来磐石网络
  • 网站建设有哪三部来年做那些网站能致富
  • 外贸公司网站素材产品营销文案
  • VSCode C/C++ 开发环境配置
  • FPGA自学笔记--VIVADO RAM IP核控制和使用
  • 电源——设计DCDC原理图与参数选型
  • 企业网站建设策划书 前言263云通信官方网站
  • pip config list输出为空?如何配置pip镜像源?不同方式配置有什么区别?
  • 表格工具怎么选,国产化替代方案测评(2025 全维度实测版)
  • 分布式 ID 生成方案实战指南:从选型到落地的全场景避坑手册(二)
  • 企业网站建设案例宝安三网合一网站建设
  • 做透水砖的网站vs2019可以做网站吗
  • 鸿蒙后台定时任务实战
  • 【win32】ffmpeg 解码器2
  • MCU知识体系
  • 【win32】ffmpeg 解码器
  • 东莞市官网网站建设公司中企动力z邮箱登录入口
  • wordpress网站seo罗夫曼三大社区模式
  • 搭建一个属于自己的mac摄像头视频流rtsp服务
  • Spring Boot 集成 RabbitMQ 实现可靠消息传递:从配置到实战
  • Linux学习记录--多线程共享变量
  • 网站格式有哪些内容私人建设手机网站
  • 【Java后端】SpringBoot 常用工具类和工具方法汇总
  • leetcode hot100 中等难度 day03-刷题
  • Android | 使用 dumpsys alarm 验证自己应用使用的 Alarm 是否正确
  • React 展示Markdown内容
  • 营销型网站标准网页源码江西旺达建设工程有限公司网站
  • 南昌网站建设公司咨询交通局网站建设方案策划书
  • 阅读:Agent AI:Surveying the Horizons of Multimodal Interaction (2.2.1-2.2.3)
  • 提升网站建设品质福建省建设厅网站林瑞良