当前位置: 首页 > news >正文

有方向的微小目标检测

这份文档主要围绕 “有方向的微小目标检测” 展开,简单来说,就是解决怎么在图片里精准找到那些又小、还可能歪着放的物体(比如航拍图里的小车辆、小船只,或者无人机拍的图里的细小目标),还专门做了数据集、测试标准和新方法,下面用大白话拆成几个核心部分讲:

首先,得先搞清楚 “有方向的微小目标” 是啥 —— 就是那些像素特别少(平均才 10.6 像素,比指甲盖在手机屏上还小),而且不是正正方方放着的物体(比如歪着的小船、斜着的油罐)。之前没专门针对这类目标的数据集,研究起来很不方便,所以作者先做了个叫 AI-TOD-R 的数据集:里面有 2.8 万张图、75 万个带方向标注的小目标,是目前同类数据集里目标最小的,还解决了标注难的问题(先用算法粗标,再人工改,最后专家复查,保证 accuracy)。

然后,作者用这个数据集搭了个 “测试标准”( benchmark ),测了各种主流的检测方法 —— 不管是 “一步到位” 的检测算法(比如 RetinaNet)、“两步走” 的算法(比如 Faster R-CNN),还是不用太多标注的 “高效标注” 算法(比如只用 10% 标注图就能训的方法)。测完发现一个大问题:所有方法都有 “偏见”—— 大目标越训越准,小目标却总被忽略,要么没选到足够多的小目标样本,要么对小目标的预测信心特别低,导致漏检、错检。

为了解决这个 “偏见”,作者搞了个叫 DCFL 的新方法,核心就是 “动态地从粗到细学”:

  1. 先解决 “找不准小目标” 的问题 —— 以前算法用固定的 “参考点” 找目标,小目标容易被漏掉,DCFL 改成 “动态参考点”,能跟着小目标的位置调整,更精准地对准小目标的核心区域;
  2. 再解决 “样本选得差” 的问题 —— 分两步选样本:第一步 “粗选”,从多个图层里找足够多可能是小目标的候选样本,保证数量;第二步 “精选”,用数学模型(高斯混合模型)挑出质量高的样本,保证训得准;
  3. 还不用额外加计算量,训完后推理速度和原来一样快,能直接嵌到各种主流检测算法里。

最后,作者在 8 个不同数据集上测了 DCFL—— 不管是专门的小目标数据集(AI-TOD-R)、航拍大场景数据集(DOTA),还是普通照片数据集(COCO),DCFL 都能让小目标的检测 accuracy 涨不少,比如在 AI-TOD-R 上,把原来的算法 accuracy 提了 5 个百分点,还能兼顾大目标的检测效果,证明这个方法又好用又通用。

总结下来,这份文档干了三件事:做了个专门的小目标数据集,测了现有方法的问题,提了个能解决 “偏见” 的新方法,让找又小又歪的物体变得更准了。

 code are available at https://chasel-tsui.github.io/AI-TOD-R/.

有向微小目标的外观信息有限,但在实际应用中却十分普遍,检测这类目标仍是一个复杂且尚未得到充分研究的问题。为此,本研究系统地提出了一个新的数据集、一套基准方案以及一种动态从粗到细的学习策略。我们提出的数据集 AI-TOD-R,是所有有向目标检测数据集中目标尺寸最小的。基于 AI-TOD-R,我们构建了一套涵盖多种检测范式的基准方案,包括全监督方法和标签高效型方法。通过研究发现,多种学习流程中均存在一种学习偏差:置信度高的目标会变得愈发置信,而脆弱的有向微小目标则会进一步被边缘化,这严重影响了其检测性能。为缓解该问题,我们提出了动态从粗到细学习(DCFL)策略,以实现无偏学习。DCFL 会动态更新先验位置,使其更贴合有向微小目标的有限区域,并以平衡不同目标形状样本数量与质量的方式分配样本,从而减轻先验设置和样本选择中的偏差。在 8 个具有挑战性的目标检测数据集上进行的大量实验表明,DCFL 实现了最先进的精度、较高的效率和出色的通用性。该数据集、基准方案及代码可在https://chasel-tsui.github.io/AI-TOD-R/获取。

http://www.dtcms.com/a/388920.html

相关文章:

  • 【office】如何让word每一章都单独成一页
  • git安装教程+IDEA集成+客户端命令全面讲解
  • rsync带账号密码
  • rust语言项目实战:生成双色球、大乐透所有玩法的所有数字组合(逐行注释)
  • 远程配置服务器 ubuntu22.04 里的 docker 的x11
  • rust编写web服务03-错误处理与响应封装
  • Docker基础篇07:Docker容器数据卷
  • WPF 拖拽(Drag Drop)完全指南:从入门到精通
  • rust编写web服务05-数据库连接池
  • AppInventor2使用本地SQLite实现用户注册登录功能
  • Prompt(提示词工程)优化
  • Ubuntu 系统安装 PostgreSQL 17.6
  • Kotlin-基础语法练习四
  • 开源的消逝与新生:从 TensorFlow 的落幕到开源生态的蜕
  • 原创GIS FOR Unity3d PAD VR LINUXPC 同时支持。非cesium
  • Kotlin中协程的管理
  • django如何自己写一个登录时效验证中间件
  • 【大前端++】初始技术栈跨平台方案Electron+Vue,MacOS开发环境搭建【十分钟一个Demo】
  • 限时起售价17.38万元,吉利银河M9上市
  • Vue : defineModel()
  • 一套基于Java+Vue+UniApp开发的同城配送系统
  • Vue 3 手机外观组件库
  • 部署分布式CephFS,存储的服务器的最低配置
  • 【Spring AI】Ollama大模型-智能对话实现+项目实战(Spring Boot + Vue)
  • Vue 3 实战:GIS 系统模块化设计与多功能融合方案
  • Docker多容器编排:Compose 实战教程——从入门到精通
  • Vue2 基础知识点一:数据绑定 (Data Binding)
  • layui tree组件回显bug问题,父级元素选中导致子集全部选中
  • centos7上使用Docker+ RagFlow + ollama + 数据集 搭建自己的AI问答机器人(2025-09)
  • # 从 Gymnasium 到 Minari:新一代机器人强化学习工具链全指南