当前位置: 首页 > news >正文

MobileDet(2020➕CVPR)

论文标题 MobileDets: Searching for Object Detection Architectures for Mobile Accelerators
论文作者 Yunyang Xiong, Hanxiao Liu, Suyog Gupta, Berkin Akin, Gabriel Bender, Yongzhe Wang, Pieter-Jan Kindermans, Mingxing Tan, Vikas Singh, Bo Chen
发表日期 2020年04月01日
GB引用 > Yunyang Xiong, Hanxiao Liu, Suyog Gupta, et al. MobileDets: Searching for Object Detection Architectures for Mobile Accelerators[J]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2021: 3824-3833.
DOI 10.1109/CVPR46437.2021.00382

论文地址:https://arxiv.org/pdf/2004.14525

摘要

本研究重新评估了常规卷积在移动加速器上的应用价值,质疑了深度可分离卷积层作为移动设备视觉模型唯一构建块的普遍设计模式。通过神经架构搜索,研究发现将常规卷积纳入搜索空间可以显著提升目标检测任务的精度与延迟权衡。实验表明,在多种硬件平台如移动CPU、EdgeTPU、DSP及边缘GPU上,所提出的方法均优于现有最先进的模型,例如在移动CPU上比MobileNetV3高出1.7 mAP,在EdgeTPU上比MobileNetV2高出3.7 mAP。此外,该方法在DSP上的表现也超过了其他模型,同时保持较低的延迟。这些结果表明,传统的移动搜索空间设计需要针对不同硬件进行调整优化。最终提出的MobileDets系列模型在多个硬件平台上实现了领先的质量-延迟权衡性能。

全文摘要

这篇论文探讨了在移动设备上进行物体检测的高效架构设计,特别关注在现代移动加速器上使用的网络结构。研究的主要贡献是提出了一种新颖的对象检测模型系列,称为MobileDets,该模型在性能和延迟之间建立了良好的平衡。

论文的核心观点是,传统的倒置瓶颈层(Inverted Bottleneck, IBN)和深度可分离卷积虽然在移动设备上取得了显著效果,但在最新的硬件加速器(如DSPs、EdgeTPUs等)上并不总是最优。通过对常规卷积的重新审视,作者发现适当的策略将常规卷积引入到网络结构中,能够显著改善延迟-准确性权衡。具体而言,通过神经架构搜索(NAS)方法,集成了常规卷积的设计,生成了一系列新模型,取得了比当前最佳模型(如MobileNetV3+SSDLite)更优的结果。

实验结果表明,MobileDets在COCO数据集上的表现超越了MobileNetV2和MobileNetV3,且在多个移动平台上均表现出色而不增加延迟。这一研究不仅为物体检测提供了更高效的模型,也为移动设备的深度学习应用开辟了新方向。论文的独特之处在于,它不仅挑战了现有的设计范式,还通过系统的实验验证了架构设计的有效性和灵活性,为未来的移动网络架构探索提供了具有重要意义的参考。

研究问题

  1. 使用常规卷积是否能比仅使用反转瓶颈层(IBN)在移动加速器上提供更好的延迟-准确率权衡?
  2. 在不同的移动硬件平台(如移动CPU、EdgeTPU、DSP和边缘GPU)上,通过神经架构搜索优化的模型能否实现比现有最先进的模型更高的检测精度且不增加延迟?
  3. 增强的搜索空间(包括IBN和全卷积序列)如何影响在不同移动平台上目标检测任务的性能?
  4. 对于非CPU的移动加速器,如EdgeTPU和DSP,全卷积层的引入是否确实能显著提升检测模型的准确性?
  5. 搜索到的MobileDets模型在不同硬件平台上的表现是否能够相互转移,并且是否可以推广到未见过的新硬件设备上?

研究方法

实验研究: 通过神经架构搜索(NAS)方法,在不同的移动加速器(如CPU、EdgeTPU、DSP等)上优化目标检测模型的性能,探索全卷积层在提升模型精度和推理速度方面的潜力。

比较研究: 将基于IBN-only搜索空间的目标检测模型与包含全卷积层的MobileDet搜索空间生成的模型进行对比,评估其在精度-延迟权衡上的差异。

混合方法研究: 结合NAS算法和硬件感知成本模型,同时优化模型的准确性与推理延迟,确保在多种硬件平台上的通用性和高效性。

系统分析: 对不同硬件平台(如CPU、EdgeTPU、DSP和GPU)上目标检测模型的性能进行全面分析,探讨全卷积层与深度可分离卷积层在不同硬件架构下的优劣。

模拟研究: 利用仿真环境模拟不同硬件平台的推理延迟,验证MobileDet搜索空间在提升模型性能方面的作用,并与基准模型MobileNetV2和MobileNetV3进行对比分析。

研究思路

这篇论文的研究思路围绕着在移动设备上进行对象检测的网络架构优化进行,特别是对常用设计模式的重新审视,并提出了一种新的搜索空间以提升对象检测的性能。

一、理论框架与模型

论文主要的理论框架是结合深度学习与移动设备的硬件特性,通过神经架构搜索(Neural Architecture Search, NAS)方法来自动化设计网络架构。研究者们着重关注了以下几个方面:

  1. 反向瓶颈层(Inverted Bottleneck Layers, IBN):传统上,IBN层依赖深度分离卷积(Depthwise Separable Convolutions),一种轻量化的卷积模式,适用于移动设备的资源限制。论文中指出,虽然IBN层在移动CPU上有效,但是在其他现代硬件加速器(如DSP和EdgeTPU)上,其效率可能并不理想。
  2. 完整卷积(Regular Convolutions):作者探讨了常规卷积的有效性,特别是在特定的硬件平台上。研究表明,虽然传统IBN仅使用深度分离卷积,但在现代加速器上,合理地使用完整卷积能够提高速度和准确性。

二、研究方法与技术路线

论文采用的研究方法和技术路线主要包括:

  1. 增强搜索空间:提出MobileDet搜索空间,该空间不仅包含IBN层,同时引入了基于完整卷积的灵活层(如融合的反向瓶颈层和塔克层),以丰富设计选择。这为NAS提供了更多的架构探索可能性。
  2. 目标导向的神经架构搜索:使用TuNAS算法,结合延迟感知(latency-aware)训练,通过设计一个包含多个架构选择的单次模型和一个控制器(controller),在特定硬件平台上优化网络架构。通过奖励函数来指导搜索过程,使得每个架构的选择都尽量兼顾准确度和推理成本。
  3. 延迟模型构建:为每个层次构建线性回归模型,预测各架构在不同硬件平台上的推理延迟,以便在架构搜索中实时评估。

回顾全卷积在移动搜索空间中的应用

在本节中,我们首先解释为什么 IBN 层可能不足以处理移动 CPU 以外的移动加速器。然后,我们提出基于常规卷积的新构建块来丰富我们的搜索空间,并讨论这些构建块与 Tucker / CP 分解之间的联系 [35, 6] 。

我们只需要 IBNs 吗? 图 2 说明了倒瓶颈 (IBN) 的布局。IBNs旨在减少参数和 FLOPS 的数量,并利用深度可分离和逐点(1x1)卷积核来在移动CPU上实现高效率。然而,并非所有的 FLOPS 都是相同的,特别是对于现代的移动加速器,如 EdgeTPU 和 DSPs。例如,一个常规卷积在 EdgeTPUs 上可能比其深度可分离变体运行速度快 3 倍,即使其浮点运算次数(FLOPS)是后者的 7 倍。观察结果表明,广泛使用的 IBN-only 搜索空间可能不是现代移动加速器的最佳搜索空间。这激励我们通过重新审视常规(全)卷积来提出新的构建模块,以丰富仅限于IBN的搜索空间,用于移动加速器。具体来说,我们提出了两个灵活的层来分别执行通道扩展和压缩,如下所述。

Fused Inverted Bottleneck Layers (Expansion)

深度可分离的卷积 [30] 是倒置瓶颈的关键因素 14。深度可分离卷积背后的思想是用深度卷积(针对空间维度)和1×1逐点卷积(针对通道维度)的组合来替代一个“昂贵”的全卷积。然而,昂贵的概念在很大程度上是基于FLOPS或参数数量来定义的,这并不一定与现代移动加速器上的推理效率相关。为了融入常规卷积,我们提出通过将一个IBN层的首个 1×1 卷积与其后续的 K×K 逐通道卷积融合成一个单一的 K×K 常规卷积来修改该层(图3)。就像一个标准的倒置瓶颈层一样,我们融合的倒置瓶颈中的初始卷积通过一个大于 1 的因子 s 增加了滤波器的数量。这个层的扩展比例将由 NAS 算法决定。

Tucker Convolution Layers (Compression)

瓶颈层是在ResNet [11]中引入的,用以减少在高维特征图上进行大

http://www.dtcms.com/a/113478.html

相关文章:

  • Unity:销毁(Destroy)
  • Qt多线程从基础到性能优化
  • 尚硅谷2019版多线程以及枚举类笔记记录
  • 量化交易----从0到1
  • 【开题报告+论文+源码】基于SpringBoot+Vue的爱家园管理系统
  • 一天一个java知识点----多线程
  • 虚拟Ashx页面,在WEB.CONFIG中不添加handlers如何运行
  • Linux系统之chkconfig命令详解
  • P1036 [NOIP 2002 普及组] 选数(DFS)
  • LeetCode算法题(Go语言实现)_32
  • 详解七大排序
  • 什么是RPC通信
  • 【spring cloud Netflix】Ribbon组件
  • 供应链业务-供应链全局观(二)
  • 蓝桥云客--回文数组
  • 迈向未来:数字化工厂管理如何重塑生产力
  • OpenGL学习笔记(简介、三角形、着色器、纹理、坐标系统、摄像机)
  • 数据库系统概述 | 第三章课后习题答案
  • 蓝桥杯_PCF8591
  • (二)输入输出处理——打造智能对话的灵魂
  • 如何使用 Nginx 代理 Easysearch 服务
  • 洛谷题单3-P5725 【深基4.习8】求三角形-python-流程图重构
  • C语言求3到100之间的素数
  • C++蓝桥杯实训篇(二)
  • Java 逐梦力扣之旅_[204. 计数质数]
  • 大模型持续学习方案解析:灾难性遗忘的工业级解决方案
  • 递归实现组合型枚举(DFS)
  • 蓝牙跳频扩频技术的作用:提升抗干扰能力与通信可靠性的核心机制
  • 道路裂缝数据集CrackForest-156-labelme
  • 设计模式简述(五)建造者模式