当前位置: 首页 > news >正文

【2025CVPR】基于脉冲神经网络的能效目标检测模型:Multi-scale Spiking Detector(MSD)深度解析

目录

一、研究背景与动机

1. 目标检测的应用价值

2. 脉冲神经网络(SNN)的优势

二、模型架构:Multi-scale Spiking Detector(MSD)

1. 核心创新点

2. 网络整体架构

3. 关键组件详解

(1)脉冲卷积神经元(Spiking Convolutional Neuron, SCN)

(2)ONNB模块

(3)MSDF框架

三、核心技术突破

1. 直接训练策略

2. 能效优化

四、实验验证

1. 数据集与指标

2. 对比实验结果

(1)COCO 2017结果

(2)Gen1 Dataset结果

五、消融实验分析

1. ONNB模块贡献

2. MSDF框架作用

六、代码实现要点

1. 核心模块封装

2. 训练配置

七、未来展望

八、总结


 

一、研究背景与动机

1. 目标检测的应用价值

目标检测是计算机视觉领域的核心任务,广泛应用于自动驾驶、机器人导航、智能监控等领域。传统基于卷积神经网络(CNN)的检测模型(如YOLO、Faster R-CNN)虽然在精度上表现优异,但在嵌入式设备和移动端部署时面临高能耗实时性不足的挑战。

2. 脉冲神经网络(SNN)的优势

SNN作为第三代神经网络,通过脉冲序列传递信息,具有以下优势:

  • 低能耗​:仅需在脉冲发放时进行计算(非连续激活)
  • 事件驱动​:天然适配事件相机(Event Camera)等稀疏数据源
  • 生物可解释性​:模拟神经元膜电位动态特性

然而,现有SNN目标检测方案存在两大瓶颈:

  1. 转换方法的性能损失​:ANN-to-SNN转换需长时序模拟(如Spiking-YOLO需3500时间步)
  2. 直接训练的精度瓶颈​:纯SNN模型难以捕捉多尺度时空特征

二、模型架构:Multi-scale Spiking Detector(MSD)

1. 核心创新点

论文提出首个端到端训练的SNN目标检测框架,包含两大核心模块:

  • Optic Nerve Nucleus Block (ONNB)​​:模拟视觉皮层神经核团的信息融合机制
  • Multi-scale Spiking Detection Framework (MSDF)​​:分层整合多尺度时空特征

2. 网络整体架构

3. 关键组件详解

(1)脉冲卷积神经元(Spiking Convolutional Neuron, SCN)

数学模型​:

Vt+1,n+1(i)ot+1,n+1(i)​=kτ1​Vt,n+1(i)(1−ot,n+1(i))+j=1∑l(n)​ωijn​ot+1,n(j)=f(Vt+1,n+1(i)−Vth​)​

  • LIF神经元动态​:通过膜电位衰减(τ)和阈值发放机制(Vth​)模拟生物脉冲
  • Surrogate Gradient​:使用分段线性函数解决不可导问题

∂Vt,n(i)∂ot,n(i)​=a1​Signal(​Vt,n(i)−Vth​​)

(2)ONNB模块

结构特点​:

  • 双路径设计​:主路径(Conv+SCN)保留高频特征,旁路(MaxPooling+SCN)增强鲁棒性
  • 通道重标定​:通过tdBN实现时空域归一化

tdBN(It+1(i))=λi​σci2​+ϵ​αVth​(It+1(i)−μci​)​+βi​

Figure 3. Overall architecture of the optic nerve nucleus block(ONNB) is designed to enable residual learning by applying the final LIF activation function to each residual and shortcut path.

(3)MSDF框架

多尺度融合策略​:

  1. 时空特征对齐​:通过不同时间窗口(T=3,5,7)提取动态特征
  2. 层次化聚合​:从浅层细节到深层语义逐级融合

  3. Figure 4. Overall architecture of the multi-scale spiking detection framework(MSDF), which integrates features at different scales and simulates biological perception of objects by the responses of spiking convolutional neuron(SCN) in decouple head.


三、核心技术突破

1. 直接训练策略

  • 训练流程​:

    python

    # 伪代码示例
    for epoch in range(epochs):for batch in dataloader:# 前向传播spikes = model(batch_images)loss = compute_loss(spikes, labels)# 反向传播optimizer.zero_grad()loss.backward()optimizer.step()
  • 优化技巧​:
    • 使用STBP(时空反向传播)结合tdBN
    • 动态调整时间步长(训练时T=500,推理时T=5)

2. 能效优化

能耗计算公式​:

E=i=1∑n​Ei​=T×(fr​×EAC​×OPAC​+EMAC​×OPMAC​)

  • 实验数据​:
    • 参数量:7.8M(对比Spike-YOLO减少47%)
    • 能耗:6.43mJ(比ANN模型降低82.9%)

四、实验验证

1. 数据集与指标

  • COCO 2017​:80类目标,118k训练图像
  • Gen1 Dataset​:39小时车载事件数据,255k标注框
  • 评价指标​:mAP@0.5与mAP@0.5:0.95

2. 对比实验结果

(1)COCO 2017结果
方法参数量(M)能耗(mJ)mAP@0.5mAP@0.5:0.95
MSD7.86.4362.0%45.3%
Spiking-YOLO13.223.159.2%42.5%
EMS-YOLO26.950.150.1%-

Figure 5. Object detection results on the COCO 2017 dataset. The first three columns compare the effect of Baseline, ONNB, MSDF. The fourth columns compare the MSD performance. MSD could accurately locate and identify pedestrians hidden near vehicles, overlapping pedestrians, and small-scale distant targets, demonstrating proposed methods effectiveness in handling such challenging scenarios.

(2)Gen1 Dataset结果
方法参数量(M)能耗(mJ)mAP@0.5mAP@0.5:0.95
MSD7.86.5166.3%38.9%
Tr-SpikeYOLO7.90.945.3%-

五、消融实验分析

1. ONNB模块贡献

  • 性能提升​:+7.5%mAP@0.5(对比基线)

 

2. MSDF框架作用

  • 多尺度融合增益​:在Gen1数据集上提升6.1%mAP@0.5:0.95
  • 计算效率​:时间步缩减至5步仍保持高精度

六、代码实现要点

1. 核心模块封装

python

class SpikingConvModule(nn.Module):def __init__(self, in_channels, out_channels):super().__init__()self.conv = nn.Conv2d(in_channels, out_channels, 3, padding=1)self.bn = nn.BatchNorm2d(out_channels)self.sn = SpikingNeuron(tau=0.25, vth=0.5)def forward(self, x):x = self.conv(x)x = self.bn(x)x = self.sn(x)return xclass ONNB(nn.Module):def __init__(self, in_channels):super().__init__()self.branch1 = nn.Sequential(SpikingConvModule(in_channels, in_channels//2),SpikingConvModule(in_channels//2, in_channels//2))self.branch2 = nn.MaxPool2d(2)self.concat = nn.Conv2d(in_channels, in_channels, 1)def forward(self, x):x1 = self.branch1(x)x2 = self.branch2(x)x = torch.cat([x1, x2], dim=1)x = self.concat(x)return x

2. 训练配置

yaml

optimizer:type: SGDlr: 0.01momentum: 0.9
scheduler:type: CosineAnnealingT_max: 300
dataset:type: COCODatasetimg_size: 640batch_size: 32
augmentation:type: Mosaicprob: 0.5

七、未来展望

  1. 跨模态融合​:结合RGB与事件流数据进行联合训练
  2. 硬件部署​:优化脉冲操作在存算一体芯片上的映射
  3. 动态场景扩展​:研究时变目标跟踪与行为预测任务

八、总结

本文提出的MSD模型通过生物启发的网络架构端到端训练策略,在保持7.8M超低参数量的同时,实现了COCO数据集62.0%mAP的检测精度,较传统SNN方法提升2.8%。其核心贡献在于:

  1. 首次实现无需预训练ANN的直接SNN目标检测
  2. 能耗较ANN模型降低82.9%,为边缘计算提供新范式
  3. 多尺度融合机制显著提升小目标检测性能
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.dtcms.com/a/257878.html

相关文章:

  • 用Python“看见未来”:自动驾驶感知系统实战全解析
  • flutter项目环境升级二:从Flutter2.10.5升级到3.29.3
  • 网站对于DDOS攻击的防御方式有哪些?
  • Netty内存池分层设计架构
  • 稳定币走向监管:新秩序下的数字货币新局
  • EcoVadis提升评估得分的策略,EcoVadis常见挑战与解决方案
  • docker方式启动Jenkins
  • ms-swift 微调 internlm3-8b-instruct(论文分类任务)
  • 【ARM 嵌入式 编译系列 7.4 -- GCC 链接脚本中 ASSERT 函数】
  • 队的简单介绍
  • 【ToolJet远程开发】Ubuntu+Docker结合内网穿透技术搭建ToolJet远程开发环境
  • 2、结合STM32CubeMX学习FreeRTOS实时操作系统——任务
  • CC工具箱使用指南:【汉字转拼音】
  • Python-1-环境
  • 在 AWS 上重构数据中台,这家出海企业选择了数栈
  • Python pyecharts基础(一)
  • vue3整合element-plus
  • Deepoc大模型重构核工业智能基座:混合增强架构与安全增强决策技术​
  • 【文件】Linux 内核优化实战 - fs.inotify.max_user_instances
  • Redis中的bigkey的介绍及影响
  • 在训练词编码模型使用mask还是自回归,在训练生成大模型采用mask还是自回归?
  • 601N1 icm45696 串口python读取及显示
  • GO 语言学习 之 代码风格
  • Towards Generalizable Diabetic Retinopathy Grading in Unseen Domains
  • 【C++】哈希表的实现(链地址法)
  • Redis哨兵模式深度解析与实战部署
  • Clickhouse原理剖析
  • Elasticsearch 搜索的流程
  • 最新发布 | “龙跃”(MindLoongGPT)大模型正式发布!龙跃而起,推动中国方案走向全球智能体前沿
  • 电脑的虚拟内存对性能影响大吗