当前位置: 首页 > news >正文

视觉新范式:ResNet+Transformer双路径融合,顶刊解析遥感分割与动作识别新SOTA

【导读】

ResNet与Transformer的协同架构正引领视觉理解范式的革新。传统卷积虽以残差机制强化局部表征,却受限于感受野;而自注意力虽能建模长程依赖,却常牺牲细粒度特征。近期研究提出双路径耦合框架,通过通道维度解耦,使ResNet专注边缘轮廓,Transformer捕获全局时空或频域上下文,并以动态权值、Gabor先验或多维注意力实现像素级融合,在参数效率与推理精度间取得最优平衡。该范式在红外行为识别与遥感语义分割等任务中展现出对复杂场景、噪声干扰和目标边界的高度鲁棒性,为低照度监护、城市信息提取等安全敏感应用提供了可解释、轻量化的智能新基座。

我这边也已经帮同学们整理好了7篇相关文章,不想多花时间找资料的可以直接拿,也欢迎大家分享本文给好友同学~

➔➔➔➔点击查看原文,获取论文合集https://mp.weixin.qq.com/s/MNN4EXXdsUHp4nYpQCwnxQ

【论文1】《GF-ResFormer: A Hybrid Gabor-Fourier ResNet-Transformer Network for Precise Semantic Segmentation of High-Resolution Remote Sensing Imagery》

研究方法

  1. Gabor边界分支(Gabor Boundary Branch, GBB) 该分支旨在解决高分辨率遥感影像中目标边界模糊、破碎目标轮廓不清晰的问题,通过多尺度可学习Gabor滤波器与边界增强注意力模块实现边界信息增强。 其核心结构包含三个堆叠的Gabor块,分别采用3×3、5×5、7×7尺寸的可学习Gabor卷积核,以适配不同大小目标的纹理与边界提取需求。Gabor滤波器选用虚部函数(聚焦方向边缘与纹理信息),参数(方向θ、尺度σ、径向频率1/λ、相位偏移φ、纵横比γ)均设为可学习,通过反向传播与主网络权重联合优化,实现对复杂边界区域的自主适配。每个Gabor卷积后,特征图输入边界增强注意力模块,通过公式计算边界权重,并按动态调整边界区域特征权重,显著强化关键边界信息。

  2. 全局增强模块(Global Enhancement Module, GEM) 为解决编码器(尤其是深层)捕捉长距离依赖能力不足的问题,该模块结合傅里叶变换与轻量级Transformer,嵌入ResNet34编码器的第三、四阶段残差块之后。输入特征按通道维度分为局部部分与全局部分(α=0.5),设计四条交互路径:经可学习Gabor滤波器映射为局部输出,经卷积映射至,经卷积送入全局分支,先通过二维傅里叶变换(公式)分解为实部与虚部,输入轻量级Transformer编码器进行多头自注意力处理后,经线性映射与逆傅里叶变换(公式)恢复至空间域,得到全局输出。最终通过全局平均池化与1×1卷积生成自适应权重,动态融合与,在保留局部细节的同时强化全局语义一致性。

  3. 基于Transformer的解码器(含Transformer-Gabor块TGB) 为平衡全局语义建模与局部细节提取,解码器核心为Transformer-Gabor块(TGB),包含全局Transformer分支与局部Gabor分支两个并行结构。全局分支中,输入特征经线性投影生成Query(Q)、Key(K)、Value(V),通过带相对位置偏置(B)的多头自注意力(公式)与交叉形窗口上下文交互(CWCI)模块捕捉长距离依赖;局部分支采用3×3、5×5、7×7多尺度可学习Gabor卷积,通过可学习权重融合输出(公式)。两分支输出通过可学习权重自适应融合(公式)。此外,解码器的前馈网络(FFN)采用两层1×1卷积、ReLU6激活与Dropout,结合残差连接,增强非线性建模能力并避免过拟合。

  4. 含CSP模块的跳跃连接(Skip Connection With CSP Module) 针对传统跳跃连接中特征简单叠加/拼接导致的冗余与干扰问题,该模块结合通道、空间、像素三级注意力机制,实现跨层特征的高效融合。输入特征为ResBlock、Gabor块与TGB的输出(X、Y、Z),首先通过元素求和完成粗融合;随后通道注意力突出关键语义通道,空间注意力增强显著区域定位;接着将通道与空间注意力输出与原始三特征进行通道级联,通过通道洗牌操作重新分配通道组特征信息,实现像素级注意力机制——使浅层层纹理/边界特征与深层语义特征在像素层面自适应交互,动态校准空间位置的特征响应,提升复杂场景下目标轮廓 delineation 与异质区域检测能力。

  5. 联合损失函数(Joint Loss Function) 为平衡遥感语义分割中的类别不平衡与边界细节保留问题,采用Soft交叉熵损失()与改进Dice损失()的加权联合损失,并引入辅助损失优化训练过程。通过标签平滑(公式)缓解标注噪声导致的梯度震荡;通过公式直接优化预测与真值的区域重叠,提升小目标与窄带区域分割性能。联合损失,总损失为输出损失与辅助损失的加权和(公式),其中辅助损失计算方式与一致,确保全局分类精度与局部区域重叠的协同优化。

创新点

  1. 多尺度可学习Gabor边界分支的端到端优化 将Gabor滤波器的核心参数(方向、尺度、频率等)设为可学习,并嵌入网络特征融合阶段,通过反向传播与主网络权重联合优化,使其能自主适配遥感影像中复杂场景(如建筑阴影、植被过渡区)的边界特征。 同时,结合边界增强注意力模块动态调整边界区域权重,解决了传统边缘检测技术在多尺度、复杂背景下边界断裂或过检测的问题,显著提升建筑、道路等结构化目标的边界清晰度。

  2. 傅里叶-Transformer协同的全局增强机制 将傅里叶变换的频率域全局表征能力与Transformer的跨频率长距离依赖建模能力结合:通过傅里叶变换提取特征的全局频率结构,再利用轻量级Transformer的多头自注意力捕捉不同频率成分间的关联,弥补傅里叶线性变换的局限性。 此外,设计局部(Gabor处理)与全局(傅里叶-Transformer处理)特征的动态融合模块,通过自适应权重平衡空间域细节与频率域全局语义,在保证计算效率的同时强化复杂场景的全局语义一致性。

  3. Transformer-Gabor块的全局-局部特征协同融合 提出并行的全局Transformer分支与局部Gabor分支结构:全局分支通过交叉形窗口上下文交互扩展感受野,高效捕捉长距离依赖;局部分支通过多尺度Gabor卷积精准提取方向敏感的纹理与边缘细节。两分支输出通过可学习权重自适应融合,实现“全局语义引导-局部细节补全”的协同优化。 同时,改进Transformer的前馈网络(用1×1卷积替代全连接层),增强其对2D遥感影像局部空间关系的建模能力,解决传统Transformer在2D图像局部细节处理上的不足。

  4. 通道-空间-像素三级注意力机制 构建三级注意力机制:通道注意力筛选关键语义通道,空间注意力定位显著目标区域,像素注意力通过通道洗牌实现浅层层纹理/边界与深层语义特征的像素级交互,动态抑制低层级噪声对高层级语义的干扰,同时保留关键细节信息。

  5. 联合损失与辅助损失协同优化 针对遥感影像标注噪声、类别不平衡(如背景像素占比高)的问题,该创新点在传统交叉熵与Dice损失的基础上,引入标签平滑的Soft交叉熵损失缓解标注不确定性导致的梯度震荡,利用Dice损失优化区域重叠以提升小目标性能; 同时,通过辅助损失对解码器中间输出进行监督,引导网络在训练过程中更早关注边界与细节特征,避免梯度消失。这种多损失协同优化策略平衡了全局分类精度与局部边界质量,提升了模型在复杂遥感场景下的鲁棒性。

【论文2】《Human Action Recognition with Infrared Images Based on Dual-pathway Trans-ResNet Model》

研究方法

  1. Conv Group设计与特征初步提取 为解决红外图像对比度低、模糊导致单卷积层非线性表达能力弱的问题,设计了Conv Group结构用于初步提取丰富动作特征。Conv Group由4组结构相同的并行卷积分支组成,每组包含三步核心卷积操作:步长为2的常规3×3卷积(4个滤波器)、步长为1的3×3深度可分离卷积(DWConv,4个滤波器)、步长为1的1×1点卷积(PWConv,64个滤波器),且每步后均加入批量归一化(BN)和ReLU激活函数。 此外,结合最大池化(提取关键特征)和平均池化(维持背景与人体对比度)处理4个分支的输出求和结果,最终使输入特征图的高和宽缩减至原来的1/4,通道数增至64,实现动作特征的多样化初步提取。

  2. 双路径特征提取(CNN路径与Transformer路径) 采用通道分离思想,将Conv Group输出的中间层特征图沿通道维度均匀分为两部分,分别输入CNN路径和Transformer路径以提取不同类型特征。

  3. 感知通道增强注意力(PCEA)模块设计 为解决Swin Transformer窗口自注意力导致感受野固定、难以捕捉红外图像中人体动作全局上下文信息的问题,在每个Transformer Block前引入PCEA模块。 首先将输入的HW×C形状特征向量重投影为H×W×C的多维特征图,经1×1卷积降维后分为两个空洞卷积分支,分别设置膨胀率r=1和r=3,通过计算得到感受野,在不损失信息的前提下扩大感受野;对两分支输出进行多尺度特征融合后,通过残差连接增强特征表达。随后应用GeLU激活函数,其基于高斯误差函数,相比ReLU更平滑,可提升训练收敛速度与性能;再引入ECA模块(高效通道注意力),先对输入特征进行全局平均池化,再通过k大小的1D卷积捕捉通道间相关性,为不同通道分配权重,突出关键信息、减少冗余计算,最终将特征图重塑为HW×C输出,增强Transformer路径的全局特征提取能力。

  4. 残差多层感知器(ResMLP)模块设计与特征融合 为有效融合CNN路径提取的局部轮廓特征与Transformer路径提取的全局时间特征,设计ResMLP模块。 首先将两路径输出的形状一致特征图沿通道维度拼接,进行通道重排(Channel Shuffling);随后将重塑后的特征图与两个全连接层的权重矩阵相乘,第一全连接层将通道数扩大4倍,第二全连接层将通道数恢复至原始C,实现局部与全局信息的深度整合;加入Dropout层防止过拟合后,将HW×C的特征向量重塑为H×W×C输出。同时,模块内引入残差连接,缓解梯度消失问题,通过Layer Norm稳定训练过程,最终提升模型对红外图像中人体动作的分类精度。

创新点

  1. 并行卷积组(Conv Group)设计 相比传统单卷积层,Conv Group通过多分支并行结构与多种卷积、池化方式的组合,显著增强了模型的非线性表达能力,能够从红外图像中初步提取更丰富、更多样的人体动作特征;且深度可分离卷积的引入,在保证特征提取效果的同时,有效减少了模型参数与计算量,为后续双路径特征提取奠定了良好基础,区别于现有仅依赖单一卷积或池化的特征初步提取方式。

  2. 双路径(CNN+Transformer)融合架构 构建双路径Trans-ResNet架构,通过通道分离将特征图分配至CNN路径(基于ResNet18)和Transformer路径(基于Swin Transformer),分别专注于局部轮廓特征与全局时间特征提取;同时,通过后续ResMLP模块实现两路径特征的深度融合,而非简单拼接。

  3. 感知通道增强注意力(PCEA)模块 针对Swin Transformer窗口自注意力机制导致感受野固定、难以捕捉红外图像中人体动作全局上下文信息的问题,创新设计PCEA模块。 该模块通过双空洞卷积分支(r=1、r=3)扩大感受野,结合残差连接增强特征表达,再通过GeLU激活函数与ECA通道注意力模块优化特征权重分配。 PCEA模块无需复杂的特征映射或额外大量参数,仅通过空洞卷积与通道注意力的轻量化组合,即可有效扩大Transformer路径的感受野,提升其对红外图像中人体动作全局时间信息的捕捉能力,同时保证模型的轻量化特性,区别于传统依赖增大窗口尺寸或增加注意力头数来扩展感受野的方式。

  4. 残差多层感知器(ResMLP)模块 通过通道重排、双全连接层(通道数扩缩)、残差连接与Dropout的组合,对CNN路径局部特征与Transformer路径全局特征进行深度融合。其中,通道重排促进跨通道信息交互,双全连接层实现特征维度的动态调整与信息整合,残差连接缓解梯度消失,Dropout防止过拟合。相比传统融合方法,ResMLP模块能够更充分地挖掘局部与全局特征间的关联,提升融合特征的判别能力,从而显著提高模型对红外图像中人体动作的识别精度,且模块结构轻量化,不显著增加模型计算负担。

➔➔➔➔点击查看原文,获取论文合集https://mp.weixin.qq.com/s/MNN4EXXdsUHp4nYpQCwnxQ

http://www.dtcms.com/a/465476.html

相关文章:

  • 网站备案怎么转入常州网站建设书生商友
  • Neo4j图数据库上手指南
  • 计算机基础知识 | 计网 | 状态检测防火墙(Stateful Firewall)
  • 给公司做网站销售怎样啦中国建设银行演示网站
  • RSA加密从原理到实践:Java后端与Vue前端全栈案例解析
  • [VoiceRAG] 前端实时通信 | useRealTime钩子
  • Typora 配置 PicGo 使用 Gitee 图床实现图片自动上传(Mac 详细教程)
  • 安装elk
  • RNN-seq2seq 英译法案例
  • 房地产 网站 案例电商网站建设与运营方向
  • 2025年企微SCRM工具核心功能深度测评:微盛AI·企微管家领跑赛道
  • Deepwiki AI技术揭秘 - 系统架构分析篇
  • 做斗图的网站html5 手机网站 教程
  • Flink面试题及详细答案100道(61-80)- 时间与窗口
  • Git 报错:fatal: update_ref failed for ref ‘ORIG_HEAD‘ 解决记录
  • 关于域名和主机论坛的网站北京实创装修公司官网
  • Apache Spark 上手指南(基于 Spark 3.5.0 稳定版)
  • COA学习,Chain of Agents
  • winform本地上位机-ModbusRTC1.上位机控制台与数据监控(数据监控架构思维与图表系列)
  • 如何建立“长期主义+短期收益”并存的商业闭环?
  • 敏捷管理之看板方法:可视化管理的流程设计与优化技巧
  • Linux学习笔记--查询_唤醒方式读取输入数据
  • 信道编码定理和信道编码逆定理
  • 订餐网站开发流程wordpress显示运行时间
  • ubuntu 24.04 FFmpeg编译 带Nvidia 加速记录
  • 关于springboot定时任务和websocket的思考
  • 做文字logo的网站我国网络营销现状分析
  • STM32F103RCT6+STM32CubeMX+keil5(MDK-ARM)+Flymcu实现简单的通信协议
  • 昂瑞微:踏浪前行,铸就射频芯片领域新辉煌
  • Roo Code系统提示覆写功能详解