当前位置: 首页 > news >正文

TPAMI 2025 | 空间频率调制(SFM),深度学习语义分割的细节守护者

《Spatial Frequency Modulation for Semantic Segmentation》。这篇论文已被TPAMI 2025接收,它提出了一种新颖的空间频率调制(SFM)方法,旨在解决深度学习模型在语义分割等任务中,因下采样操作导致高频空间信息(如纹理细节)丢失的问题。SFM通过在下采样前对高频特征进行“调制”,并在上采样时进行“解调”,有效缓解了混叠效应,成功保留了图像细节,为提升各类视觉任务的性能提供了通用且有效的解决方案。

  • 论文标题:Spatial Frequency Modulation for Semantic Segmentation

  • 作者:Linwei Chen, Ying Fu, Lin Gu, Dezhi Zheng, Jifeng Dai

  • 机构:北京理工大学;日本东京大学;北京航空航天大学;清华大学

  • 论文地址:https://arxiv.org/pdf/2507.11893v1

  • 项目地址:https://github.com/Linwei-Chen/SFM

  • 录用期刊:TPAMI 2025

研究背景与意义

在计算机视觉领域,语义分割、图像分类、实例分割等任务的准确性,在很大程度上依赖于对图像中高频空间信息的有效处理,例如精细的纹理细节、物体边缘等。然而,当前的深度学习模型,无论是卷积神经网络(CNN)还是Transformer,在处理这些高频信息时都面临一个普遍的挑战:下采样操作(如步幅卷积)会导致高频分量受到混叠(aliasing)或失真(distortion)的影响

根据奈奎斯特-香农采样定理,当信号的采样频率低于其最高频率的两倍时,就会发生混叠,导致高频信息被错误地解释为低频信息,从而造成细节丢失和图像质量下降。这对于需要像素级精度的语义分割任务来说,是一个致命的问题。现有方法通常通过增加网络深度、使用空洞卷积或多尺度特征融合等方式来缓解,但都未能从根本上解决高频信息在下采样过程中的固有损失问题。

本研究的意义在于:

  1. 提出了全新的视角:从信号处理的频率域角度出发,通过“调制-解调”的创新机制,从根本上解决了高频信息在下采样中的损失问题。

  2. 通用性强:SFM的两个模块可以无缝集成到各种主流的深度学习架构中,包括CNN和Transformer,展现了广泛的适用性。

  3. 性能提升显著:不仅在语义分割任务上取得了突破,还成功扩展到图像分类、对抗鲁棒性、实例分割和全景分割等多个任务,证明了其在提升视觉任务性能方面的巨大潜力。

主要研究内容与方法

该论文的核心贡献在于其提出的空间频率调制(SFM)方法,它包含两个关键模块:自适应重采样(ARS)用于调制,以及多尺度自适应上采样(MSAU)用于解调。

1. 空间频率调制(SFM)的核心思想

SFM的核心理念是:在下采样之前,将图像中的高频特征“调制”到较低的频率,使其能够安全地通过下采样层而不发生混叠或失真。当需要恢复原始分辨率时,再通过“解调”操作将这些低频特征恢复为高频信息。这就像给高频信号穿上了一层“保护衣”,使其能够顺利通过“狭窄”的下采样通道。

2. 自适应重采样(Adaptive Resampling, ARS)——调制模块

ARS是SFM的调制模块,它通过以下方式实现高频特征的频率降低:

  • 密集采样高频区域:ARS设计了一个轻量级的附加模块,能够密集采样图像中的高频区域

  • 放大信号:通过密集采样,可以有效地“放大”高频信号,根据信号处理中的频率缩放特性(Frequency Scaling Property),信号的放大(在空间域)会导致其频率的降低(在频率域)。这样,原本容易混叠的高频信息就被转换成了较低的频率,从而能够安全地通过后续的下采样层。

3. 多尺度自适应上采样(Multi-Scale Adaptive Upsampling, MSAU)——解调模块

MSAU是SFM的解调模块,它负责将经过调制(现在处于较低频率)的特征恢复为原始的高频信息:

  • 非均匀上采样:MSAU通过非均匀上采样的方式来恢复高频信息。这意味着它不会简单地进行均匀插值,而是根据特征的特性进行自适应的恢复。

  • 信息交互:该模块通过显式利用多尺度密集和稀疏重采样区域之间的信息交互,进一步提升了分割效果。这种交互有助于更精确地重建细节,避免了传统上采样可能带来的模糊。

实验设计与结果分析

研究人员通过特征可视化和多任务扩展实验,全面验证了SFM的有效性。

特征可视化与分析:实验结果证实,SFM方法有效地缓解了混叠效应。在经过下采样和解调后,图像的细节信息得到了成功保留,这在视觉上表现为更清晰的边缘和更丰富的纹理。

  • 广泛适用性验证:SFM的有效性不仅限于语义分割任务。研究人员将其扩展到:

  • 图像分类:提升了分类模型的性能。

  • 对抗鲁棒性:增强了模型对抗对抗性攻击的能力。

  • 实例分割:在实例级分割任务中取得了更好的效果。

  • 全景分割:在同时进行语义分割和实例分割的全景分割任务中也表现出色。

这表明SFM在处理高频信息方面具有通用性和有效性,对于提升各种视觉任务的性能具有重要意义。

结论与未来工作

该研究成功地提出了一种开创性的空间频率调制框架SFM,从根本上解决了深度学习模型在下采样过程中高频信息丢失的难题。通过“调制-解调”的巧妙设计,SFM不仅有效缓解了混叠效应,还成功保留了图像细节,并在多个视觉任务中展现出卓越的性能和广泛的适用性。

这项工作为未来深度学习模型的设计提供了一个全新的思路,尤其是在需要高精度细节处理的场景中。未来工作可以进一步探索更复杂的调制和解调策略,或者将SFM应用于其他信号处理领域,以期在更广泛的范围内发挥其潜力。

http://www.dtcms.com/a/290763.html

相关文章:

  • uniapp 输入时动态修改值(如含单位)光标被强制移至末尾
  • vxe-table 通过配置 ajax 方式自动请求数据,适用于简单场景的列表
  • K8s 集群CoreDNS监控告警最佳实践
  • Django Ninja
  • 病历数智化3分钟:AI重构医院数据价值链
  • 【Prometheus+Grafana篇】监控通过Keepalived实现的MySQL HA高可用架构
  • 安全测试学习
  • Python并发编程:突破GIL枷锁,高效利用多核CPU
  • c# 获取指定路径盘的可用空间
  • 2025年一区SCI-回旋镖气动椭圆优化算法Boomerang Aerodynamic Ellipse-附Matlab免费代码
  • 大根堆,小根堆,双指针
  • ELN和LIMS的区别
  • 【LeetCode 热题 100】207. 课程表——DFS+三色标记
  • 原型设计模式
  • [Plecs基础知识系列] 基于Plecs的半导体热仿真方法(实战篇)_建立热路模型与仿真
  • 多能量CT扫描性能模体的详细讲解
  • 小飞电视:开启智能娱乐新视界
  • 优思学院:精益制造的工具与方法有什么区别?
  • 2025三掌柜赠书活动第二十五期 网络安全应急响应实战
  • Web3.0 能为你带来哪些实质性的 改变与突破
  • Web LLM 安全剖析:以间接提示注入为核心的攻击案例与防御体系
  • 2025年终端安全管理系统的全方位解析,桌面管理软件的分析
  • 在 Windows上用WSL和VSCode进行Linux开发环境配置
  • 解决OpenHarmony中找不到pthread_cancel和pthread_setcanceltype等libc符号的问题
  • python学智能算法(二十七)|SVM-拉格朗日函数求解上
  • SVM(Support Vector Machine)从入门到精通
  • 部署zabbox企业级分布式监控
  • 软件卸载:金山毒霸怎么卸载?【图文讲解】【小白专属】
  • freertos双向链表的插入
  • AI知识点——MCP