当前位置: 首页 > news >正文

Stripformer: Strip Transformer for Fast Image Deblurring论文阅读

Stripformer: Strip Transformer for Fast Image Deblurring

      • 1. 研究目标与实际意义
      • 2. 创新方法:Stripformer的核心设计
        • 2.1 整体架构设计
        • 2.2 条带注意力机制
          • 2.2.1 Intra-Strip Attention (Intra-SA)
          • 2.2.2 Inter-Strip Attention (Inter-SA)
        • 2.3 关键创新优势
        • 2.4 损失函数设计
        • 2.5 与SOTA方法对比
      • 3. 实验设计与结果
        • 3.1 数据集与训练
        • 3.2 关键结果
      • 4. 未来研究方向
      • 5. 批判性分析
      • 6. 实用创新点与学习建议
        • 6.1 重点学习内容
        • 6.2 背景知识补充

1. 研究目标与实际意义

研究目标
论文旨在解决动态场景中因物体移动或相机抖动导致的**非均匀模糊(non-uniform blur)**问题。此类模糊具有方向性、区域性和多尺度特性(如短程与长程模糊),传统方法难以高效建模。Stripformer的目标是设计一种轻量化的Transformer架构,在低计算开销下实现高性能去模糊。

实际意义

  • 产业价值:动态模糊广泛存在于移动摄影、自动驾驶(如运动物体识别)、安防监控等领域。高效去模糊能提升图像质量,增强下游任务(如目标检测)的准确性。
  • 技术痛点:现有Transformer模型(如ViT)因全局注意力机制导致计算复杂度高( O ( H 2 W 2 ) \mathcal{O}(H^2W^2) O(H2W2)),且需海量预训练数据(如ImageNet)。Stripformer通过创新设计显著降低资源需求,推动Transformer在边缘设备的落地。

2. 创新方法:Stripformer的核心设计

2.1 整体架构设计

Stripformer采用编码器-解码器结构(图2),核心创新在于通过条带注意力机制(Strip Attention)建模模糊的方向性与多尺度特性。架构包含以下关键模块:

  • 特征嵌入块(Feature Embedding Block, FEB)
    由卷积层和残差块组成(公式无编号),将输入图像 X ∈ R H × W × 3 X \in \mathbb{R}^{H \times W \times 3} XRH×W×3 转换为特征图 F ∈ R H 4 × W 4 × C F \in \mathbb{R}^{\frac{H}{4} \times \frac{W}{4} \times C} FR4H×4W×C,避免传统Transformer的块划分导致的空间信息丢失。
  • 堆叠的Intra-SA与Inter-SA块
    交替处理局部与全局模糊模式,生成方向感知特征。
  • 上采样与跳跃连接
    转置卷积恢复分辨率,并拼接同尺度编码器特征以保留细节。
2.2 条带注意力机制
2.2.1 Intra-Strip Attention (Intra-SA)

目标:建模局部条带内像素依赖,捕捉短程模糊方向性(图1a)。

图1:Intra-SA与Inter-SA示意图
Intra-SA与Inter-SA

  • (a) Intra-SA:水平/垂直条带内像素级注意力(短程方向建模)。
  • (b) Inter-SA:条带间全局注意力(长程幅度建模)。

公式与计算流程

  1. 特征预处理(公式1):
    ( X h , X v ) = Conv ( Norm ( X ) ) (1) (X^h, X^v) = \text{Conv}(\text{Norm}(X)) \tag{1} (Xh,Xv)=Conv(Norm(X))(1)
    X h , X v ∈ R H × W × D X^h, X^v \in \mathbb{R}^{H \times W \times D} Xh,XvRH×W×D D = C / 2 D=C/2 D=C/2)分别输入水平/垂直分支。

  2. 水平分支(Intra-SA-H)

    • 分割 X h X^h Xh H H H 条水平条带 X i h ∈ R W × D X_i^h \in \mathbb{R}^{W \times D} XihRW×D i = 1 , … , H i=1,\dots,H i=1,,H)。
    • 生成多头注意力(公式2-3):
      ( Q i j h , K i j h , V i j h ) = ( X i h P j Q , X i h P j K , X i h P j V ) O i j h = Softmax

相关文章:

  • c++学习-多态
  • 从零到一:C语言基础入门学习路线与核心知识点全解析
  • Redis的GEO详解
  • 82.多级抽取滤波器,设计抗混叠滤波器时采样频率是基于抽取之前的设计的
  • Lua基础复习之Lua元表
  • C++——基础知识
  • 论文笔记 <交通灯> IntelliLight:一种用于智能交通灯控制的强化学习方法
  • RISC-V向量扩展与GPU协处理:开源加速器设计新范式——对比NVDLA与香山架构的指令集融合方案
  • Greenplum 与 PostgreSQL 的关系
  • 005微信小程序npm包_全局数据共享和分包
  • # 我使用过的 HTML + CSS 实践总结笔记(含说明)
  • 密度泛函涨落理论在医疗人工智能中的应用与展望:多尺度物理驱动智能的新范式
  • 【Vue】Vue2/3全局属性配置全攻略
  • 实验分享|自研局部DIC-GPU算法与开源GPU算法对比实验
  • SpringBoot-Actuator依赖项的作用配置 Heapdump堆栈信息泄露
  • 微信小程序:将搜索框和表格封装成组件,页面调用组件
  • springboot项目,利用docker打包部署
  • 简说 python
  • python题库及试卷管理系统
  • java循环语句-跳转关键字break、continue
  • mac 网站开发工具/网络推广员是干什么的
  • 设计师网站源码/网络营销推广策划方案
  • 企业营销网站的建设/品牌运营公司
  • 三水网站建设/温州seo网站建设
  • 建设门户网站/图片搜索识图入口
  • wordpress 询价按钮/seo目标关键词优化