当前位置：首页 > news >正文

Stripformer: Strip Transformer for Fast Image Deblurring论文阅读

news 2025/9/23 11:36:20

Stripformer: Strip Transformer for Fast Image Deblurring

- - 1. 研究目标与实际意义
  - 2. 创新方法：Stripformer的核心设计
  - - 2.1 整体架构设计
    - 2.2 条带注意力机制
    - - 2.2.1 Intra-Strip Attention (Intra-SA)
      - 2.2.2 Inter-Strip Attention (Inter-SA)
    - 2.3 关键创新优势
    - 2.4 损失函数设计
    - 2.5 与SOTA方法对比
  - 3. 实验设计与结果
  - - 3.1 数据集与训练
    - 3.2 关键结果
  - 4. 未来研究方向
  - 5. 批判性分析
  - 6. 实用创新点与学习建议
  - - 6.1 重点学习内容
    - 6.2 背景知识补充

1. 研究目标与实际意义

研究目标：
论文旨在解决动态场景中因物体移动或相机抖动导致的**非均匀模糊（non-uniform blur）**问题。此类模糊具有方向性、区域性和多尺度特性（如短程与长程模糊），传统方法难以高效建模。Stripformer的目标是设计一种轻量化的Transformer架构，在低计算开销下实现高性能去模糊。

实际意义：

产业价值：动态模糊广泛存在于移动摄影、自动驾驶（如运动物体识别）、安防监控等领域。高效去模糊能提升图像质量，增强下游任务（如目标检测）的准确性。
技术痛点：现有Transformer模型（如ViT）因全局注意力机制导致计算复杂度高（ $\mathcal{O}(H^2W^2)$ ），且需海量预训练数据（如ImageNet）。Stripformer通过创新设计显著降低资源需求，推动Transformer在边缘设备的落地。

2. 创新方法：Stripformer的核心设计

2.1 整体架构设计

Stripformer采用编码器-解码器结构（图2），核心创新在于通过条带注意力机制（Strip Attention）建模模糊的方向性与多尺度特性。架构包含以下关键模块：

特征嵌入块（Feature Embedding Block, FEB）：
由卷积层和残差块组成（公式无编号），将输入图像 $\in \mathbb{R}^{H \times W \times 3}$ 转换为特征图 $\in \mathbb{R}^{\frac{H}{4} \times \frac{W}{4} \times C}$ ，避免传统Transformer的块划分导致的空间信息丢失。
堆叠的Intra-SA与Inter-SA块：
交替处理局部与全局模糊模式，生成方向感知特征。
上采样与跳跃连接：
转置卷积恢复分辨率，并拼接同尺度编码器特征以保留细节。

2.2 条带注意力机制

2.2.1 Intra-Strip Attention (Intra-SA)

目标：建模局部条带内像素依赖，捕捉短程模糊方向性（图1a）。

图1：Intra-SA与Inter-SA示意图

(a) Intra-SA：水平/垂直条带内像素级注意力（短程方向建模）。
(b) Inter-SA：条带间全局注意力（长程幅度建模）。

公式与计算流程：

特征预处理（公式1）：
$(X^h, X^v) = \text{Conv}(\text{Norm}(X)) \tag{1}$
$X^h, X^v \in \mathbb{R}^{H \times W \times D}$ （ $D = C /2$ ）分别输入水平/垂直分支。
水平分支（Intra-SA-H）：
- 分割 $X^h$ 为 $H$ 条水平条带 $X_i^h \in \mathbb{R}^{W \times D}$ （ $i=1,\dots,H$ ）。
- 生成多头注意力（公式2-3）：