Stripformer: Strip Transformer for Fast Image Deblurring论文阅读
Stripformer: Strip Transformer for Fast Image Deblurring
- 1. 研究目标与实际意义
- 2. 创新方法:Stripformer的核心设计
- 2.1 整体架构设计
- 2.2 条带注意力机制
- 2.2.1 Intra-Strip Attention (Intra-SA)
- 2.2.2 Inter-Strip Attention (Inter-SA)
- 2.3 关键创新优势
- 2.4 损失函数设计
- 2.5 与SOTA方法对比
- 3. 实验设计与结果
- 3.1 数据集与训练
- 3.2 关键结果
- 4. 未来研究方向
- 5. 批判性分析
- 6. 实用创新点与学习建议
- 6.1 重点学习内容
- 6.2 背景知识补充
1. 研究目标与实际意义
研究目标:
论文旨在解决动态场景中因物体移动或相机抖动导致的**非均匀模糊(non-uniform blur)**问题。此类模糊具有方向性、区域性和多尺度特性(如短程与长程模糊),传统方法难以高效建模。Stripformer的目标是设计一种轻量化的Transformer架构,在低计算开销下实现高性能去模糊。
实际意义:
- 产业价值:动态模糊广泛存在于移动摄影、自动驾驶(如运动物体识别)、安防监控等领域。高效去模糊能提升图像质量,增强下游任务(如目标检测)的准确性。
- 技术痛点:现有Transformer模型(如ViT)因全局注意力机制导致计算复杂度高( O ( H 2 W 2 ) \mathcal{O}(H^2W^2) O(H2W2)),且需海量预训练数据(如ImageNet)。Stripformer通过创新设计显著降低资源需求,推动Transformer在边缘设备的落地。
2. 创新方法:Stripformer的核心设计
2.1 整体架构设计
Stripformer采用编码器-解码器结构(图2),核心创新在于通过条带注意力机制(Strip Attention)建模模糊的方向性与多尺度特性。架构包含以下关键模块:
- 特征嵌入块(Feature Embedding Block, FEB):
由卷积层和残差块组成(公式无编号),将输入图像 X ∈ R H × W × 3 X \in \mathbb{R}^{H \times W \times 3} X∈RH×W×3 转换为特征图 F ∈ R H 4 × W 4 × C F \in \mathbb{R}^{\frac{H}{4} \times \frac{W}{4} \times C} F∈R4H×4W×C,避免传统Transformer的块划分导致的空间信息丢失。 - 堆叠的Intra-SA与Inter-SA块:
交替处理局部与全局模糊模式,生成方向感知特征。 - 上采样与跳跃连接:
转置卷积恢复分辨率,并拼接同尺度编码器特征以保留细节。
2.2 条带注意力机制
2.2.1 Intra-Strip Attention (Intra-SA)
目标:建模局部条带内像素依赖,捕捉短程模糊方向性(图1a)。
图1:Intra-SA与Inter-SA示意图
- (a) Intra-SA:水平/垂直条带内像素级注意力(短程方向建模)。
- (b) Inter-SA:条带间全局注意力(长程幅度建模)。
公式与计算流程:
-
特征预处理(公式1):
( X h , X v ) = Conv ( Norm ( X ) ) (1) (X^h, X^v) = \text{Conv}(\text{Norm}(X)) \tag{1} (Xh,Xv)=Conv(Norm(X))(1)
X h , X v ∈ R H × W × D X^h, X^v \in \mathbb{R}^{H \times W \times D} Xh,Xv∈RH×W×D( D = C / 2 D=C/2 D=C/2)分别输入水平/垂直分支。 -
水平分支(Intra-SA-H):
- 分割 X h X^h Xh 为 H H H 条水平条带 X i h ∈ R W × D X_i^h \in \mathbb{R}^{W \times D} Xih∈RW×D( i = 1 , … , H i=1,\dots,H i=1,…,H)。
- 生成多头注意力(公式2-3):
( Q i j h , K i j h , V i j h ) = ( X i h P j Q , X i h P j K , X i h P j V ) O i j h = Softmax