TII-2024《AGP-Net: Adaptive Graph Prior Network for Image Denoising》
推荐深蓝学院的《深度神经网络加速:cuDNN 与 TensorRT》,课程面向就业,细致讲解CUDA运算的理论支撑与实践,学完可以系统化掌握CUDA基础编程知识以及TensorRT实战,并且能够利用GPU开发高性能、高并发的软件系统,感兴趣可以直接看看链接:
深蓝学院《深度神经网络加速:cuDNN 与 TensorRT》

核心思想分析
该论文提出了一种名为AGP-Net(Adaptive Graph Prior Network)的图像去噪框架,旨在解决传统图像去噪方法在捕捉长距离依赖性、特征重建以及泛化能力方面的不足。其核心思想包括以下几个方面:
- 多尺度长距离依赖建模:通过一种新颖的图构造方法,AGP-Net能够在像素级和补丁级(patch-level)捕捉图像的长距离依赖关系,克服了传统卷积神经网络(CNN)和Transformer结构在建模全局特征时的局限性。
- 自适应特征补充:提出**图补充先验(Graph Supplementary Prior, GSP)**机制,通过嵌入特征生成自适应的图先验信息,增强图像重建所需的特征表达,解决训练数据不足导致的特征缺失问题。
- 动态正则化噪声:引入**图噪声先验(Graph Noise Prior, GNP)**机制,生成动态的正则化噪声,通过混合正态分布和均匀分布的噪声增强模型的泛化能力,缓解过拟合问题。
- 端到端去噪框架:AGP-Net基于编码器-解码器结构,结合GSP和GNP模块,形成一个即插即用的去噪网络,能够高效处理多样化和复杂的噪声。
目标函数分析
AGP-Net的目标函数采用Charbonnier损失函数,其定义为:
L = 1 N ℓ ∑ ( ∣ I d − I target ∣ 2 + ϵ 2 ) \mathcal{L} = \frac{1}{N_\ell} \sum \sqrt{\left( |\mathbf{I}_d - \mathbf{I}_{\text{target}}|^2 + \epsilon^2 \right)} L=Nℓ1∑(∣Id−Itarget∣2+ϵ2)
其中:
- I d \mathbf{I}_d Id:去噪后的图像。
- I target \mathbf{I}_{\text{target}} Itarget:对应的真实无噪图像(ground-truth)。
- N ℓ N_\ell Nℓ:训练样本数量。
- ϵ 2 \epsilon^2 ϵ2:一个经验常数,通常设为 1 × 1 0 − 6 1 \times 10^{-6} 1×10−6。
选择Charbonnier损失的原因:
- 可微性:相比L1损失(最小绝对误差),Charbonnier损失在零点处是连续可微的,有利于梯度优化方法的稳定性。
- 对异常值的鲁棒性:相比L2损失(均方误差),Charbonnier损失对大误差的权重较低,能够有效处理噪声图像中的异常值,避免过平滑。
- 细节保留:Charbonnier损失在L1和L2损失之间取得平衡,通过平滑过渡(从二次区域到线性区域)保留图像的锐利边缘和细微结构。
目标函数的优化过程
优化过程基于深度学习的标准梯度下降方法,具体步骤如下:
- 优化器:采用Adam优化器,参数设置为 β 1 = 0.9 \beta_1 = 0.9 β1=0.9, β 2 = 0.999 \beta_2 = 0.999 β2=0.999,学习率设为 1 × 1 0 − 4 1 \times 10^{-4} 1×10−4。
- 训练数据:每批次包含128个256×256像素的图像补丁,训练数据由噪声/干净图像对组成。
- 损失计算:通过Charbonnier损失函数计算去噪图像 I d \mathbf{I}_d Id与真实图像 I target \mathbf{I}_{\text{target}} Itarget之间的差异。
- 参数更新:利用反向传播算法计算梯度,更新网络参数,包括卷积层权重、GSP模块中的可学习节点特征值 λ n \lambda_n λn以及GNP模块中的噪声分布参数( μ , σ , α \mu, \sigma, \alpha μ,σ,α)。
- 正则化噪声生成:GNP模块通过可学习的混合噪声分布(正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)和均匀分布 U ( − α , α ) U(-\alpha, \alpha) U(−α,α))生成动态正则化噪声,增强模型泛化能力。
- 迭代训练:通过多次迭代优化,网络逐步学习到从噪声图像到干净图像的映射。
优化过程中,GSP和GNP模块的参数通过端到端的训练过程与整个网络共同优化,确保生成的图先验信息和正则化噪声能够适应不同的噪声分布和图像内容。
主要贡献点
- 新颖的图构造方法:提出了一种基于K近邻(KNN)的图构造方法,将特征图分为补丁并构建图结构,同时在像素级和补丁级捕捉长距离依赖,显著提升去噪性能。
- GSP机制:通过嵌入像素级和补丁级的特征生成自适应图先验信息,补充图像重建所需的特征,解决训练数据不足的问题。
- GNP机制:提出动态正则化噪声生成方法,通过混合正态和均匀分布的噪声增强模型泛化能力,有效缓解过拟合。
- 高性能去噪:在多个基准数据集(CBSD68、SIDD、DND)上,AGP-Net取得了最先进的去噪性能,特别是在噪声水平较高的场景中表现出色。
- 实际应用验证:在车辆计数检测等实际任务中,AGP-Net展示了在复杂噪声和不同天气条件下的鲁棒性。
实验结果分析
-
数据集与评估指标:
- CBSD68:包含彩色图像,噪声水平为50,AGP-Net取得了 28.69 dB 28.69 \, \text{dB} 28.69dB的峰值信噪比(PSNR)。
- SIDD和DND(真实噪声数据集):AGP-Net分别取得了 40.18 dB 40.18 \, \text{dB} 40.18dB和 40.25 dB 40.25 \, \text{dB} 40.25dB的PSNR,优于SCUNet、EFFNet和CFPNet等方法。
- 其他指标包括结构相似性(SSIM),例如在CBSD68噪声水平25时,AGP-Net达到 31.83 dB 31.83 \, \text{dB} 31.83dB PSNR和 0.895 0.895 0.895 SSIM。
-
消融实验:
- 移除GSP和GNP模块后,性能显著下降(PSNR从 31.83 dB 31.83 \, \text{dB} 31.83dB降至 31.36 dB 31.36 \, \text{dB} 31.36dB),证明两模块的互补性和必要性。
- 图构造参数(特征向量维度 L L L和邻居数量 k k k)的调整显示,增大 L L L和 k k k(如 L = 768 , k = 3 L=768, k=3 L=768,k=3)能提升PSNR,表明高维特征和更多邻居有助于捕捉细节。
-
实际应用:
- 在车辆计数检测任务中,AGP-Net在不同天气条件(阴天、晴天、夜晚)下表现出色,相比CFPNet能更好地保留车辆细节,提高检测准确性。
算法实现过程详细解释
AGP-Net的实现基于编码器-解码器框架,结合图构造、GSP和GNP模块,以下是详细步骤:
1. 网络结构
-
输入投影层:将输入噪声图像 I n ∈ R H × W × 3 \mathbf{I}_n \in \mathbb{R}^{H \times W \times 3} In∈RH×W×3通过 3 × 3 3 \times 3 3×3卷积层和LeakyReLU激活函数映射为低级特征 F 0 ∈ R H × W × C \mathbf{F}_0 \in \mathbb{R}^{H \times W \times C} F0∈RH×W×C:
F 0 = ϕ ( f p in ( I n ) ) \mathbf{F}_0 = \phi(f_p^{\text{in}}(\mathbf{I}_n)) F0=ϕ(fpin(In))
其中 f p in ( ⋅ ) f_p^{\text{in}}(\cdot) fpin(⋅)表示卷积操作, ϕ ( ⋅ ) \phi(\cdot) ϕ(⋅)为LeakyReLU。 -
编码器:包含4组AGP块和下采样层。每个下采样层使用 4 × 4 4 \times 4 4×4卷积核(步幅2,填充1),将特征图的空间分辨率减半,通道数加倍:
F d = φ ( f 1 ( F 1 ) ) \mathbf{F}_d = \varphi(f_1(\mathbf{F}_1)) Fd=φ(f1(F1))
最终生成编码特征 F en ∈ R H 2 N × W 2 N × C \mathbf{F}_{\text{en}} \in \mathbb{R}^{\frac{H}{2^N} \times \frac{W}{2^N} \times C} Fen∈R2NH×2NW×C, N N N为下采样层数。 -
解码器:包含4组AGP块和上采样层,上采样层通过 2 × 2 2 \times 2 2×2卷积核(步幅2,填充1)恢复空间分辨率,通道数减半,最终生成特征 F e \mathbf{F}_e Fe。
-
输出投影层:通过 3 × 3 3 \times 3 3×3卷积层将 F e \mathbf{F}_e Fe映射为去噪图像 I d ∈ R H × W × 3 \mathbf{I}_d \in \mathbb{R}^{H \times W \times 3} Id∈RH×W×3:
I d = f c out ( F e ) → R R H × W × 3 + I n \mathbf{I}_d = f_c^{\text{out}}(\mathbf{F}_e) \xrightarrow{R} \mathbb{R}^{H \times W \times 3} + \mathbf{I}_n Id=fcout(Fe)RRH×W×3+In
其中 → R \xrightarrow{R} R表示张量重塑操作。
2. 图构造
- 补丁划分:将特征图 F in ∈ R H × W × C \mathbf{F}_{\text{in}} \in \mathbb{R}^{H \times W \times C} Fin∈RH×W×C划分为 S S S个补丁,每个补丁转化为特征向量 x i ∈ R L \mathbf{x}_i \in \mathbb{R}^L xi∈RL,形成节点集 X = [ x 1 , x 2 , … , x S ] \mathbf{X} = [\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_S] X=[x1,x2,…,xS]。
- KNN连接:对每个节点 x i \mathbf{x}_i xi,通过K近邻算法找到 k k k个最近邻节点 K ( x i ) \mathcal{K}(\mathbf{x}_i) K(xi),构建边集 E \mathbf{E} E,生成图结构 F g = ( X , E ) ∈ R L × S × C \mathbf{F}_g = (\mathbf{X}, \mathbf{E}) \in \mathbb{R}^{L \times S \times C} Fg=(X,E)∈RL×S×C。
- 信息聚合:通过迭代变换和学习,在像素级(节点内)和补丁级(节点间)交换和聚合信息。
3. GSP模块
- 嵌入特征生成:
- 像素级嵌入:通过线性层压缩通道维度,生成像素级嵌入特征:
S p = φ ( H p ( F g ) ) , S p ∈ R L × 1 \mathbf{S}_p = \varphi(\mathcal{H}_p(\mathbf{F}_g)), \quad \mathbf{S}_p \in \mathbb{R}^{L \times 1} Sp=φ(Hp(Fg)),Sp∈RL×1
其中 H p ( ⋅ ) \mathcal{H}_p(\cdot) Hp(⋅)为线性层, φ ( ⋅ ) \varphi(\cdot) φ(⋅)为GELU激活。 - 补丁级嵌入:类似地生成补丁级嵌入特征:
S n = φ ( H n ( F g ) ) , S n ∈ R 1 × C × S \mathbf{S}_n = \varphi(\mathcal{H}_n(\mathbf{F}_g)), \quad \mathbf{S}_n \in \mathbb{R}^{1 \times C \times S} Sn=φ(Hn(Fg)),Sn∈R1×C×S
- 像素级嵌入:通过线性层压缩通道维度,生成像素级嵌入特征:
- 图先验生成:结合可学习节点特征值 λ n \lambda_n λn,混合像素级和补丁级嵌入,生成图先验信息:
F out = ( λ n ⋅ ( S p × S n ) + F g ) → R R H × W × C \mathbf{F}_{\text{out}} = \left( \lambda_n \cdot (\mathbf{S}_p \times \mathbf{S}_n) + \mathbf{F}_g \right) \xrightarrow{R} \mathbb{R}^{H \times W \times C} Fout=(λn⋅(Sp×Sn)+Fg)RRH×W×C
其中 F out \mathbf{F}_{\text{out}} Fout为补充后的图特征, F a g = λ n ⋅ S m \mathbf{F}_{ag} = \lambda_n \cdot \mathbf{S}_m Fag=λn⋅Sm为图先验信息。
4. GNP模块
- 混合噪声生成:通过正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)和均匀分布 U ( − α , α ) U(-\alpha, \alpha) U(−α,α)生成混合噪声:
m = n + u , n ∼ N ( μ , σ 2 ) , u ∼ U ( − α , α ) m = n + u, \quad n \sim N(\mu, \sigma^2), \quad u \sim U(-\alpha, \alpha) m=n+u,n∼N(μ,σ2),u∼U(−α,α) - 可微化处理:使用重参数化技巧,从标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1)和标准均匀分布 U ( − 1 , 1 ) U(-1,1) U(−1,1)采样初始噪声,通过可学习参数 μ , σ , α \mu, \sigma, \alpha μ,σ,α投影:
m = ( n ′ × σ + μ ) + ( u ′ × α ) , n ′ ∼ N ( 0 , 1 ) , u ′ ∼ U ( − 1 , 1 ) m = (n' \times \sigma + \mu) + (u' \times \alpha), \quad n' \sim N(0,1), \quad u' \sim U(-1,1) m=(n′×σ+μ)+(u′×α),n′∼N(0,1),u′∼U(−1,1) - 特征正则化:将生成噪声叠加到图特征上:
F g = m × H r ( λ r ) + F i m \mathbf{F}_g = m \times \mathcal{H}_r(\lambda_r) + \mathbf{F}_{im} Fg=m×Hr(λr)+Fim
其中 F i m \mathbf{F}_{im} Fim为输入特征, H r ( ⋅ ) \mathcal{H}_r(\cdot) Hr(⋅)为线性层, F om \mathbf{F}_{\text{om}} Fom为正则化后的输出。
5. 训练与配置
- 网络配置:编码器和解码器各包含4组AGP块,具体参数见表I(例如,输入投影层通道数从3到48,AGP块特征维度 L L L从48增至768)。
- 训练细节:使用Adam优化器,批次大小为128,学习率 1 × 1 0 − 4 1 \times 10^{-4} 1×10−4,通过Charbonnier损失函数进行端到端优化。
总结
AGP-Net通过图构造、GSP和GNP模块,成功解决了图像去噪中的长距离依赖、特征不足和泛化问题。其创新点在于多尺度依赖建模和自适应正则化机制,实验结果证明了其在合成和真实噪声数据集上的优越性能。算法实现过程清晰,结合编码器-解码器框架和模块化设计,具有较高的可扩展性和实用性。