LLIC:基于自适应权重大感受野图像变换编码的学习图像压缩
有效感受野(Effective Receptive Field,ERF)在变换编码中发挥着关键作用,它决定了变换过程中可以去除多少冗余信息。现有的方法依赖于堆叠的小卷积核,其ERF仍然不够大,或者使用了复杂的非局部注意力机制,这限制了高分辨率图像编码的潜力。为了解决这个问题,本文提出了大型感受野学习图像压缩(LLIC)的方法。
contribution
1.提出了一种通过自条件生成权重来增强卷积适应性的机制。大内核与非线性嵌入和门机制相结合,以提高表达力并减轻点对点交互的负担。
2.引入了一种自适应通道级比特分配策略,该策略以自条件的方式自主生成通道重要性因子。
3.在Kodak数据集上相对于VTM-17.0 Intra分别降低了9.49%、9.47%和10.94%的BD-Rate。
整体网络结构
如图所示,ga是分析变换器。gs是合成变换器。Q是量化操作。μ和σ是用于概率估计的潜在变量g的估计均值和尺度。
其中,空间感受块(STB)整体流程可形式化表示为 通道变换块(CTB)整体流程可形式化表示为
如图所示,DepthRB是用于非线性嵌入的深度残差块,Gate为提出的门控块。
自适应空间变换(SCST)
现有方法依赖于基于Transformer或注意力机制的变换编码技术,这在利用输入图像或特征特性方面存在局限性。为此,我们提出自适应空间变换(SCST) ,通过逐层降采样方式,将输入本身视为生成卷积权重的条件。SCST中的条件分支被用来生成自适应的条件权重。SCST的整体流程如下所示
自适应通道变换(SCCT)
CTB的架构类似于STB,其中的标准化卷积自注意力(SCST)被替换为自条件通道变换(SCCT)来构建CTB。在STB中,我们使用具有自适应性的大感受 野内核来减少空间冗余。由于通道之间的交互有限,我们需要引入自适应通道变换(SCCT)来减少通道级别的冗余。SCCT的整体流程如下所示
实验结果
本文提出的LLIC-STF、LLIC-ELIC和LLIC-TCM实现了先进的性能,并分别比VTM-17.0 Intra在Kodak上降低了9.49%、9.47%和10.94%的BD-Rate。
结论
本文提出了大型感受野学习图像压方法,具有自适应性,能够有效捕捉更多的空间相关性。为了减少通道间的冗余,我们设计了自适应通道变换,以调整每个通道的权重。为了评估我们的变换方法,我们将熵模型与现有的先进非线性变换编码技术对齐,得到了LLIC-STF、LLIC-ELIC和LLIC-TCM等模型。大量的实验结果表明,本文提出的大型接收野学习方法具有显著的优势。