Spatial Frequency Modulation for Semantic Segmentation。针对图像下采样造成信息丢失问题的解决思路
在计算机视觉领域,语义分割、图像分类、实例分割等任务的准确性,在很大程度上依赖于对图像中高频空间信息的有效处理,例如精细的纹理细节、物体边缘等。然而,当前的深度学习模型,无论是卷积神经网络(CNN)还是Transformer,在处理这些高频信息时都面临一个普遍的挑战:下采样操作(如步幅卷积)会导致高频分量受到混叠(aliasing)或失真(distortion)的影响。
根据奈奎斯特-香农采样定理,当信号的采样频率低于其最高频率的两倍时,就会发生混叠,导致高频信息被错误地解释为低频信息,从而造成细节丢失和图像质量下降。这对于需要像素级精度的语义分割任务来说,是一个致命的问题。现有方法通常通过增加网络深度、使用空洞卷积或多尺度特征融合等方式来缓解,但都未能从根本上解决高频信息在下采样过程中的固有损失问题。
这篇文章提出了深度学习语义分割中一个经典的问题,也是我一直在思考和想解决的问题。那就是下采样造成的信息丢失问题。我个人思考还有上采样造成的信息丢失问题。这篇文章给出了一个很好的思路,通过信息论的方法解决这些问题。
后面我也将从这方法进行深度学习图像分割的研究