当前位置：首页 > news >正文

从JPEG到SER：小波+CNN如何横扫CVPR/ICASSP？

news 2025/7/31 3:24:12

分享一个大模型时代很有潜力的研究方向：小波变换+CNN。随着深度学习的发展，小波变换与CNN的结合受到了越来越多的关注。小波变换能够有效地提取信号的多尺度特征，而CNN则擅长处理图像等复杂数据。两者的结合不仅在图像压缩、语音情感识别等领域取得了显著成果，还为解决特征提取和模型优化等问题提供了新的思路。未来，这一方向有望在更多领域实现突破，为学术研究和实际应用带来更多可能性。

下面小图给大家拆解一些相关领域的杰出研究，满满干货，点赞收藏不迷路~

SigWavNet: Learning Multiresolution Signal Wavelet Network for Speech Emotion Recognition

方法：文章首先利用FDWT的特性，包括级联算法、共轭二次滤波器和系数去噪，构建了一个可学习的小波基和去噪模型。接着，通过1D dilated CNN和空间注意力层捕捉情感特征的空间特性，再利用Bi-GRU和时间注意力层捕捉情感特征的时间特性。最后，通过通道加权和全局平均池化层整合多频带特征，并通过Log Softmax层输出情感概率。

创新点：

提出了一种端到端的深度学习框架，直接从原始语音波形信号中提取有意义的表示，无需预处理或后处理。
引入了快速离散小波变换（FDWT）的可学习模型，通过深度学习技术优化小波系数的阈值操作。
结合一维扩张卷积神经网络、空间注意力层以及双向门控循环单元（Bi-GRU）和时间注意力层，有效捕捉情感特征的时空特性。

总结：这篇文章提出了一种新颖的多分辨率信号小波网络（SigWavNet），用于语音情感识别（SER），旨在解决现有方法在系统复杂性、特征独特性以及噪声干扰等方面存在的挑战。

3DM-WeConvene: Learned Image Compression with 3D Multi-Level Wavelet-Domain Convolution and Entropy Model

方法：文章首先利用3DM-WeConv层对输入图像进行特征提取，并在这些子带上应用不同大小的卷积核以捕捉不同频率的特征。接着，通过逆3D DWT将特征转换回空间域。在熵编码部分，3DWeChARM模块对3D DWT后的数据进行切片式编码，优先编码低频切片，并将其作为高频切片编码的先验，从而提高编码效率。最后，通过两步训练策略，先平衡不同频率子带的速率，再进行微调，以优化整个系统的性能。

创新点：

提出了一种3D多级小波域卷积（3DM-WeConv）层，通过3D DWT将数据转换到小波域，对不同频率子带应用不同大小的卷积核，再通过逆3D DWT转换回空间域，有效增强了频率选择性。
引入了3D小波域通道自回归熵模型（3DWeChARM），在3D DWT域中进行切片式熵编码，先编码低频切片作为高频切片的先验，进一步提高了编码效率。
采用两步训练策略，先平衡低频和高频子带的速率，再通过权重调整进行微调，优化了系统性能。

总结：这篇文章提出了一种基于3D多级小波域卷积和熵模型（3DM-WeConvene）的深度学习图像压缩框架，旨在通过整合3D多级离散小波变换（DWT）来减少空间和通道相关性，提升频率选择性和率失真（R-D）性能。

纠结选题？导师放养？投稿被拒？对论文有任何问题的同学，欢迎来gongzhonghao【图灵学术计算机论文辅导】，每天两个免费咨询服务~

WeConvene: Learned Image Compression with Wavelet-Domain Convolution and Entropy Model

方法：文章首先在核心编码器网络中应用DWT将输入图像的潜在表示转换到小波域，然后通过WeConv模块进行卷积操作，接着对小波系数进行量化和熵编码。在熵编码部分，WeChARM模块将编码过程分为两步，先编码低频子带，再编码高频子带，并利用通道自回归熵编码进一步提高编码效率。最后，通过逆DWT将数据转换回空间域以重建图像。