ICML 2025|快手提出了基于残差的超低码率图像压缩方法ResULIC
计算机视觉领域顶级会议International Conference on Machine Learning (ICML 2025)将于7月13日至7月19日在加拿大温哥华召开,快手音视频技术团队联合南京大学发表的题为《Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion》——基于语义残差编码与压缩感知扩散的超低码率图像压缩的最新研究成果被会议收录。
ICML是机器学习领域的顶级国际会议,其收录的论文代表了机器学习基础理论与算法创新的前沿进展,是该领域学术研究与技术突破的核心风向标。ICML 2025共收到12107篇有效投稿,其中有3260篇论文被接收,接收率为26.9%。
论文链接:https://arxiv.org/abs/2505.08281
代码链接:https://njuvision.github.io/ResULIC/
一、背景
近年来,基于学习的图像压缩技术[1,2,3]已在客观指标和主观评估上展现出优于传统编解码器(如 JPEG2000 和 VVC 帧内编码)的性能。然而,在低码率条件下,这些方法常面临纹理过度平滑、细节和结构信息丢失等问题。随着AIGC的发展,尽管扩散模型[4]的出现为这一困境提供了转机,在极低码率下实现了比GAN方法更出色的视觉重建效果,但现有方法[5,6,7]在一致性与保真度方面仍不理想,与原始输入存在显著差异。如何将这种生成能力与视频保真进行结合,在极低码率下大幅改善画质,是一个亟待解决的问题。
二、方法
在该篇论文中,快手提出了基于残差的超低码率图像压缩方法ResULIC (Residual-guided Ultra Lowrate Image Compression)。该方法引入语义残差编码、压缩感知扩散模型,改善了压缩和重建的协同性,在超低码率限制下,生成了相较于原图具有超高保真度、细节纹理丰富的图像。
图1. 超低码率下的效果对比,最左为原图,最右为效果图
算法的框架图如2所示,主要包含三个部分:
(1)特征压缩器(Feature compressor)
(2)语义残差编码(Semantic Residual Coding)
(3)压缩感知的扩散模型(Compression-aware Diffusion Model)
图2. ResULIC的算法框架
1.特征压缩器
图像首先经过特征压缩将图像映射到潜空间,得到其潜在特征表示。随后,语义残差编码部分通过分析解码图像和原始图像生成优化描述。这一过程中,为提升重建质量,还应用了感知保真优化器(Perceptual Fidelity Optimizer)。最后,我们提出了压缩感知扩散模型CDM,将文本信息和压缩后的图像信息融合成条件信号,通过CDM扩散模型,获取最终输出的重建图像。如下是具体的算法细节,包括语义残差编码和压缩感知的扩散模型。
2.语义残差编码
现有的基于多模态大语言模型的压缩方法通常只是融合文字和其他内容特征(如边界,颜色、结构等)去重建图像,往往忽略了其中已包含的语义信息。为了尽可能消除语义中的冗余,且保证重建图像的质量,语义残差编码模块主要包含语义残差检索模块和感知保真优化器两个模块。
语义残差检索模块( Semantic Residual Retrival, Srr)
图3展示了我们重新设计的语义残差检索模块。除了常规做法中使用原始图像获取完整标题外,我们还直接从解码后的压缩潜在特征获取解码图像的标题。随后,我们将两个标题同时输入一个大型语言模型(LLM),用于捕获原始图像中的残差语义。这些残差语义的获取有助于进行码率的自适应编码,我们最终会综合语义潜在表示的码字(C_res)和图像意义的潜在表示的码率(图2中R_Zc)。
图3. 语义残差检索模块流程
感知保真优化器 (Perceptual Fidelity Optimization, Pfo)
尽管多模态大语言模型(MLLM)生成的描述有助于重建,但它通常无法捕捉到细致的纹理和结构,从而在重建图像与原始图像之间产生了一致性差距。这一限制阻碍了保真度。为了解决这个问题,我们提出了一种专为扩散模型定制的差分优化方法,目标是找到最佳感知保真度的提示词。
我们首先参照CLIP[8]中使用的预定义词汇表,将输入的描述转换为token indices,其中
是模型的词汇表大小,d是嵌入向量的维度。然后我们使用图3中获获取的语义残差
来初始化可学习的嵌入
,其中 M 是待优化的token数量。后续的优化过程如图4中算法所示,并使用下述损失函数进行优化:
图4. 算法流程图
其中第一项表示用于预测在第n步的去噪损失,用于稳定优化过程。我们还引入了辅助损失函数,其中
是一个较小的权重因子。
和
分别表示CLIP模型的文本编码器和图像编码器,S是两个嵌入向量之间的余弦相似度。在优化过程中,
会被投影到 CLIP 嵌入空间中欧式距离最短的嵌入
,确保学习到的嵌入与 CLIP 模型的词汇空间保持一致。最终优化后的文本可以通过如下方式经过数次迭代后获得(
表示学习率):
图5展示了通过保真优化器优化后的Prompt和重建图,优化后的Prompt具备一定可读性。
图5. 通过感知保真优化器优化后的Prompt和重建图
3.压缩感知的扩散模型
基于压缩感知的扩散模型旨在尽可能对齐压缩和生成之间的目标,我们希望在扩散过程中,将压缩比与噪声尺度进行联合建模,从而在不同压缩率下实现高效且一致的重建效果。
如图6所示,我们发现压缩退化与扩散加噪过程有一个共同点:噪声强度或压缩比越高,图像中保留的信息越少。因此,压缩率与扩散时间步长天然形成对齐关系。在此基础上,我们尝试建模这种相关性,将潜在残差融入扩散过程,提出了一种压缩感知的扩散方法,从而在提升重建保真度的同时,大幅提高了解码效率。
图6. 压缩率和扩散步数的本质关系。更大的扩散步长对应更低的码率
图7中,我们更进一步分析了码率(bpp)、扩散时间步长 和质量三者的关系。数据显示,在不同码率下,达到最佳重建质量所需的扩散步长存在差异,自适应步长的效果会明显优于固定步长。受此启发,我们针对不同的码率选择了不同的噪声添加终点,以保持其添加噪声的方式。通过这种方式,CDM无需重新训练即可实现视觉上较好的重建效果。
图7. 码率和扩散步长之间的相关性
(a)最佳重建质量在不同码率下所需的扩散步长不同
(b)峰值投影曲线中,最优的N_r随着码率的增加而减少
(c)自适应性策略(红色曲线)比固定扩散步骤表现明显更好
三、实验结果
我们选择了有参考(PSNR、MS-SSIM、LPIPS、DISTS、FID、KID)的评价指标来衡量重建画质。如图8所示,ResULIC在公开数据集CLIC-2020上,性能大幅超过了前序的算法。
图8. 在公开数据集下,ResULIC和其他算法性能对比
如表1所示,和前序同样使用基于Diffusion的SOTA算法PerCo对比起来,ResULIC在LPIPS和FID性能上提升了80.7%和66.3%。
表1:和同样使用基于Diffusion的SOTA算法的PerCo对比结果
四、总结与展望
在本篇论文中,快手提出了基于残差的超低码率图像压缩方法ResULIC。通过引入基于多模态大语言模型的语义先验,并深度融合残差编码和压缩任务,在超低码率场景下,主客观指标取得了业界领先的效果,为后续快手视频压缩和处理提供了算法支持。
目前,快手在视频压缩和处理应景应用在多个业务场景,如用户体验优化、基于内容的自适应处理和编码、电商/商业化赋能等。未来,快手音视频技术团队将持续推动视频压缩算法的提升,探索更为广泛的应用场景。
附录:
[1] Chen, T., Liu, H., Ma, Z., Shen, Q., Cao, X., and Wang, Y. End-to-end learnt image compression via non-local attention optimization and improved context modeling. IEEE Transactions on Image Processing, 30:3179–3191, 2021.
[2] Lu, M., Guo, P., Shi, H., Cao, C., and Ma, Z. Transformer-based image compression. In 2022 Data Compression Conference (DCC), pp. 469–469. IEEE, 2022.
[3] Duan, Z., Lu, M., Ma, J., Huang, Y., Ma, Z., and Zhu, F. Qarv: Quantization-aware resnet vae for lossy image compression. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023.
[4] Rombach, R., Blattmann, A., Lorenz, D., Esser, P., and Ommer, B. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 10684–10695, 2022.
[5] Careil, M., Muckley, M. J., Verbeek, J., and Lathuili` ere, S. Towards image compression with perfect realism at ultra-low bitrates. In The Twelfth International Conference on Learning Representations, 2024.
[6] Lei, E., Uslu, Y. B., Hassani, H., and Bidokhti, S. S. Text+sketch: Image compression at ultra low rates. In ICML 2023 Workshop Neural Compression: From Information Theory to Applications, 2023a.
[7] Li, Z., Zhou, Y., Wei, H., Ge, C., and Jiang, J. Towards extreme image compression with latent feature guidance and diffusion prior. arXiv preprint arXiv:2404.18820, 2024.
[8] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J.,et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pp. 8748–8763. PMLR, 2021.