【深度学习新浪潮】大模型在图像质量评价方面的研发进展一览

引言
图像质量评价(IQA)是计算机视觉领域的核心任务之一,广泛应用于图像增强、视频编码、AIGC生成质量控制、工业质检等场景。传统IQA方法分为全参考(FR-IQA)和无参考(NR-IQA)两类,前者依赖无损参考图(如PSNR、SSIM),后者仅通过待评估图像判断质量,但均存在明显局限——手工设计特征泛化性差、评分缺乏可解释性、对真实场景失真适应性弱。
大模型(包括视觉Transformer、多模态大语言模型、扩散模型)的崛起为IQA带来了革命性突破,凭借强大的特征提取能力、跨域泛化能力和推理能力,解决了传统方法的核心痛点。本文将从技术创新、核心模型、工程落地三个维度,系统梳理大模型在IQA领域的最新研发进展,结合2024-2025年顶会成果(NeurIPS、CVPR、ECCV),解析其技术逻辑与应用价值。
一、大模型重塑IQA:核心技术突破方向
大模型对IQA的革新,本质是通过更强的特征表示、更灵活的任务适配、更贴近人类感知的评价逻辑,实现从“数值评分”到“智能理解”的跨越。核心突破集中在四个方向:
1.1 多模态融合:让评价“可解释、可推理”
传统IQA仅输出单一分数,无法解释质量问题成因。多模态大模型(MLLM)通过“图像理解+语言推理”的融合范式,实现了质量评价的文本化描述与逻辑归因。</
