当前位置：首页 > news >正文

【IQA技术专题】图像质量评价IQA技术和应用综述（万字长文！！）

news 2025/9/19 3:42:28

专题介绍

图像质量评价（Image Quality Assessment, IQA）是图像处理、计算机视觉和多媒体通信等领域的关键技术之一。IQA不仅被用于学术研究，更在影像相关行业内实现了完整的商业化应用，涉及影视、智能手机、专业相机、安防监控、工业质检、医疗影像等。IQA与图像如影随形，其重要程度可见一斑。

但随着算法侧的能力不断突破，AIGC技术发展火热，早期的IQA或已无法准确评估新技术的能力。另一方面，千行百业中各类应用对图像质量的需求也存在差异和变化，旧标准也面临着适应性不足的挑战。

本专题旨在梳理和跟进IQA技术发展内容和趋势，为读者分享有价值、有意思的IQA。希望能够为底层视觉领域内的研究者和从业者提供一些参考和思路。

引言

本文是IQA专题的开篇作，将系统性地介绍下图像质量评价技术的发展历程、方法分类、业界应用以及当下热点和趋势。IQA应起源20世纪初，随着图像处理技术的兴起，IQA也逐渐成为了一门科学。至今为止，IQA已发展壮大，有着多种分类标准和技术方案。

不过博主认为，IQA本质上就分为两大类，主观评价和客观评价。

主观评价：以专家或用户为主体，基于认知、偏好和文化等因素，对图像进行打分或评价，偏定性。
客观评价：以算法或模型为主体，基于像素、特征和语义等内容，对图像进行打分或评价，偏定量。

在这里插入图片描述

不同图像所蕴含的信息量差异巨大，单一或多个评价指标容易以偏概全，管中窥豹。目前业内主流的评价体系基本是主客观、多维度相结合的系统性方案。

另一方面，大部分技术研究和指标分类都是属于客观评价的范畴内。而客观评价的主要目标就是无限接近主观评价结果，也就是模仿人类的评价模式。这个目标非常难，几乎是不可能实现的事。

因为主观评价有以下几个特点：

时间差异性，不同时刻，同一个人对于同样图像的评价会有较大差异。受心理、情感和精神状态等影像。
空间差异性，不同地域，人们对同样图像的评价会有较大差异。受文化、教育和社会等影响。
背景差异性，一张图像，若赋予了背景故事或特殊意义，那么评价结果也会随之改变。

这些是常规算法所触及不到的额外信息，目标似乎遥不可及。但随着大模型的出现，又带来了新的希望。在丰富的知识背景下，基于大模型的IQA系统没准能做到与人类评价模式接近。

但我们再仔细想想，人类主观视觉一定是正确的么？其实不然，在主观评价过程中人们往往会出分歧，即使是专家的观点也可能会存在偏见。同时，随着AI技术和机器人技术的发展，很多图像并非给人类看的，而是给机器做分析用的，用途多样，此时标准自然也将不同。

学术界的IQA技术演进

影响图像质量的因素有多种来源，如亮度、对比度、噪声、动态范围、构图、语义、风格等，在实际评判时很难确定哪个因素起主要作用。因此，除了针对于特定退化的IQA方法来说，其他IQA方法一般是基于以下3个特性来评价图像质量：

Fidelity：保真度，待评测图像相对于参考图像的一致性或精度。
Perception：感知，源于HVS（Human Vision System），重点设计一些跟人类视觉相符的指标。
Aesthetics：美学，由于审美是较为主观的，因此需要考虑视觉恒常性、视觉注意力和视觉疲劳等因素。

📝IQA 相关工作介绍

这部分内容重点参考了最新的综述文章《A Survey on Image Quality Assessment: Insights, Analysis, and Future Outlook》。文章总结得非常到位，给出了细致的分类和发展时间图。

根据综述分类，可以看到IQA分类图如下所示：
在这里插入图片描述
（源于论文截图）

IQA从应用场景切入，可分为两大类。

General Scene Methods：指通用场景下的IQA方法，场景比较常见，同时评价专注于保真度和感知两个方面，这里又细分为了Statistics Methods和基于Machine Learning的方法。
Specific Scene Methods：指特殊场景下的IQA方法，场景一般不常见，例如医学场景和去雾的场景，他们需要关注的图像效果跟通用场景不完全一致，通用场景下设计的指标不能很好的符合；例如Portrait Quality Assessment，人像IQA，需要更多从美学的角度去考虑；而涉及到特殊的退化类型如Blur、JPEG等，有退化类型的先验，相应的IQA设计方案也会有所变化。I

1、General Scene Methods

【Statistics Methods】
在这个分类中，通用场景的Statistics Methods又被分为HVS-based、Transform Domain-based以及Natural Scene Statistics-based Methods。后续本专栏会选择几个较为常用的指标做详细讲解，一般以全参考为主。

HVS-based，可以被细分为以下几类：

它们使用到的IQA特征各不相同，都统计了待评价图像本身的信息。
Transform Domain-based，可以被细分为以下几类：

分类依据是方案使用的域变换类型。将图像从A域变换到B域后，许多在A域内不明显的特征，在B域内会变得易于识别和处理。
Natural Scene Statistics-based Methods，可以被细分为以下几类：

自然图像本身存在一些特点，例如图像的各向异性，内部结构决定了其在不同方向上会有不同的视觉效果；图像的亮度范围；图像的统计特性。

【Machine Learning-based Methods】
随着数据的不断积累，后续基于Machine Learning的方法发展较快，这类方法又被分为基于模型的方法和基于框架的方法，大多为无参考的IQA指标。

其中基于模型的方法可被细分为传统机器学习方法、基于卷积神经网络的方法、基于transformer的方法。

传统机器学习方法：

其中，SVR（Support Vector Regression）是支持向量回归方法，可以将图像的特征回归到具体的分数或质量等级。NSS是我们前面提到的图像统计特性，通过提取NSS特征加上多变量的高斯模型来完成IQA，多尺度NSS则是以多尺度的方式处理图像，以更好地捕捉局部和全局特征。
基于卷积神经网络的方法：

基于卷积神经网络的方案类型比较多，这里列出了几个有其独特创新点的类型，
- CNN是指常规的思路，RankIQA有引入相对质量的概念；
- 语义自适应是指其网络会根据实际图像的不同来变换参数，相当于依据不同的图像变换不同的评价标准；
- 多尺度并行处理引入了局部和全局并行处理的操作；
- 纹理信息指大多基于CNN的FR-IQA方法对图像的纹理相似性过于敏感，作者对这个点进行了针对性的优化。
基于transformer的方法：

这里的尺寸包含图像分辨率和长宽比，TRIQ可以处理不同分辨率图像的Transformer，MUSIQ对这一点进行了深入研究，提出了一种全新的、基于哈希的2维空间嵌入方法，构成一种可以处理多尺度patch的方法。Swin transformer是vision transformer的优化版本，Maniqa将其引入到IQA中带来了更好的效果。

基于框架的方法可以被分为以下几类，该类方法提出的原因是带标签数据集有限，其中又可以细分为：
在这里插入图片描述

迁移学习指将其他领域数据集中的知识转移到实际任务上，Deep CNN-Based Blind Image Quality Predictor将将FR-IQA中学到的知识用于NR-IQA中，CVRDK-IQA通过知识蒸馏也做到了这一点：使用未对齐的参考（non-aligned reference，NAR）图像引入多种高质量图像的先验分布，此处的未对齐是指一对图像中，高质量的参考图像和低质量的失真图像并不匹配——参考图像并不是失真图像的高质量版本；
弱监督学习指训练过程中使用大量的客观IQA指标打出的分数作为参考，再使用主观质量分数作为参考进行微调；
自监督学习指训练方式从无标签数据中学习；
对抗学习指样本会被混合一些微小的扰动（改变很小，但是很可能造成误分类），然后使神经网络适应这种改变，从而对对抗样本具有鲁棒性。

2、Specific Scene Methods

综述中对于特殊场景下的IQA方法分类较为离散，以应用不同或任务不同作为区分，衍生出了多样的评估方法。

医学场景：Quantitative assessment of structural image quality 研究对比多种指标，发现 FreeSurfer 提供的 Euler number 因聚焦局部拓扑结构，对运动伪影等敏感，相比评估全局特性的指标（如信噪比）更适用于医学图像质量评估。这也表明在医学应用中，选择合适的质量评估指标，需要根据具体的研究需求和数据特点来决定。
去雾算法（Dehazing Algorithm，DHA）中的IQA：Quality Evaluation of Image Dehazing Methods Using Synthetic Hazy Images提出的去雾算法评估方法通过综合考虑图像恢复、色彩调整和对比度增强，更全面地评估去雾算法的效果。该方法不仅适应了去雾过程中的对比度增强和色彩调整，还通过针对航拍图像的改进，提高了评估方法的适用性和准确性。
人像质量评估：在NITRE2024的比赛中，有一些研究者提出了专门针对人像IQA的方法，例如PQE提出了一个双分支人像质量评估模型，分别对背景和面部组件进行建模，并提取两种特征用于评估图像质量；SAR提出了一种场景自适应的全局和面部感知网络，通过面部检测器精确定位面部区域，并使用ViT对面部区域和全局图像进行建模。这些方法对面部和背景分别进行处理，针对性地给出了IQA方案，很好地满足了该领域的需求。
特定失真场景下的IQA：例如Full reference image quality metrics for JPEG compressed images针对JPEG中块效应（Blocking Effect）和模糊效应（Blurring Effect）两个退化提出了评估图像质量的方法；A no-reference metric for evaluating the quality of motion deblurring设计了一系列专门针对去模糊伪影的特征，包括提出了一种新的无参考方法来检测大规模振铃伪影、使用多种方法来评估去模糊结果中的噪声水平、使用多种锐度度量方法来评估去模糊结果的清晰度。这些特征能够全面评估去模糊结果的质量，而不仅仅是单一类型的伪影。

以上是近期IQA方法相关工作的总览。

小结

IQA技术方案众多，从传统手工演进到深度学习，从基本特征发展至深层语义。
IQA指标并不具备绝对的通用性，在特殊领域需针对性设计指标方案。

🏆NTIRE IQA赛道介绍

NITRE是底层视觉领域里最为瞩目的赛事之一，目标是挑战各类难点问题，旨在推动整个领域的发展。当然除了图像复原和增强这类主流算法的赛道，NTIRE同样也开设了IQA相关的赛道，本文简单介绍下NITRE2021、2022、2024和2025中关于IQA赛事的内容。而NITRE 2023中没有IQA，只有Video Quality Assessment。

NITRE 2021、2022在质量评估上重点为了GAN-Based的图像评价，NITRE 2024有两个相关赛道包括人像质量评估和AIGC图像质量评估。随着LLM和AIGC技术的发展，NITRE 2025中可以看到更多的关于生成内容的质量评价赛道（不过以视频质量评估居多）。由此可见，AI技术的发展给质量评价也带了很多新挑战。
在这里插入图片描述

1、NTIRE 2021 Challenge on Perceptual Image Quality Assessment

随着基于生成对抗网络（GAN）的感知图像处理算法的出现，其产生的图像与传统失真图像有显著不同，给 IQA 方法带来了新挑战，传统的定量IQA与真实感知质量之间的差距进一步扩大。为了推动针对 GAN-based的先进感知图像质量评估算法的发展，NTIRE 2021 挑战赛设立了PIQA赛道，以选出优秀的解决方案并促进新数据集 PIPAL 的应用。

数据集：赛事采用 PIPAL 数据集的子集作为训练集，包含 200 张参考图像、29k 张失真图像和 1.13M 条主观评价；使用其扩展版本用于验证和测试，包含 50 张参考图像、3300 张失真图像和 753k 条主观评价。

评分标准：主分数由斯皮尔曼等级相关系数（SRCC）和皮尔逊线性相关系数（PLCC）组成，SRCC 评估方法的单调性，PLCC 评估方法的准确性，二者结合可全面衡量模型性能。

在这里插入图片描述
（源于论文截图）
上图为各类客观评分方案与主观评分MOS的散点图，可以看出赛事方案的主客观相关度都要优于原有的客观方案，体现出了新方案在感知方面的评价优势。

前十名全是基于深度学习的评价模型，大家采用了transformer，CNN，Resnet，多尺度特征提取与融合，孪生网络，对抗训练等技术。其中第一名首次采用了transformer技术用于全参考的IQA任务中，也就是image quality transformer (IQT)，以轻微优势获胜。

2、NTIRE 2022 Challenge on Perceptual Image Quality Assessment

有了前一年的成功，2022年继续设立了IQA比赛，并做了进一步细分，分为全参考赛道和无参考赛道。

Track1：FR-IQA赛道，要求方法能够在给定的失真图像与相应的参考图像之间产生高质量的感知相似性结果，并且与参考地真MOS分数具有最佳的相关性。
Track2：NR-IQA赛道，要求方法在失真图像上产生高质量的感知质量结果，并与参考地面真值MOS分数具有最佳相关性。

评估指标与NTIRE 2021一样，采用了SRCC和PLCC。方法上采用了ViT，注意力机制，多尺度特征提取与融合，预训练模型，模型集成策略等技术。FR-IQA前三名的分数均优于2021届的冠军。

FR-IQA赛道冠军采用了ViT+CNN的混合架构，同时捕获全局语义和空间信息。
NR-IQA赛道冠军采用了基于Swin的多维度注意力网络，配合多模型集成方式进一步提升性能。

由此可见，IQA在特征提取方面基本也采用了与图像复原和增强类似的前沿技术手段。

3、NTIRE 2024 Challenge on Deep Portrait Quality Assessment

该赛道算是IQA里的子领域，即人像质量评估（PQA）。随着社交媒体和摄影技术的发展，人像摄影的需求在不断提升，因此PQA也变得更为重要。但由于美学欣赏的主观性以及图像捕获和处理的技术复杂性，PQA任务极具挑战性。

传统客观质量评估方法通常无法应对现代摄影中的非线性处理（如多图像融合和AI增强）。随后盲图像质量评估（BIQA）方法逐渐兴起，无需参考图像。但BIQA常忽略场景特定语义，导致在多样化条件下效果不佳。因此NTIRE设立了该赛道，旨在寻找能高效评估真实人像照片感知质量的方案，为PQA设定新的标准，以适应人像摄影的多样性和动态属性。期望新模型在多样化场景和光照条件下（室内、室外、弱光等）、运动、模糊等挑战条件下具有良好的泛化能力。

数据集：采用了PIQ23，包含多样化肤色和多种拍摄场景（光照条件、目标距离、构图、姿势、背景等）的照片，分为50个“场景”，每个场景约100张图片，来自多款智能手机。通过成对比较对三类图像质量属性（细节/噪点、曝光/对比度、整体）进行标注，共收集约60万次比较，由30名专家在控制可视化条件下完成。标注结果转换为JOD（Just Objectionable Difference）单位。

在这里插入图片描述

另外加了私有数据集做测试，包含96个单人场景，每个场景7张图片，其中6张来自高质量智能手机，1张为专业摄影师用DSLR拍摄并编辑的参考图像。

Baseline Models：选择了几个基线模型，用于对比。包括HyperIQA、SEM-HyperIQA和FHIQA，专为解决领域偏移和场景语义理解而设计，在PIQ23数据集上表现出色。

评估指标：使用SRCC、PLCC和KRCC（肯德尔秩相关系数），最终结果为各场景指标中位数。

这其实是一个很有难度的挑战，优秀团队来自西安电子科技大学、字节跳动、上交、中科院等，采用了先进的ViT技术、各种训练策略及变体损失函数，期望能够模拟人类主观评分和提升模型泛化性能。 然而所有方法在挑战赛测试集上泛化能力较弱，主要因为新测试图像使用高质量智能手机拍摄，与PIQ23数据集存在质量领域差距，表明模型性能高度依赖数据采集设备。

在这里插入图片描述
（源于论文截图）

PQA方法在领域偏移和泛化能力方面仍面临挑战，未来需要进一步研究以提高模型在多样化和动态人像摄影条件下的适应性。

4、NTIRE 2024 Quality Assessment of AI-Generated Content Challenge

NTIRE 2024 质量评估生成内容挑战赛，旨在推动针对人工智能生成图像（AI-Generated Images, AIGIs）和视频（AI-Generated Videos, AIGVs）的图像质量评估和视频质量评估方法的发展。挑战赛分为图像赛道和视频赛道，分别使用 AIGIQA-20K 和 T2VQA-DB 数据集，包含由多种流行生成模型产生的大量 AI 生成图像和视频，并邀请了多个人员进行主观质量评分（MOSs）。

其中IQA赛道使用了 AIGIQA-20K 数据集，包含 20,000 张由 15 种 T2I 模型生成的图像。

在这里插入图片描述

（源于论文截图）

同样采用了SRCC和PLCC作为打分依据。IQA赛道的baseline model为StairIQA，DBCNN和LIQE。

在图像赛道，9 支团队主分数超过 0.9，4 支团队超过 0.91，主观一致性总分相比前几年的方案有较大提升。最大的区别在于引入了多模态技术，将文本与图像特征深度结合，提升语义理解能力，还采用了模型集成技术和预训练大模型，最终提高了模型效果和泛化能力。可以看到MOS散点图的一致性也进一步提升了。

在这里插入图片描述

（源于论文截图）

5、NTIRE 2025 challenge on Text to Image Generation Model Quality Assessment

随着生成模型的快速发展，先进的 T2I 模型能够生成令人印象深刻的图像，但这些图像在与文本对齐和结构真实性方面仍面临挑战。目前常用的生成图像质量评估基准和方法主要关注使用MOS进行标注和预测图像质量，但难以精准定位文本中未在生成图像中反映的元素以及图像中结构失真的具体位置。因此，NTIRE 2025 T2I 生成模型质量评估挑战旨在推动生成图像质量预测方法的发展，实现对生成图像质量的细粒度评估，以指导生成模型性能的提升。

挑战分为对齐赛道和结构赛道，

对齐赛道（alignment track）：使用包含约 40,000 个 AI 生成图像（AIGIs）的 EvalMuse-40K 数据集，这些图像由 20 种流行的生成模型创建，旨在评估文本 - 图像对齐情况；
结构赛道（structure track）：使用包含 10,000 个 AI 生成图像及其对应结构失真掩码的 EvalMuse-Structure 数据集，用于评估图像结构失真检测。

评估标准：两个赛道都使用SRCC和PLCC来评估模型预测的对齐分数和结构分数，SRCC 测量预测的单调性，PLCC 测量预测的准确性。在对齐赛道，还使用模型确定提示元素是否出现在生成图像中的准确率（ACC）来衡量模型的细粒度对齐评估能力；在结构赛道，使用模型预测的结构失真掩码与人工标注的结构失真掩码之间的 F1 分数来评估模型的细粒度结构评估能力。

方法上采用了多模态大语言模型，ViT，LoRA，集成学习等技术。

小结

近几年的IQA比赛，以衡量图像生成质量为主，注重视觉感知质量评价。
均采用了SRCC\PLCC等相关性参数来判断主客观一致性。
技术演进路线CNN->ViT->大模型->多模态，与图像复原、增强和生成的技术发展基本一致。

🎯如何选择IQA方法？

我们需要清楚，图像表征能力是有限的，在算法改进和创新过程中，一味追求单一IQA指标的极限，并不是明智的选择，反而会降低其他表征的质量。

博主认为在选择IQA时，起码需要满足以下两个点：

具备一定可解释性，不需要覆盖全图像表征，只要能够解释清楚在某应用场景下，用某指标更准确的缘由即可。
简单可操作性强，不能为了评价一个复杂算法而采用另一套复杂算法，可以是多指标结合，但其中单一指标的计算要简单。不然即增加了不确定性，又会使得评价成本过高。然而现实中，往往会趋向于复杂化，因为很多人下意识认为复杂的算法或方案更为准确，并不会细究是否真的有价值。

工业界的IQA主流标准和解决方案

IQA不仅仅用于评估学术研究型的算法。现实应用中，早以形成了体系化和标准化的IQA方案，在影像系统的设计、开发和营销等环节中都发挥着重要作用。本文将工业界的IQA大致分为三类：

各类权威协会或组织如ISO，CIE，ITU，IEC，IEEE等，他们制定了较为公认的国际标准。
商业化评测机构如imatest，IE（image engineering），DXO等，他们参与国际标准制定，并基于国际标准，进一步构建了更具特色的像质测评体系。
细分行业类的认证标准，如腾讯会议认证等。

📚国际IQA标准简介

1、ISO（the International Organization for Standardization）

在国际标准里面，大家耳熟能详的应该就是ISO了，ISO是一个独立的国际组织。

ISO中有个团队（ISO/TC 42/WG 18）专门负责开发和发布与数字静止摄影评估相关的客观标准，包括数码单反、移动、安全摄像机等（视频和视频标准不包括在内）。工作组与整个ISO一起定义了方法和最佳做法，但并没有为图像质量测试设定最低标准或要求。

Imatest采用了该工作组的多项IQ标准，包括了分辨率、空间频率、噪声、动态范围、畸变等等。

ISO 12233 for photography and electronic still picture imaging, resolution and spatial frequency
ISO 12232 for ISO, speed rating, standard output sensitivity, and recommended exposure index
ISO 15739: Noise and dynamic range
ISO 14524: Tone curve OECF standard
ISO 17850: Geometric distortion
ISO 17957: Uniformity/shading measurements
ISO 18844: Stray Light (Flare)
ISO 19084: Chromatic displacement
ISO 19567: Texture reproduction – partial support

除了通用图像标准外，ISO 8600系列概述了内窥镜和内治疗设备的标准，定义了内窥镜的IQ标准。

2、IEEE-SA（Institute of Electrical and Electronics Engineers Standards Association）

IEEE- SA是世界上最大的专业协会，汇集了来自广泛的地域和技术领域的个人及组织，以促进标准开发和与标准相关的协作。在IQA领域，其主导制定了两个非常有价值的IQA标准系列，广受行业关注和应用。

IEEE P1858 Standard for Camera Phone Image Quality（CPIQ）
IEEE P2020 Standard for Automotive System Image Quality

CPIQ标准旨在标准化整个行业的图像质量测试指标和方法，它涵盖了从测试条件、设备要求、图像质量属性的定义到具体的测量步骤和计算方法，将客观测试结果与人类感知相关联。

因为对于常规消费者而言，他们不确定如何判断和比较设备图像质量，下意识认为像素越高成像质量越好。而CPIQ期望消除这种误解，为移动设备摄像头的图像质量评估提供一套标准化的框架和工具，帮助消费者和制造商在不同品牌和型号之间进行客观比较。

主要内容包括：

图像质量属性的量化：标准涵盖了多个关键图像质量属性，如空间频率响应（SFR）、色度水平、颜色一致性、局部几何畸变（LGD）、横向色差（LCD）、纹理模糊和视觉噪声等。每个属性都有详细的测试方法和计算步骤。
测试条件和设备：详细规定了测试环境的要求，包括温度、湿度、照明条件、测试图表和相机设置等，以确保测试结果的准确性和可重复性。
主观评估方法学：除了客观测量，标准还强调了主观评估的重要性，并提供了如何通过软拷贝质量尺（softcopy quality ruler）等工具进行主观评价的指导。
视频质量评估：包括对视频抖动、运动模糊以及自动曝光和白平衡收敛时间的评估，提供了一套框架来评估视频质量，尽管目前尚未包括主观质量损失的计算。

在这里插入图片描述

ASIQ旨在制定汽车自动驾驶领域的应用标准，提供了包括测试方法、评估指标和报告要求在内的全面框架，为汽车制造商、系统集成商和组件供应商提供跨行业的共同参考点。

标准文档中强调了汽车应用对图像质量的特殊要求，如宽视场、高动态范围（HDR）和更宽的工作温度范围等，并讨论了现有标准在汽车领域应用中的不足，例如

现有标准难以覆盖汽车摄像头在HDR模式下的性能，尤其是在处理复杂场景时（如强光直射、阴影区域的细节保留等）。
现有标准未充分考虑汽车应用中常见的宽视场镜头（如鱼眼镜头）的特殊投影模型（如等距投影、等立体角投影等）。
现有标准无法准确评估NIR波段下的信噪比、动态范围和图像质量。
现有标准在处理光源闪烁（如LED光源的PWM调光）和光斑（如强光引起的散射和杂散光）时存在不足。
等等，并讨论了本标准如何通过引入特定的测试方法来解决这些问题。

文中重点涉及了包括空间频率响应、动态范围、几何校准验证、噪声、对比度性能指标（CTA）、光斑（flare）和闪烁（flicker） 等多个图像质量因素的详细测试方法。强调了测试条件的一致性，包括光源特性、环境温度、相机设置等，以确保测试结果的可重复性和可靠性。

在这里插入图片描述

其价值在于充分考虑了汽车应用中的挑战，并提供了一套统一的图像质量评估方法，有助于消除不同供应商和制造商之间评估结果的差异，促进了汽车行业的标准化。

3、ICC/CIE: International Color Consortium

国际色彩联盟（ICC）是在1993年由八家公司发起成立的，旨在创造通用的色彩管理系统，专注于颜色表征和计算的标准化，并使之可以通行于不同操作系统和软件的国际组织。

国际照明委员会（CIE ）是由国际照明工程领域中光源制造、照明设计和光辐射计量测试机构组成的非政府间多学科的世界性学术组织，是技术、科学、文化方面的非营利组织。CIE基于人的眼睛对RGB的反应，提出了多种颜色系统和颜色空间，如CIE 1931 XYZ系统，CIELAB颜色空间，及其他标准CIE 166-2005《认知颜色》、CIE 168:2005《扩展色域颜色编码评估标准》等。

ICC和CIE的工作成果包括标准化的跨平台设备配置文件格式、ICC配置文件、CIELAB色彩空间和多数色差特征。

4、EMVA: European Machine Vision Association

欧洲机器视觉协会（EMVA）成立于2003年，是一个非营利性和非商业性的国际组织，旨在促进机器视觉技术的发展和应用。

随着机器视觉技术的快速发展，用户对成像性能的准确评估和比较需求日益增长。EMVA应运而生，致力于为机器视觉行业制定统一的性能评估标准。

其制定了EMVA 1288标准，这是EMVA最具影响力的成果之一，是一种用于评价相机性能的国际标准，涵盖了量子效率、总增益、暗场噪声、饱和容量、绝对灵敏度、动态范围、最大信噪比等关键参数的测试方法。后续版本中还加入了对HDR（高动态范围）和宽视场相机的测试方法，以适应技术的发展。

EMVA 1288标准已被中国CMVU、美国AIA、日本JIIA、德国VDMA等各大相关行业组织接受与支持，成为国际通用的图像传感器与相机性能测试的行业标准。

小结

标准部分建议看看ISO的IQ标准、IEEE的CPIQ标准和CIE颜色标准，均为行业内主流的标准，熟悉像质基本表征指标的概念，有助于视觉算法和影像产品的开发。

📑商业化评测机构简介

1、Image Engineering

公司成立于 1995 年，是全球知名的图像质量测试设备制造商。其产品和解决方案围绕 290 多张测试图卡，以及基于 iQ-LED 光源技术的照明设备等，可评估相机分辨率、畸变、Flare 等诸多图像质量因素。开发了 iQ-Automator 等先进解决方案，实现测试自动化，还可通过 iQ-Analyzer 分析软件对图像质量测试结果进行全面客观分析。

此外，其参与了 ISO Technical Committee 42、IEEE-P2020、IEC 62676-5 等多个国际标准的制定和更新。IE提供了全面的图像质量测试设备和软件，能满足各行业对图像质量的多种测试需求。广泛应用于摄影、手机、汽车和 ADAS 系统、安防、广播、机器视觉、医疗 / 内窥镜检查、扫描仪等多个领域。

在这里插入图片描述

(图片源：https://www.image-engineering.de/library/image-quality)

2、Imatest

公司成立于 2004 年，是图像质量测试领域的设计生产商。Imatest 软件是其核心产品，相信做影像产品的人基本都对该软件了解一二。

Imatest软件配合测试卡，可检测相机和镜头的锐度、噪音、色差等，如利用 SFR 模块检测相机和镜头的 MTF 性能等。它还拥有颜色一致性、畸变、均匀性等多种测试功能，能生成图像文件用于打印测试图，也可用于检测打印机等相关设备的质量。在数码相机、手机摄像头、工业相机等领域应用广泛，与众多相机及设备制造商有合作关系

在这里插入图片描述

（图片源：https://www.imatest.com/imaging/iqfactors/）

3、DXOMARK

DXOMARK是一家独立的法国科技公司，成立于2003年，也是智能手机摄像头、屏幕、音频、电池以及其他消费电子产品（如相机和音箱等）质量评估的国际领导者。华为、OPPO、iPhone、小米等知名品牌手机均有在DXOMARK中做过测评。

10多年来，DXOMARK一直致力于通过制定行业标准，激励制造商创新和开发产品，进而提升终端用户的消费体验。DXOMARK也已经涉足除相机和智能手机之外的其他行业: 车载摄像头、网络摄像头、视觉监控设备、无人机等。

目前其制定的《智能手机影像测试基准》已更新至第五版。下图可见其评价维度和类型非常丰富，涵盖了主客观评价。

在这里插入图片描述
（图片源：走进智能手机影像测试基准 (第五版) - DXOMARK）

小结

工业界的IQA是以评价成像系统为主，考虑因素更全，形成了各自的综合性像质评价解决方案。
需要考虑系统模块间的促进和互斥关系，例如噪声和锐度。
建议想进入影像行业的同学，有时间仔细研读一下上述标准和评价方案。😊

IQA未来发展趋势

至此，相信大家应该已然清楚，没有绝对通用的评价指标。其实，IQA更像是由各种指标组成的一张网，覆盖了大部分图像应用，并朝更受关注的方向“编织”延伸。在AI技术的加持下，视觉感知应用将会更加广泛，IQA也必然会有新的发展。

基于上述内容，本节梳理了以下几个可能的发展方向（仅供参考）：

无参考IQA的鲁棒性和细粒度提升
如今AI生成图像、Al生成内容和用户生成内容越来越普遍，且现实中绝大部分图像数据都缺乏真实参考，因此NR-IQA必然是研究重点之一。当前迫切需要有针对各种感知失真类型（如生成伪影、错误语义、不协调特征等内容）而设计的NR-1QA模型，以有效鉴别各类低质量Generation Image.
多模态IQA探索
即利用多种模态信息（如视觉、文本、语音等）来联合评估图像内容质量。可通过结合图像和描述该图像的文本来综合评价图像的美学、视觉保真度或语义一致性等。（图片+文字描述，如“这张风景照是否具备丰富的真实纹理，且构图是否合理？“）

其核心在于利用不同模态间的互补性，突破传统单模态评价的局限性，给IQA模型赋予更多信息。在真实场景中，图像常伴有文字描述，故多模态評价更符合实际应用需求，且具有更强的灵活性。
可解释性IQA研究
可解释性一直非常重要但也很欠缺，纯靠算法或模型给出单一指标并不具备足够的可信度。若IQA模型能够同时输出例如视觉量著性图、归因分析解释等多形式质量评分依据，可让评价结果更令人信服。
垂直领域定制IQA深化
不同行业需求多样化，对视觉质量的要求自然不尽相同。例如工业质检，追求高精度，主要关注微小细节的表征质量；医疗影像，追求真实性，主要关注伪影问题和清晰度是否足够：自动驾驶，追求鲁棒性，主要关注动态环境中的图像自适应能力；文娱媒体，追求美学与内容，主要关注构图、色调和语义一致性等艺术表征。

还有其他一些细分方向值得探索，如轻量化实时在线IQA等。

总结

其实已有很多优秀的学者总结梳理了IQA的发展历史，并基于多种技术方案做了清晰的分类，让他人能够快速熟悉IQA的技术框架和演进过程。这些资料都非常有价值，本文基于这些参考资料，重新整理并大致介绍了IQA技术在各领域的发展和应用。后续将会对一些有价值或有意思的IQA指标进行详细分析和讲解。感兴趣的朋友可以关注一下。

IQA即能成为图像技术的引路灯，也可能成为图像技术的枷锁。在这场AI技术变革中，我们不可盲目追逐，更不可被困于旧框架之中。需因地制宜、顺势而为，去选择或创造合适的IQA，来指引图像技术的创新之路，让我们的成果更有价值、更受认可。共勉。

参考资料

IQA综述：
《2025 A Survey on Image Quality Assessment：Insights, Analysis, and Future Outlook》
《2022 A Survey on Image Quality Assessment》
NTIRE IQA赛事：
NTIRE 2021 Challenge on Perceptual Image Quality Assessment
NTIRE 2022 Challenge on Perceptual Image Quality Assessment
NTIRE 2024 Challenge on Deep Portrait Quality Assessment
NTIRE 2024 Quality Assessment of AI-Generated Content Challenge
NTIRE 2025 challenge on Text to Image Generation Model Quality Assessment
IQA数据集：
PIPAL
PIQ23
AIGIQA-20K
IQ机构：
imatest
DXOMARK
Image Quality