图像质量评价(Image Quality Assessment,IQA)
文章目录
- 图像质量评价(Image Quality Assessment,IQA)
- 一、评估方式:主观评估 + 客观评估
- 1.1、主观评估方式
- 1.2、客观评估方式:全参考 + 半参考 + 无参考
- (1)全参考的方法对比(Full-Reference IQA,FR-IQA)
- (2)半参考的方法对比(Reduced-Reference IQA,RR-IQA)
- (3)无参考的方法对比(No-Reference / Blind IQA,NR-IQA)
- 1.3、常用公开IQA数据集对比表
图像质量评价(Image Quality Assessment,IQA)
图像质量评价指标(Image Quality Assessment, IQA)
:是衡量图像在主观感受或客观性能上的一组量化标准,常用于图像增强、压缩、重建、去噪等任务的效果评估。
图像质量评估:维基百科
图像质量评价:百度百科
图像质量评价(每个方法的论文简介与链接)
图像质量评估综述
- 质量评估可分为:
- 图像质量评估IQA
- 视频质量评估VQA
- IQA方法从宏观上可分为:
主观评价
:依赖人工评分,尽管准确性高、符合人眼视觉系统(HVS)偏好,但成本昂贵、效率低下,难以适配大规模自动化系统。客观评价
:则以数学模型自动预测图像质量,广泛应用于工业与科研领域,是当前主流研究方向。- 从参考图像可用性角度,IQA又分为三类:
FR-IQA(全参考):借助无失真参考图像,计算其与原始图像的差异
,方法成熟、性能稳定,但对实际应用受限(因多数情况下参考图像缺失)。RR-IQA(半参考):只有原始图像的部分信息或从参考图像中提取的部分特征
,在性能与适用性之间折中。NR-IQA(无参考):仅依赖待评估图像本身,不需要参考图像
,应用最广但难度最大,当前是研究热点。
一、评估方式:主观评估 + 客观评估
评估方式 | 简介 | 特点与对比维度 |
---|---|---|
主观评估(Subjective IQA) | 基于真实观察者的视觉感知,由人类主观对图像质量进行评分,常用指标包括MOS(平均意见得分)与DMOS(差异意见得分)。需要通过标准化实验环境和统计方法获取大量人评分。 | - ✅ 精度最高,最符合人眼感知 - ❌ 可复现性差,结果易受主观因素干扰 - ❌ 成本高,需招募被试并控制实验环境 - ❌ 实时性差,无法快速得出结果 - ❌ 难以部署,通常用于数据库标注与模型基准 |
客观评估(Objective IQA) | 通过数学模型或算法自动估算图像质量分数,目标是尽可能逼近主观得分,具有可重复性和实时性。根据参考图像的使用程度分为FR(全参考)、RR(半参考)、NR(无参考)三类,是当前研究热点。 | - ✅ 可复现、稳定性强 - ✅ 成本低,自动处理大规模图像 - ✅ 实时性好,支持在线或终端部署 - ✅ 可广泛应用于图像压缩、增强、采集质量控制等场景 - ⚠ 精度依赖模型质量,NR方法尤其具有挑战性 |
1.1、主观评估方式
方法类型 | 简要说明 | 评分输出 | 应用场景 |
---|---|---|---|
MOS(平均意见得分) | 多人打分后取平均分 | 1 ~ 5 或 0 ~ 100 | 训练NR-IQA模型,构建图像质量数据集 |
DMOS(差分MOS) | 与原始图像评分的差值,反映质量劣化程度 | 通常为正数 | TID2013、CSIQ等主观差分数据集 |
单刺激法(SS) | 仅展示失真图像进行评分 | 相对主观 | KonIQ-10k, LIVE Wild等 |
双刺激法(DSCQS) | 参考图与失真图并排显示,受试者对失真程度打分 | 相对准确 | LIVE、CSIQ、TID系列 |
三选一法(3AFC) | 三图中选出质量最好/最差者,构建排序关系用于学习 | 构造对比样本对 | DeepIQA排序训练等 |
1.2、客观评估方式:全参考 + 半参考 + 无参考
类别 | 全称(英文) | 是否需要参考图像 | 输入信息 | 输出结果 | 代表算法/模型 | 常见评价指标 | 常用数据集 | 优势描述 | 劣势描述 | 典型应用场景 |
---|---|---|---|---|---|---|---|---|---|---|
FR-IQA | Full Reference IQA | ✅ 全参考 | 原图 + 失真图 | 两图之间的相似性得分 | PSNR、SSIM、MS-SSIM、FSIM、VIF | PSNR, SSIM, MSE | LIVE, TID2013, CSIQ, KADID-10k | 精度高,计算逻辑清晰,结果可对齐主观感知 | 依赖原图,实际部署难 | 编解码优化、图像增强算法调试 |
RR-IQA | Reduced Reference IQA | ✅ 半参考 | 失真图 + 原图特征或统计量 | 与参考特征的相似性得分 | RRED、DNT、NRQM(部分) | JS差异, KL散度, 差值指标 | TID2013, LIVE, SIQAD | 节省传输成本,精度优于NR,兼顾应用性与性能 | 仍需传输部分特征,模型通用性不足 | 视频传输评估、带宽受限下的图像监控 |
NR-IQA | No Reference IQA / Blind IQA | ❌ 无参考 | 单张失真图 | 图像质量得分(预测值) | BRISQUE、NIQE、PIQE、DeepBIQ、HyperIQA等 | MOS(主观分数) | KonIQ-10k, SPAQ, CLIVE, LIVE Wild | 无需参考图,可用于实际图像质量预测部署 | 难以保证泛化能力,训练依赖主观评分数据集 | 医疗图像质检、无人监督场景 |
(1)全参考的方法对比(Full-Reference IQA,FR-IQA)
方法名 | 核心指标 | 是否模型训练 | 主要思想 | 优点 | 缺点 | 适用场景 |
---|---|---|---|---|---|---|
MSE / PSNR | 均方误差 / 峰值信噪比 | 否 | 逐像素差异/误差量度 | 简单高效,便于实现 | 不符合人眼感知;不具备感知鲁棒性 | 压缩、编码等低层处理 |
SSIM | 结构相似度 Structural Similarity | 否 | 考察亮度、对比度与结构信息 | 模拟视觉机制,感知一致性更好 | 对几何变化、伪影不敏感 | 编解码质量评估 |
MS-SSIM | 多尺度结构相似度 | 否 | 多分辨率层次感知 | 更贴近人眼感知层级 | 计算略复杂 | 高清视频/图像质量评价 |
VIF | 信息保真度 Visual Information Fidelity | 否 | 源图像/失真图像的信息量比率 | 信息论基础,评价可靠性高 | 理论复杂,耗时较长 | 图像传输、压缩失真评估 |
FSIM | 特征相似度 Feature SIM | 否 | 考察相位一致性、梯度强度 | 敏感性高,鲁棒性好 | 不适合大规模计算 | 图像增强质量评价 |
LPIPS | 感知相似度 Learned Perceptual Image Patch Similarity | 是(深度模型) | 提取CNN特征后计算相似度 | 感知特性强,视觉一致性高 | 模型依赖重、需GPU | 超分辨、风格迁移、图像复原等任务 |
(2)半参考的方法对比(Reduced-Reference IQA,RR-IQA)
方法名 | 参考特征类型 | 是否训练模型 | 方法特点 | 优点 | 缺点 | 适用场景 |
---|---|---|---|---|---|---|
RRED | 局部统计量(DCT能量特征) | 否 | 基于变换域的熵率与视觉冗余度估计 | 精度高,接近FR-IQA | 特征提取依赖参考图像,计算复杂 | 通信系统图像质量反馈 |
DNT-RR | DCT统计特征 | 否 | 仅传输部分统计特征用于质量预测 | 传输代价低,可嵌入实际系统 | 失真类型覆盖范围有限 | 网络图像编码传输 |
Wavelet-Q | 小波能量子带统计量 | 否 | 局部频域统计特征构建质量指标 | 可解释性强,计算高效 | 对某些失真鲁棒性不足 | 通信协议/嵌入式视频传输 |
RR-FSIM | 相位一致性+幅度统计特征 | 否 | 对FSIM简化,只提取部分参考特征 | 接近FR精度,传输成本低 | 对特征选择依赖高 | 视频会议、直播质量评估 |
RR-NSS | 自然场景统计参数 | 否 | 利用自然图像统计模型压缩参考图像信息 | 适应性强 | 不适合非自然图像 | 工业检测、远程图像识别等场景 |
(3)无参考的方法对比(No-Reference / Blind IQA,NR-IQA)
🚀 NR-IQA研究现状
- 传统统计方法阶段(2010年以前)
代表方法如BIQI、DIIVINE、BRISQUE等,依赖自然图像统计(NSS)特征,使用SVM或贝叶斯回归模型实现质量预测。该阶段研究具有可解释性强、计算代价低等优点,但泛化能力有限。- 数据驱动阶段(2013年起)
随着深度学习发展,基于CNN的NR-IQA方法如CORNIA、NIMA、DeepBIQ等不断涌现,能够从图像中自动学习判别特征,主观一致性显著提升。此类方法在主观评分预测、跨数据库泛化等方面取得较好效果,但对数据依赖严重、可解释性差。- Transformer与自监督阶段(2020年至今)
新一代方法引入Vision Transformer结构(如MANIQA、TReS、MUSIQ)或自监督学习(如CONTRIQUE),提升跨场景泛化能力与语义建模能力。当前最先进模型普遍在多个公开数据集(如LIVE、TID2013、KonIQ-10k、CLIVE等)上取得了优异成绩,开始接近甚至超过主观一致性下限。
方法名称 | 首次提出 | 模型类型 | 特征类型 | 是否训练 | 适用失真类型 | 主观一致性 | 优点 | 局限性 | 应用场景 |
---|---|---|---|---|---|---|---|---|---|
NIQE (Natural Image Quality Evaluator) | 2013 | 传统统计模型 | NSS(自然场景统计) | 否 | 泛化失真(无需训练数据) | 中等 | 无需训练、计算高效 | 对特定失真不敏感,主观一致性不高 | 快速筛选、质量控制 |
BRISQUE (Blind/Referenceless Image Spatial Quality Evaluator) | 2012 | SVM回归 | NSS特征(空域) | 是 | 模糊、压缩等常见失真 | 高 | 轻量级、主观一致性较高 | 需训练样本,失真类型受限 | 通用图像评估 |
BLIINDS-II (Blind Image Integrity Notator using DCT Statistics) | 2011 | 贝叶斯回归 | NSS(频域DCT) | 是 | 模糊、噪声等 | 中等 | 频域分析精细 | 提取DCT特征耗时、训练依赖性 | 视频压缩质量监测 |
CORNIA (Codebook Representation for No-Reference IQA) | 2013 | 机器学习 | 原始图块+无监督特征学习 | 是 | 多种失真 | 高 | 结合深层表示 | 对内容敏感,训练成本高 | 图像增强前后质量评估 |
HOSA (Higher Order Statistics Aggregation) | 2015 | 无监督统计 | 特征聚合(SVD+高阶矩) | 是 | 各类失真 | 高 | 无需深度网络,适应性强 | 参数敏感,训练集依赖 | 医学图像质量分析 |
DIIVINE | 2011 | SVM | NSS(空间+小波域) | 是 | 多类失真 | 高 | 空间-频域联合 | 特征维度高,训练成本大 | 图像处理算法评估 |
IL-NIQE | 2015 | 无监督 | NSS + 亮度不变性 | 否 | 各类失真 | 中等 | 无训练集依赖,稳定性强 | 泛化能力有限 | 嵌入式图像监控设备 |
NIMA (Neural Image Assessment) | 2017 | CNN回归 | 全图输入(Inception) | 是 | 主观美学/质量 | 高 | 可预测MOS分布,美学兼顾 | 训练代价高 | 图像美学质量评分 |
DeepBIQ | 2016 | CNN分类+回归 | 局部图块+深度特征 | 是 | 泛化强 | 高 | 利用深层特征,有效预测 | 黑盒问题,计算量大 | 手机拍照图像优化 |
RankIQA | 2017 | Siamese网络 | Siamese排序特征 | 是 | 多类失真 | 高 | 模拟评分过程,更接近人感知 | 排序数据构建复杂 | 图像优化排序任务 |
DBCNN | 2018 | CNN分类回归 | VGG16 + 评分网络 | 是 | 各类失真 | 高 | 精度高,可回归MOS | 需要大量数据 | 通用图像质量评分 |
CONTRIQUE | 2021 | Transformer+NSS | NSS嵌入 + 自监督学习 | 是 | 泛化失真(无监督) | 高 | 利用NSS嵌入鲁棒性强 | 网络复杂 | 零样本质量估计 |
MANIQA | 2022 | Vision Transformer | 局部块 + 全局注意力 | 是 | 泛化强 | 极高 | 高分辨率支持,跨数据集表现好 | 模型参数多 | 高端视觉质量分析 |
1.3、常用公开IQA数据集对比表
数据集名称 | 类型 | 图像数(参考/失真) | 失真类型 | 主观评分 | 特点简介 |
---|---|---|---|---|---|
LIVE [官网] | FR-IQA | 29 / 779 | 模糊、压缩、噪声、快门抖动等5类 | DMOS | 最早最广泛使用的数据集之一;包含真实失真与评分,广泛用于FR-IQA评估基准。 |
CSIQ [官网] | FR-IQA | 30 / 866 | 6类失真×不同强度 | DMOS | 图像与失真类型更丰富;主观得分离散性较小;与LIVE互补。 |
TID2013 [官网] | FR-IQA | 25 / 3000 | 24种失真×5级强度 | MOS | 非常全面的数据集;失真种类多,适合训练与泛化测试。 |
TID2008 | FR-IQA | 25 / 1700 | 17类失真 | MOS | TID2013前身,失真较少但结构相似。 |
KADID-10k [官网] | FR-IQA | 81 / 10,125 | 25类失真×不同强度 | MOS | 图像种类多、失真复杂,适合深度学习模型训练。 |
CID2013 | FR-IQA | 474 / 474 | 实拍设备失真 | MOS | 强调真实场景采集(拍照质量);图像尺寸大,适合真实感知建模。 |
Waterloo IAA [官网] | FR-IQA | 4744 / 94,880 | 常见压缩与噪声等失真 | 无主观得分 | 用于无参考方法的无监督训练或构造合成失真;大规模。 |
KonIQ-10k [官网] | NR-IQA | — / 10,073 | 自然图像,真实失真 | MOS | 高分辨率自然图像;图像来源广泛,适合NR-IQA训练;包含多维质量因子标注。 |
CLIVE [官网] | NR-IQA | — / 1,162 | 拍摄图像中自然失真 | MOS | 强调移动端/手持拍摄自然图像质量;适合盲质量评价建模。 |
SPAQ [论文] | NR-IQA | — / 11,125 | 高质量自然失真图像 | MOS | 更具挑战性,真实感强;含曝光/色彩/对比等因素。 |
FLIVE | NR-IQA | — / 39,000+ | 自然采集图像 | MOS | 最大规模真实图像质量数据集之一,适用于深度NR-IQA模型训练。 |
📌 说明:
- FR-IQA(Full Reference):提供参考图像与失真图像,可用于全参考算法对比。
- NR-IQA(No Reference):无参考图像,难度更高,适合实际部署情境。
- MOS/DMOS:主观评分标准,分别代表“平均意见分数”“差异平均意见分数”。