SSIM、PSNR、LPIPS、MUSIQ、NRQM、NIQE 六个图像质量评估指标
评价指标
1. SSIM(Structural Similarity Index)
📌 定义
结构相似性指数(Structural Similarality Index)是一种衡量两幅图像相似性的指标,考虑了亮度、对比度和结构信息的相似性,比传统的 PSNR 更接近人眼视觉感知。
🔧 计算方法
SSIM 的公式如下:
SSIM ( x , y ) = ( 2 μ x μ y + C 1 ) ( 2 σ x y + C 2 ) ( μ x 2 + μ y 2 + C 1 ) ( σ x 2 + σ y 2 + C 2 ) \text{SSIM}(x, y) = \frac{(2\mu_x\mu_y + C_1)(2\sigma_{xy} + C_2)}{(\mu_x^2 + \mu_y^2 + C_1)(\sigma_x^2 + \sigma_y^2 + C_2)} SSIM(x,y)=(μx2+μy2+C1)(σx2+σy2+C2)(2μxμy+C1)(2σxy+C2)
- 参数说明:
- μ x , μ y \mu_x, \mu_y μx,μy:图像 x x x 和 y y y 的局部均值(亮度)。
- σ x , σ y \sigma_x, \sigma_y σx,σy:局部标准差(对比度)。
- σ x y \sigma_{xy} σxy:局部协方差(结构信息)。
- C 1 , C 2 C_1, C_2 C1,C2:稳定系数,防止分母为零(通常 C 1 = ( 0.01 L ) 2 C_1 = (0.01L)^2 C1=(0.01L)2, C 2 = ( 0.03 L ) 2 C_2 = (0.03L)^2 C2=(0.03L)2, L L L 为像素最大值)。
- 计算步骤:
- 将图像划分为多个局部窗口(通常为 11 × 11 11 \times 11 11×11)。
- 计算每个窗口的 μ x , μ y , σ x , σ y , σ x y \mu_x, \mu_y, \sigma_x, \sigma_y, \sigma_{xy} μx,μy,σx,σy,σxy。
- 代入公式计算每个窗口的 SSIM 值。
- 对所有窗口的 SSIM 值取平均,得到整体 SSIM。
📌 数值范围:[0, 1]
- 1:两幅图像完全相同,质量最佳。
- 0.9-1:图像质量非常好,几乎无失真。
- 0.7-0.9:图像质量良好,结构相似性较高。
- 0.5-0.7:图像质量一般,存在明显结构差异。
- 0.3-0.5:图像质量较差,结构差异显著。
- 0-0.3:图像质量极差,可能完全失真。
📈 应用场景
- 图像压缩、去噪、超分辨率重建等任务。
- 需要关注图像结构性变化(如纹理、边缘)的场景。
✅ 优点
- 比 PSNR 更贴近人眼视觉感知。
- 能捕捉图像的局部结构信息。
❌ 缺点
- 计算复杂度较高。
- 对全局亮度差异敏感。
2. PSNR(Peak Signal-to-Noise Ratio)
📌 定义
峰值信噪比(Peak Signal-to-Noise Ratio)是一种基于 均方误差 MSE 的图像质量评估指标,衡量原始图像与失真图像之间的误差。
🔧 计算方法
PSNR = 10 ⋅ log 10 ( MAX I 2 MSE ) \text{PSNR} = 10 \cdot \log_{10}\left( \frac{\text{MAX}_I^2}{\text{MSE}} \right) PSNR=10⋅log10(MSEMAXI2)
- 参数说明:
- MAX I \text{MAX}_I MAXI:图像的最大像素值(如 8 位图像为 255)。
- MSE \text{MSE} MSE:均方误差,计算公式为:
MSE = 1 m n ∑ i = 0 m − 1 ∑ j = 0 n − 1 [ I ( i , j ) − K ( i , j ) ] 2 \text{MSE} = \frac{1}{mn} \sum_{i=0}^{m-1} \sum_{j=0}^{n-1} [I(i,j) - K(i,j)]^2 MSE=mn1i=0∑m−1j=0∑n−1[I(i,j)−K(i,j)]2
其中 m , n m,n m,n 是图像尺寸, I I I 是原始图像, K K K 是失真图像。
📌 数值范围:[0, ∞) dB
- >40 dB:图像质量极好,接近无失真。
- 30-40 dB:图像质量良好,失真可接受。
- 20-30 dB:图像质量较差,失真明显。
- <20 dB:图像质量极差,失真严重。
📈 应用场景
- 图像压缩、视频编码等传统信号处理领域。
- 需要快速评估图像质量的工业场景。
✅ 优点
- 计算简单,实现高效。
- 适用于大规模数据处理。
❌ 缺点
- 与人眼感知存在偏差,尤其在高压缩率下。
- 无法捕捉结构信息(如纹理、边缘)的损失。
3. LPIPS(Learned Perceptual Image Patch Similarity)
📌 定义
LPIPS 是一种基于深度学习的图像质量评估指标,通过预训练的卷积神经网络(如 VGG、AlexNet)提取特征,并计算特征空间中的距离。
🔧 计算方法
- 特征提取:使用预训练的 CNN 模型(如 VGG16)提取多层特征图。
- 距离计算:计算两个图像特征图的加权欧氏距离:
d LPIPS ( I 1 , I 2 ) = ∑ k w k ⋅ ∥ f k ( I 1 ) − f k ( I 2 ) ∥ N k d_{\text{LPIPS}}(I_1, I_2) = \sum_k w_k \cdot \frac{\|f_k(I_1) - f_k(I_2)\|}{N_k} dLPIPS(I1,I2)=k∑wk⋅Nk∥fk(I1)−fk(I2)∥- f k f_k fk:第 k k k 层的特征图。
- w k w_k wk:各层的权重(通过训练调整)。
- N k N_k Nk:归一化项(特征图的空间维度乘以通道数)。
- 输出:距离越小,图像越相似。
📌 数值范围:[0, ∞)
- 接近 0:图像高度相似,质量极佳。
- 0.1-0.3:图像质量良好,感知差异较小。
- 0.3-0.5:图像质量一般,存在明显差异。
- >0.5:图像质量差,差异显著。
📈 应用场景
- 图像生成(GAN)、超分辨率、图像修复等深度学习任务。
- 需要模拟人眼感知的复杂场景。
✅ 优点
- 与人眼主观评分高度相关。
- 能捕捉感知差异(如颜色、纹理、形状)。
❌ 缺点
- 依赖预训练模型,计算复杂度较高。
- 需要 GPU 加速推理。
4. MUSIQ(Multi-scale Image Quality Transformer)
📌 定义
MUSIQ 是一种基于视觉 Transformer VIT 的无参考图像质量评估模型,通过多尺度图像块学习感知质量特征。
🔧 计算方法
- 多尺度特征提取:将图像划分为多尺度块,提取局部特征。
- Transformer 编码:使用 Transformer 架构对特征进行全局建模。
- 质量评分:输出一个标量质量分数,表示图像质量。
📌 数值范围:[0, ∞)(具体范围取决于模型输出)
- 低值(如 <10):图像质量较高,接近自然图像。
- 中等值(如 10-20):图像质量一般,存在轻微失真。
- 高值(如 >20):图像质量较差,失真显著。
📈 应用场景
- 无参考图像质量评估(如图像增强、修复)。
- 需要高精度且无需参考图像的场景。
✅ 优点
- 多尺度建模能力,适应复杂图像结构。
- 无需参考图像,适合实际应用。
❌ 缺点
- 模型复杂度高,依赖 GPU 计算。
- 需要大规模训练数据。
5. NRQM(No-Reference Quality Metric)
📌 定义
NRQM 是一种基于 深度学习 的通用无参考图像质量评估模型,通过学习自然图像统计特征预测质量分数。
🔧 计算方法
- 特征提取:使用 CNN 提取图像的深层特征。
- 质量回归:通过全连接层将特征映射为质量评分。
- 输出:输出一个标量质量分数(分数越高表示质量越好)。
📌 数值范围:[0, ∞)(具体范围取决于模型输出)
- 低值:图像质量较高,自然度良好。
- 高值:图像质量较低,可能存在模糊、噪声等问题。
📈 应用场景
- 无参考图像质量评估。
- 图像生成、修复等任务的自动评估。
✅ 优点
- 无需参考图像,适合实际应用。
- 适应多种失真类型(如模糊、噪声)。
❌ 缺点
- 模型依赖训练数据,泛化能力受限。
- 计算资源消耗较大。
6. NIQE(Natural Image Quality Evaluator)
📌 定义
NIQE 是一种基于 自然场景统计特征 的无参考图像质量评估指标,使用高斯混合模型(GMM)评估图像质量。
🔧 计算方法
- 特征提取:计算图像的局部梯度直方图。
- GMM 训练:使用高质量自然图像训练 GMM 模型。
- KL 散度计算:计算测试图像与 GMM 的 KL 散度,作为质量评分。
D ( p ∣ ∣ q ) = ∫ p ( x ) log p ( x ) q ( x ) d x D(p||q) = \int p(x) \log \frac{p(x)}{q(x)} dx D(p∣∣q)=∫p(x)logq(x)p(x)dx- p ( x ) p(x) p(x):测试图像的特征分布。
- q ( x ) q(x) q(x):GMM 的标准分布。
📌 数值范围:[0, ∞)
- 接近 0:图像自然度极高,质量最佳。
- 5-8:图像质量良好,自然度较高。
- 8-12:图像质量一般,存在轻微失真。
- >12:图像质量差,自然度低,失真显著。
📈 应用场景
- 无参考图像质量评估。
- 图像增强、去噪等任务的自动评估。
✅ 优点
- 无需参考图像,适合实际应用。
- 计算效率较高。
❌ 缺点
- 依赖预训练的 GMM 模型。
- 对非自然失真(如人工压缩)适应性较弱。
总结对比表
指标 | 类型 | 是否需要参考图像 | 计算复杂度 | 与人眼感知相关性 | 适用场景 |
---|---|---|---|---|---|
SSIM | 传统指标 | ✅ 是(FR) | 中等 | 高 | 图像压缩、结构分析 |
PSNR | 传统指标 | ✅ 是(FR) | 低 | 低 | 快速评估、工业检测 |
LPIPS | 深度学习 | ✅ 是(FR) | 高 | 高 | 图像生成、超分辨率 |
MUSIQ | 深度学习 | ❌ 否(NR) | 高 | 高 | 无参考质量评估 |
NRQM | 深度学习 | ❌ 否(NR) | 高 | 高 | 无参考质量评估 |
NIQE | 传统指标 | ❌ 否(NR) | 中等 | 中 | 无参考质量评估 |
指标 | 数值范围 | 优质范围 | 低质范围 | 是否需要参考图像 | 与人眼感知相关性 |
---|---|---|---|---|---|
SSIM | [0, 1] | >0.9 | <0.5 | ✅ 是 | 高 |
PSNR | [0, ∞) dB | >40 dB | <20 dB | ✅ 是 | 低 |
LPIPS | [0, ∞) | <0.1 | >0.5 | ✅ 是 | 高 |
MUSIQ | [0, ∞) | <10 | >20 | ❌ 否 | 高 |
NRQM | [0, ∞) | 低值 | 高值 | ❌ 否 | 高 |
NIQE | [0, ∞) | <5 | >12 | ❌ 否 | 中 |
选择建议
- 需要参考图像:选择 PSNR、SSIM、LPIPS。
- 无参考图像:选择 MUSIQ、NRQM、NIQE。
- 追求人眼感知一致性:优先使用 LPIPS、MUSIQ。
- 计算效率优先:选择 PSNR、SSIM、NIQE。