当前位置: 首页 > news >正文

深度学习——图像相似度评价指标

这里写目录标题

  • PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)
    • 定义
    • 公式
    • 代码
  • SSIM
  • MS-SSIM (Multi Scale Structural Similarity Index Measure,多尺度结构相似性)
  • CSS (Contrast-Structure Similarity 对比结构相似度)
  • MAE
  • FID
  • 补充协方差
  • 参考文献

PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)

定义

峰值信噪比(PeakSignal toNoiseRatio,PSNR),表示的是信号的最大功率与噪声功率的比值。峰值信噪比越高,表示噪声影响越小;峰值信噪比越低,表示噪声影响越大,单位是分贝dB。PSNR是基于像素值的全局评估,不考虑图像的结构信息

  1. PSNR接近50dB:表示压缩后的图像质量非常高,仅有非常小的误差。在这种情况下,原始图像和压缩后的图像之间的差异几乎不可察觉。
  2. PSNR大于30dB:通常认为,人眼很难察觉到这种压缩水平下图像的失真。这意味着压缩后的图像在视觉上与原始图像非常接近。
  3. PSNR介于20dB到30dB之间:在这个范围内,人眼可以开始察觉到图像的一些差异,但这些差异通常不会太显著。
  4. PSNR介于10dB到20dB之间:在这个范围内,人眼可以较为明显地看出图像的差异,但仍然可以辨识出图像的基本结构。尽管存在失真,但人们可能仍然会认为两张图像是相似的。
  5. PSNR低于10dB:当PSNR值非常低时,图像的质量会显著下降,以至于人眼很难判断两个图像是否为同一场景的图像,或者一个图像是否为另一个图像的有效压缩版本。

公式

假设原始图像是 x x x,生成图像是 y y y,图像大小是 H × W H \times W H×W,两张图像的均方差公式 ( M S E ) (MSE) (MSE)定义为: M S E = 1 H W ∑ i = 0 H − 1 ∑ j = 0 W − 1 ( x i j − y i j ) 2 MSE=\frac{1}{HW}\sum_{i=0}^{H-1}\sum_{j=0}^{W-1}(x_{ij}-y_{ij})^2 MSE=HW1i=0H1j=0W1(xijyij)2 我们假设图像是 B B B位图像,像素的最大值 M A X = 2 B − 1 MAX=2^B-1 MAX=2B1,例如如果是8位图像,图像最大值为255, P S N R PSNR PSNR的公式可以定义为:
P S N R = 10 l o g 10 ( M A X 2 M S E ) PSNR=10 log_{10}(\frac{MAX^2}{MSE}) PSNR=10log10(MSEMAX2)

代码

from PIL import Image
import numpy as np

def psnr(img1, img2):
    mse = np.mean((img1-img2)**2)
    if mse == 0:
        return float('inf')
    else:
        return 20*np.log10(255/np.sqrt(mse))
        
if __name__ == "__main__":
	img1 = np.array(Image.open('original.jpg')).astype(np.float64)
	img2 = np.array(Image.open('compress.jpg')).astype(np.float64)
    print(psnr(img1, img2))

SSIM

我们假设原图为 x x x,生成图像为 y y y.其均值和方差分别为 μ x , μ y , σ x , σ y \mu_x,\mu_y,\sigma_x,\sigma_y μx,μy,σx,σy。他们的协方差为 σ x , y \sigma_{x,y} σx,y,我们从三个角度考虑图像的相似度,亮度(luminance)对比度(contrast)结构(structure)

亮度相似度比较: l ( x , y ) = 2 μ x μ y + c 1 μ x 2 + μ y 2 + c 1 l(x,y)=\frac{2\mu_x\mu_y+c_1}{\mu_x^2+\mu_y^2+c_1} l(x,y)=μx2+μy2+c12μxμy+c1

对比相似度比较: c ( x , y ) = 2 σ x σ y + c 2 σ x 2 + σ y 2 + c 2 c(x,y)=\frac{2\sigma_x\sigma_y+c_2}{\sigma_x^2+\sigma_y^2+c_2} c(x,y)=σx2+σy2+c22σxσy+c2

结构相似度比较: s ( x , y ) = σ x y + c 3 σ x σ y + c 3 s(x,y)=\frac{\sigma_{xy}+c_3}{\sigma_x\sigma_y+c_3} s(x,y)=σxσy+c3σxy+c3

S S I M = l ( x , y ) c ( x , y ) s ( x , y ) = ( 2 μ x μ y + c 1 ) ( 2 σ x , y + c 2 ) ( μ x 2 + μ y 2 + c 1 ) ( σ x 2 + σ y 2 + c 2 ) SSIM=l(x,y)c(x,y)s(x,y)=\frac{(2\mu_x\mu_y+c_1)(2\sigma_{x,y}+c_2)}{(\mu_x^2+\mu_y^2+c_1)(\sigma_x^2+\sigma_y^2+c_2)} SSIM=l(x,y)c(x,y)s(x,y)=(μx2+μy2+c1)(σx2+σy2+c2)(2μxμy+c1)(2σx,y+c2)

其中 c 1 , c 2 , c 3 c_1,c_2,c_3 c1,c2,c3是稳定除法运算的常数, c 1 = ( k 1 L ) 2 , c 2 = ( k 2 L ) 2 , c 3 = c 2 / 2 c_1=(k_1L)^2 ,c_2=(k_2L)^2,c_3=c_2/2 c1=(k1L)2,c2=(k2L)2,c3=c2/2, L L L是像素值的动态范围 2 B − 1 2^B-1 2B1,默认值: k 1 = 0.01 , k 2 = 0.03 k_1=0.01,k_2=0.03 k1=0.01,k2=0.03

然而,上面的 SSIM 不能用于一整幅图。因为在整幅图的跨度上,均值和方差往往变化剧烈;同时图像上不同区块的失真程度也有可能不同,不能一概而论;此外类比人眼睛每次只能聚焦于一处的特点,作者采用 sliding window 以步长为 1 计算两幅图各个对应 sliding window 下的 patch 的 SSIM,然后取平均值作为两幅图整体的 SSIM,称为 Mean SSIM,简写为 M-SSIM。代码中,计算每个 patch 的均值和方差时,作者采用了方差为 1.5 的高斯卷积核作加权平均,滑窗大小为 11*11 ,如果整幅图有 M 个 patch,那么 Mean-SSIM 公式为:
M e a n − S S I M = 1 M ∑ m M S S I M ( x p a t c h , y p a t c h ) Mean-SSIM=\frac{1}{M}\sum_m^MSSIM(x_{patch},y_{patch}) MeanSSIM=M1mMSSIM(xpatch,ypatch)

MS-SSIM (Multi Scale Structural Similarity Index Measure,多尺度结构相似性)

MS-SSIM(多尺度结构相似性指数)是SSIM(结构相似性指数)的扩展版本,用于评估图像质量。它通过多个尺度来捕捉图像的结构信息,从而更全面地评估图像相似度。MS-SSIM的公式如下:

MS-SSIM ( x , y ) = [ l M ( x , y ) ] α M ⋅ ∏ j = 1 M [ c j ( x , y ) ] β j ⋅ [ s j ( x , y ) ] γ j \text{MS-SSIM}(x, y) = [l_M(x, y)]^{\alpha_M} \cdot \prod_{j=1}^{M} [c_j(x, y)]^{\beta_j} \cdot [s_j(x, y)]^{\gamma_j} MS-SSIM(x,y)=[lM(x,y)]αMj=1M[cj(x,y)]βj[sj(x,y)]γj

其中:

  • x x x y y y 分别是待比较的两幅图像。
  • $ M $ 是尺度的总数。
  • l M ( x , y ) l_M(x, y) lM(x,y) 是在第 M 个尺度上的亮度比较。
  • c j ( x , y ) c_j(x, y) cj(x,y)是在第 j 个尺度上的对比度比较。
  • s j ( x , y ) s_j(x, y) sj(x,y) 是在第 j 个尺度上的结构比较。
  • α M \alpha_M αM, β j \beta_j βj, 和 γ j \gamma_j γj 是权重参数,用于调整各部分的贡献。

CSS (Contrast-Structure Similarity 对比结构相似度)

CSS是SSIM的一个变体,去除了SSIM中的亮度这一项,
C S S ( x , y ) = 2 σ x y + c σ x 2 + σ y 2 + c CSS(x,y)=\frac{2\sigma_{xy}+c}{\sigma_x^2+\sigma_y^2+c} CSS(x,y)=σx2+σy2+c2σxy+c

MAE

图像相似度计算中,MAE(Mean Absolute Error,平均绝对误差)是一种常用的指标,用于衡量两幅图像之间的差异。MAE 的计算公式如下:

MAE = 1 H W ∑ i = 0 H − 1 ∑ i = 0 W − 1 ∣ x i , j − y i , j ∣ \text{MAE} = \frac{1}{HW} \sum_{i=0}^{H-1} \sum_{i=0}^{W-1}|x_{i,j} - y_{i,j}| MAE=HW1i=0H1i=0W1xi,jyi,j

FID

FID(Fréchet Inception Distance)是一种用于评估生成图像质量的指标,尤其在生成对抗网络(GAN)中广泛应用。它通过比较生成图像与真实图像的统计特征来衡量相似度。

FID = ∥ μ g − μ r ∥ 2 + Tr ( Σ g + Σ r − 2 ( Σ g Σ r ) 1 / 2 ) \text{FID} = \|\mu_g - \mu_r\|^2 + \text{Tr}(\Sigma_g + \Sigma_r - 2(\Sigma_g \Sigma_r)^{1/2}) FID=μgμr2+Tr(Σg+Σr2(ΣgΣr)1/2)

  • 其中, ∥ μ g − μ r ∥ 2 \|\mu_g - \mu_r\|^2 μgμr2是均值差的平方, Tr \text{Tr} Tr 是矩阵的迹。

补充协方差

两张图像的协方差公式用于衡量它们之间的线性关系。对于图像 x x x y y y,假设它们的大小均为 H × W H \times W H×W,协方差公式如下:

σ ( x , y ) = 1 H W ∑ i = 0 H − 1 ∑ j = 0 W − 1 ( x i j − μ x ) ( y i j − μ y ) \sigma(x, y) = \frac{1}{HW} \sum_{i=0}^{H-1} \sum_{j=0}^{W-1} (x_{ij} - \mu_x)(y_{ij}- \mu_y) σ(x,y)=HW1i=0H1j=0W1(xijμx)(yijμy)

其中: x ( i , j ) x(i,j) x(i,j) y ( i , j ) y(i,j) y(i,j)分别是图像 x x x y y y在像素点 ( i , j ) (i,j) (i,j)处的灰度值。 μ x \mu_x μx μ y \mu_y μy分别是图像 x x x y y y的均值,计算公式为:
μ x = 1 H W ∑ i = 0 H − 1 ∑ j = 0 W − 1 x i j , μ y = 1 H W ∑ i = 0 H − 1 ∑ j = 0 W − 1 y i j \mu_x = \frac{1}{HW} \sum_{i=0}^{H-1} \sum_{j=0}^{W-1} x_{ij}, \quad \mu_y = \frac{1}{HW} \sum_{i=0}^{H-1} \sum_{j=0}^{W-1} y_{ij} μx=HW1i=0H1j=0W1xij,μy=HW1i=0H1j=0W1yij
协方差为正表示两图像变化趋势一致,为负则表示变化趋势相反,接近零则表明两者无明显线性关系。

参考文献

https://zhuanlan.zhihu.com/p/661510928
https://blog.csdn.net/sinat_29957455/article/details/125119550
https://zhuanlan.zhihu.com/p/622244511
代码实现SSIM,MS-SSIM,

相关文章:

  • busybox的终端图形化界面菜单
  • 电缆接地电流监测系统,为电力稳定运行保驾护航
  • Linux进程间通信
  • 《Java到Go的平滑转型指南》
  • HTML CSS JS官方文档
  • Camera2 实现重力感应四个方向调试相机预览
  • [学习笔记] VM虚拟机安装Ubuntu系统
  • SpringMVC_day02
  • 【清华大学】AIGC发展研究(3.0版)
  • ROS导航工具包Navigation
  • Scikit-learn模型评估全流程解析:从数据划分到交叉验证优化
  • Java-模块二-2
  • 【MySQL】从零开始:掌握MySQL数据库的核心概念(三)
  • 音视频学习(三十):fmp4
  • 深入浅出JVM性能优化:从理论到实践
  • string kmp java
  • 高频SQL50题 第四天 | 1251. 平均售价、620. 有趣的电影、1075. 项目员工 I、1633. 各赛事的用户注册率
  • Ubuntu修改Swap交换空间大小
  • 2.创建Collection、添加索引、加载内存、预览和搜索数据
  • 【动态规划】按摩师
  • 通往国际舞台之路:清政府与万国公会的交往
  • 混乱的5天:俄乌和谈如何从充满希望走向“卡壳”
  • 远洋集团:今年前4个月销售80.9亿元,同比增加13.62%
  • 中国—美国经贸合作对接交流会在华盛顿成功举行
  • 端午假期购票日历发布,今日可购买5月29日火车票
  • 秦洪看盘|指标股发力,A股渐有突破态势