当前位置：首页 > news >正文

复习两个与噪声有关的参数：SI-SDR和PESQ

news 2025/9/25 15:34:17

说明

在开发和测试降噪算法的过程中，不论是使用传统降噪算法，还是现在新的机器学习的降噪算法，非常重要的一环就是eval，那我们在评估一个语音信号算法的时候，几个常见参数是我们需要关注的。

SI-SDR
PESQ（Perceptual Evaluation of Speech Quality）
STOI（Short-Time Objective Intelligibility）
CSIG、CBAK、COVL（来自 P.862.2 标准）
MOS（Mean Opinion Score）

接下来简单总结和理解一下几个常见参数

一、SI-SDR

在说明什么是SI-SDR之前，需要了解什么是SDR：

SDR（Signal-to-Distortion Ratio）：传统信噪比指标，衡量总信号能量与失真能量的比值，但对信号缩放敏感。

· SDR 核心定义

SDR 计算的是原始干净信号的能量与处理过程中引入的失真能量的比值，公式如下：

$\cdot \log_{10}\left(\frac{||\mathbf{s}||^{2}}{||\mathbf{e}||^{2}}\right)$

其中，s 是原始干净信号（参考信号），e 是误差信号（处理后信号与原始信号的差值），||·||² 表示信号的能量（L2 范数的平方）

注：L2范式的表达如下：
假设
$s=[s1,s2,s3,...,sN]T\mathbf{s} = [s_1, s_2, s_3, ..., s_N]^T$

则 $∣∣s∣∣=∑n=1Nsn2||\mathbf{s}|| = \sqrt{\sum_{n=1}^{N} s_n^2}$

误差信号 $e\mathbf{e}$ 是估计信号 $s^\hat{\mathbf{s}}$ 与原始信号 $s\mathbf{s}$ 的差值： $e=s^−s\mathbf{e} = \hat{\mathbf{s}} - \mathbf{s}$ ，其平方 $∣∣e∣∣2||\mathbf{e}||^2$ 代表估计误差的总能量。

总结SDR:

比值 $∣∣s∣∣2∣∣e∣∣2\frac{||\mathbf{s}||^{2}}{||\mathbf{e}||^{2}}$ 是信扰比。SDR 值（以分贝 dB 表示）越高，说明信号失真越小。

SI-SDR的改进和对比

SDR 在计算时允许对估计信号进行任意缩放，这会导致评分失真。其实从公式上就可以很自然的得到结论，在测试的时候尺度的不同会导致这个比值同步的放大，这个SDR的值会跟着幅度相对的移动，这显然不是我们想要的，所以对此，我们需要在进行SDR计算之前，对语音信号进行一个相对应的幅度缩放：

· 核心思想：

核心思想：在计算误差之前，先将估计信号 $s^\hat{\mathbf{s}}$ 投影到原始信号 $s\mathbf{s}$ 上，找到与 $s\mathbf{s}$ 最匹配的尺度分量。然后，误差只来自于与 $s\mathbf{s}$ 垂直的失真分量。

定义如下：

计算投影（尺度分量）：找到估计信号 $s^\hat{\mathbf{s}}$ 在原始信号 $s\mathbf{s}$ 方向上的投影。这相当于找到一个最佳缩放系数 $α\alpha$ ，使得 $αs\alpha\mathbf{s}$ 最接近 $s^\hat{\mathbf{s}}$ 。
这里的 $⟨s^,s⟩∣∣s∣∣2\frac{\langle \hat{\mathbf{s}}, \mathbf{s} \rangle}{||\mathbf{s}||^2}$ 就是最佳缩放系数 $α\alpha$ 。
计算误差（失真分量）：从估计信号中减去上面的投影部分，剩下的就是失真。
$eresidual=s^−starget\mathbf{e}_{\text{residual}} = \hat{\mathbf{s}} - \mathbf{s}_{\text{target}}$
计算 SI-SDR：使用投影后的信号能量除以失真信号的能量。 $SI-SDR=10⋅log⁡10(∣∣starget∣∣2∣∣eresidual∣∣2)SI\text{-}SDR = 10 \cdot \log_{10}\left(\frac{||\mathbf{s}_{\text{target}}||^{2}}{||\mathbf{e}_{\text{residual}}||^{2}}\right)$

SI-SDR最终公式：

$SI-SDR=10⋅log⁡10(∣∣αs∣∣2∣∣s^−αs∣∣2)=10⋅log⁡10((sTs^)2∣∣s∣∣2 ∣∣s^∣∣2−(sTs^)2)SI\text{-}SDR = 10 \cdot \log_{10} \left( \frac{ || \alpha \mathbf{s} ||^2 }{ || \hat{\mathbf{s}} - \alpha \mathbf{s} ||^2 } \right) = 10 \cdot \log_{10} \left( \frac{ (\mathbf{s}^T \hat{\mathbf{s}}) ^2 }{ ||\mathbf{s}||^2 \, ||\hat{\mathbf{s}}||^2 - (\mathbf{s}^T \hat{\mathbf{s}})^2 } \right)$