当前位置：首页 > news >正文

Wasserstein 距离（Wasserstein Distance）

news 2025/10/23 4:17:45

Wasserstein 距离（Wasserstein Distance），也称为Earth Mover's Distance（EMD），是一种用于衡量两个概率分布之间差异的度量方法。它起源于最优传输理论，描述了将一个分布“搬移”成另一个分布所需的最小“工作量”。

一、直观理解

假设有两个分布 $P$ 和 $Q$ ，分别代表两堆土。Wasserstein 距离描述的是将 $P$ 这堆土“搬移”成 $Q$ 这堆土所需的最小代价。这里的“代价”通常用距离和搬运的土量来定义。

数学定义:对于两个概率分布 $P$ 和 $Q$ ，Wasserstein 距离可以定义为：

$W_p(P, Q) = \left( \inf_{\gamma \in \Gamma(P, Q)} \int_{X \times Y} d(x, y)^p \, d\gamma(x, y) \right)^{1/p}$

其中：

$d(x, y)$ 是 $x$ 和 $y$ 之间的距离（通常使用欧几里得距离）。

$Gamma(P, Q)$ 是 $P$ 和 $Q$ 的所有联合分布的集合。

$gamma(x, y)$ 是联合分布，表示从 $x$ 搬运到 $y$ 的“土量”。

$p$ 是一个参数，通常取 $p=1$ 或 $p=2$ 。

当 $p=1$ 时，称为1-Wasserstein 距离，是最常用的形式：

$W_1(P, Q) = \inf_{\gamma \in \Gamma(P, Q)} \int_{X \times Y} d(x, y) \, d\gamma(x, y)$

二、Wasserstein 距离的优点

1. 能够衡量不重叠分布的距离：传统的距离度量（如 KL 散度、JS 散度）在两个分布没有重叠时可能会失效（例如 KL 散度趋于无穷大），而 Wasserstein 距离仍然能够有效衡量分布之间的差异。

2. 反映分布的几何结构：Wasserstein 距离考虑了分布之间的空间关系，能够捕捉分布的几何特性（如形状、位置等）。

3. 适用于低维和高维空间：Wasserstein 距离在低维和高维空间中都有良好的表现，尤其是在生成模型（如 GANs）中。

三、Wasserstein 距离在 GANs 中的应用

在生成对抗网络（GANs）中，Wasserstein 距离被用作损失函数，称为 **Wasserstein GAN（WGAN）。WGAN 的主要改进包括：

1.使用 Wasserstein 距离作为损失函数：传统的 GANs 使用 JS 散度或 KL 散度作为损失函数，容易导致训练不稳定或模式崩溃。Wasserstein 距离能够提供更平滑的梯度，改善训练稳定性。

2. 引入权重裁剪或梯度惩罚：为了满足 Wasserstein 距离的 Lipschitz 连续性条件，WGAN 通过权重裁剪或梯度惩罚（如 WGAN-GP）来约束判别器的梯度。

四、Wasserstein 距离的计算

在实际应用中，Wasserstein 距离的计算通常比较复杂，尤其是对于高维分布。常用的近似方法包括：

1. 对偶形式：通过 Kantorovich-Rubinstein 对偶性，将 Wasserstein 距离转化为一个优化问题：

$W_1(P, Q) = \sup_{\|f\|_L \leq 1} \left( \mathbb{E}_{x \sim P}[f(x)] - \mathbb{E}_{x \sim Q}[f(x)] \right)$

其中 $f$ 是一个满足 1-Lipschitz 条件的函数。

2. Sinkhorn 算法：通过引入熵正则化，使用 Sinkhorn 迭代算法高效计算 Wasserstein 距离。

Wasserstein 距离是一种强大的概率分布度量方法，能够有效衡量分布之间的差异，尤其在分布不重叠或几何结构复杂时表现优异。它在生成对抗网络（GANs）中的应用显著改善了模型的训练稳定性和生成质量。尽管计算复杂度较高，但通过近似方法（如对偶形式或 Sinkhorn 算法），Wasserstein 距离在实际问题中得到了广泛应用。

查看全文

http://www.dtcms.com/a/39502.html