Wasserstein 距离(Wasserstein Distance)
Wasserstein 距离(Wasserstein Distance),也称为Earth Mover's Distance(EMD),是一种用于衡量两个概率分布之间差异的度量方法。它起源于最优传输理论,描述了将一个分布“搬移”成另一个分布所需的最小“工作量”。
一、直观理解
假设有两个分布和
,分别代表两堆土。Wasserstein 距离描述的是将
这堆土“搬移”成
这堆土所需的最小代价。这里的“代价”通常用距离和搬运的土量来定义。
数学定义:对于两个概率分布和
,Wasserstein 距离可以定义为:
其中:
是
和
之间的距离(通常使用欧几里得距离)。
是
和
的所有联合分布的集合。
是联合分布,表示从
搬运到
的“土量”。
是一个参数,通常取
或
。
当时,称为1-Wasserstein 距离,是最常用的形式:
二、Wasserstein 距离的优点
1. 能够衡量不重叠分布的距离:传统的距离度量(如 KL 散度、JS 散度)在两个分布没有重叠时可能会失效(例如 KL 散度趋于无穷大),而 Wasserstein 距离仍然能够有效衡量分布之间的差异。
2. 反映分布的几何结构:Wasserstein 距离考虑了分布之间的空间关系,能够捕捉分布的几何特性(如形状、位置等)。
3. 适用于低维和高维空间:Wasserstein 距离在低维和高维空间中都有良好的表现,尤其是在生成模型(如 GANs)中。
三、Wasserstein 距离在 GANs 中的应用
在生成对抗网络(GANs)中,Wasserstein 距离被用作损失函数,称为 **Wasserstein GAN(WGAN)。WGAN 的主要改进包括:
1.使用 Wasserstein 距离作为损失函数:传统的 GANs 使用 JS 散度或 KL 散度作为损失函数,容易导致训练不稳定或模式崩溃。Wasserstein 距离能够提供更平滑的梯度,改善训练稳定性。
2. 引入权重裁剪或梯度惩罚:为了满足 Wasserstein 距离的 Lipschitz 连续性条件,WGAN 通过权重裁剪或梯度惩罚(如 WGAN-GP)来约束判别器的梯度。
四、Wasserstein 距离的计算
在实际应用中,Wasserstein 距离的计算通常比较复杂,尤其是对于高维分布。常用的近似方法包括:
1. 对偶形式:通过 Kantorovich-Rubinstein 对偶性,将 Wasserstein 距离转化为一个优化问题:
其中是一个满足 1-Lipschitz 条件的函数。
2. Sinkhorn 算法:通过引入熵正则化,使用 Sinkhorn 迭代算法高效计算 Wasserstein 距离。
Wasserstein 距离是一种强大的概率分布度量方法,能够有效衡量分布之间的差异,尤其在分布不重叠或几何结构复杂时表现优异。它在生成对抗网络(GANs)中的应用显著改善了模型的训练稳定性和生成质量。尽管计算复杂度较高,但通过近似方法(如对偶形式或 Sinkhorn 算法),Wasserstein 距离在实际问题中得到了广泛应用。