Wasserstein 距离:记紧空间 Ω \Omega Ω 上的所有概率分布组成的空间为 P ( Ω ) \mathcal{P}(\Omega) P(Ω),设分布 P , Q ∈ P ( Ω ) P,Q\in \mathcal{P}(\Omega) P,Q∈P(Ω),随机变量 X , Y X,Y X,Y 分布服从分布 P , Q P,Q P,Q,设 J ( P , Q ) \mathcal{J}(P,Q) J(P,Q) 表示随机向量 ( X , Y ) (X,Y) (X,Y) 的所有联合分布,即任意联合分布 J ∈ J ( P , Q ) J\in \mathcal{J}(P,Q) J∈J(P,Q) 的边缘分布为 P , Q P,Q P,Q,Wasserstein 距离定义为 W p ( P , Q ) = ( inf J ∈ J ( P , Q ) ∫ Ω × Ω ∥ x − y ∥ p d J ( x , y ) ) 1 p (1) W_{p}(P, Q)=\left(\inf _{J \in \mathcal{J}(P, Q)} \int_{\Omega \times \Omega}\|x-y\|^{p} d J(x, y)\right)^{\frac{1}{p}} \tag{1} Wp(P,Q)=(J∈J(P,Q)inf∫Ω×Ω∥x−y∥pdJ(x,y))p1(1)
直观来看,Wasserstein 距离就是在所有把分布 P P P 变为 Q Q Q 的联合分布(搬运方案)中,期望搬运代价的最小值
如图所示,任意联合分布 J J J 可以看作把分布 P P P 转换为分布 Q Q Q 的一种方式。联合分布 J J J 上任意一点 J ( x , y ) J(x,y) J(x,y) 可以看作将来自 P P P 的概率质量的一部分从位置 x x x 搬运到 Q Q Q 的位置 y y y 的方式,即图中红色线
积分 ∫ Ω × Ω ∥ x − y ∥ p d J ( x , y ) \int_{\Omega \times \Omega}\|x-y\|^{p} d J(x, y) ∫Ω×Ω∥x−y∥pdJ(x,y) 可以理解为 “按照分配方案 J J J 把分布 P P P 搬运成分布 Q Q Q 所需的平均搬运成本,其中从 x x x 到 y y y 的 “搬运” 代价为 ∥ x − y ∥ p \|x-y\|^{p} ∥x−y∥p,被搬运的概率质量为 J ( x , y ) J(x,y) J(x,y)