TNNLS-2025《Metric Learning-Based Subspace Clustering》
2. 核心思想 (Core Idea)
这篇论文的核心思想是将度量学习(Metric Learning)与子空间聚类(Subspace Clustering)深度融合,以解决现有自表达式(Self-expressive)子空间聚类方法的根本性缺陷。
具体来说,作者指出了一个关键问题:
- 现有方法的矛盾:主流的子空间聚类方法(如SSC, LRR)依赖于“线性化假设”(linearization assumption),即用数据集 XXX 中的其他样本线性组合来表示一个样本 xi≈Xfix_i \approx X f_ixi≈Xfi。
- 现实数据的复杂性:真实世界的数据通常存在于一个复杂的非线性流形(nonlinear manifold)上,而不是一个简单的线性空间。
- 核心矛盾:直接在原始非线性数据上应用线性表示,其系数 fijf_{ij}fij 只能近似地反映样本间的线性相似性,无法精确刻画。这导致学习到的相似度矩阵 FFF 不够理想,影响了最终的聚类效果。
为了解决这个“在非线性流形上强行进行线性表示”的矛盾,作者提出了**度量学习-子空间聚类(Metric Learning-based Subspace Clustering, MLSC)**框架。其核心思想是:
“先投影,后表示”:
- 第一步(投影):设计一个可学习的、感知线性的距离度量(Linearity-aware Distance)。这个度量能将原始的非线性流形上的数据,有效地投影到一个更适合进行线性操作的“线性流形空间”上。
- 第二步(表示):在这个被“线性化”了的新空间里,再应用自表达式策略。此时,线性化假设与数据的实际结构更加匹配,因此能够学习到更精确、更理想的相似度矩阵。
简而言之,MLSC通过度量学习“为自表达式创造一个理想的线性环境”,从而建立起度量学习与自表达式之间的“本质联系”。
3. 目标函数 (Objective Function)
论文提出的MLSC模型的目标函数如下:
minP,G,F∑i=1n∑j=1nDistP2(xi,xj)gij+α∥G∥F2+β∥F∥F2
\min_{P, G, F} \sum_{i=1}^{n} \sum_{j=1}^{n} \text{Dist}_P^2(x_i, x_j) g_{ij} + \alpha \|G\|_F^2 + \beta \|F\|_F^2
P,G,Fmini=1∑nj=1∑nDistP2(xi,xj)gij+α∥G∥F2+β∥F∥F2
s.t. G=GF,gi⊤1=1,0≤gij≤1
\text{s.t. } G = GF, \quad g_i^\top \mathbf{1} = 1, \quad 0 \leq g_{ij} \leq 1
s.t. G=GF,gi⊤1=1,0≤gij≤1
目标函数解析:
- DistP(xi,xj)\text{Dist}_P(x_i, x_j)DistP(xi,xj):这是论文提出的核心——感知线性距离(Linearity-aware Distance)。它被定义为:
DistP(x,y)=[1−(x−x^)⊤P⊤P(y−y^)∥P(x−x^)∥2∥P(y−y^)∥2]1/2 \text{Dist}_P(x, y) = \left[1 - \frac{(x - \hat{x})^\top P^\top P(y - \hat{y})}{\|P(x - \hat{x})\|_2 \|P(y - \hat{y})\|_2}\right]^{1/2} DistP(x,y)=[1−∥P(x−x^)∥2∥P(y−y^)∥2(x−x^)⊤P⊤P(y−y^)]1/2
其中 P∈Rh×dP \in \mathbb{R}^{h \times d}P∈Rh×d 是一个可学习的投影矩阵,x^\hat{x}x^ 和 y^\hat{y}y^ 是样本的均值。这个距离本质上是投影后数据的余弦距离的变体,但它被设计成一个真正的度量(满足非负性、对称性、三角不等式),并且其值能准确反映线性相关程度(定理2证明了当距离为0时,两样本完全正相关;为2\sqrt{2}2时,完全负相关)。 - gijg_{ij}gij:这是自适应邻域学习(Adaptive Neighbors Learning)中的邻接图权重,表示样本 iii 和 jjj 之间的相似度。
- 第一项 ∑i,jDistP2(xi,xj)gij\sum_{i,j} \text{Dist}_P^2(x_i, x_j) g_{ij}∑i,jDistP2(xi,xj)gij:这是度量学习与图学习的结合。它要求在感知线性距离小的样本对(即线性相关性强的样本)之间,其图权重 gijg_{ij}gij 应该大。这相当于用“线性相似性”来指导图 GGG 的构建。
- 第二项 α∥G∥F2\alpha \|G\|_F^2α∥G∥F2:对图 GGG 进行Frobenius范数正则化,鼓励图结构的平滑性。
- 第三项 β∥F∥F2\beta \|F\|_F^2β∥F∥F2:对自表达式系数矩阵 FFF 进行Frobenius范数正则化(回归正则化),避免平凡解。
- 约束 G=GFG = GFG=GF:这是自表达式约束。它表明图 GGG 的每一行 gig_igi 可以由系数矩阵 FFF 线性表示,这正是子空间聚类的核心思想。
- 约束 gi⊤1=1,0≤gij≤1g_i^\top \mathbf{1} = 1, 0 \leq g_{ij} \leq 1gi⊤1=1,0≤gij≤1:保证图 GGG 是一个有效的相似度图(行和为1,权重在0-1之间)。
4. 目标函数的详细优化过程
由于目标函数包含三个变量 P,G,FP, G, FP,G,F,且问题非凸,作者采用交替方向乘子法(ADMM进行优化。首先,为了处理约束 G=GFG = GFG=GF,引入一个辅助变量 HHH,将原问题转化为:
minP,G,H,F∑i=1n∑j=1nDistP2(xi,xj)gij+α∥H∥F2+β∥F∥F2
\min_{P, G, H, F} \sum_{i=1}^{n} \sum_{j=1}^{n} \text{Dist}_P^2(x_i, x_j) g_{ij} + \alpha \|H\|_F^2 + \beta \|F\|_F^2
P,G,H,Fmini=1∑nj=1∑nDistP2(xi,xj)gij+α∥H∥F2+β∥F∥F2
s.t. H=HF,G=H,gi⊤1=1,0≤gij≤1
\text{s.t. } H = HF, \quad G = H, \quad g_i^\top \mathbf{1} = 1, \quad 0 \leq g_{ij} \leq 1
s.t. H=HF,G=H,gi⊤1=1,0≤gij≤1
对应的增广拉格朗日函数为:
L(P,G,H,F)=∑i,jDistP2(xi,xj)gij+α∥H∥F2+β∥F∥F2+μ2(∥H−HF+1μW(1)∥F2+∥G−H+1μW(2)∥F2) \mathcal{L}(P, G, H, F) = \sum_{i,j} \text{Dist}_P^2(x_i, x_j) g_{ij} + \alpha \|H\|_F^2 + \beta \|F\|_F^2 + \frac{\mu}{2} \left( \|H - HF + \frac{1}{\mu} W^{(1)}\|_F^2 + \|G - H + \frac{1}{\mu} W^{(2)}\|_F^2 \right) L(P,G,H,F)=i,j∑DistP2(xi,xj)gij+α∥H∥F2+β∥F∥F2+2μ(∥H−HF+μ1W(1)∥F2+∥G−H+μ1W(2)∥F2)
其中 W(1)W^{(1)}W(1) 和 W(2)W^{(2)}W(2) 是拉格朗日乘子,μ\muμ 是惩罚参数。
优化过程按以下步骤交替进行:
-
更新 PPP:固定 G,H,FG, H, FG,H,F,优化 PPP。
- 问题简化为:minP∑i,jDistP2(xi,xj)gij\min_P \sum_{i,j} \text{Dist}_P^2(x_i, x_j) g_{ij}minP∑i,jDistP2(xi,xj)gij。
- 由于该函数关于 PPP 不是凸的,作者采用梯度下降法进行优化。
- 更新公式为:P←P−η∂L(P)∂PP \leftarrow P - \eta \frac{\partial \mathcal{L}(P)}{\partial P}P←P−η∂P∂L(P),其中 η\etaη 是学习率。
-
更新 FFF:固定 P,G,HP, G, HP,G,H,优化 FFF。
- 问题简化为:minF∥(H+1μW(1))−HF∥F2+2βμ∥F∥F2\min_F \| (H + \frac{1}{\mu} W^{(1)}) - HF \|_F^2 + \frac{2\beta}{\mu} \|F\|_F^2minF∥(H+μ1W(1))−HF∥F2+μ2β∥F∥F2。
- 这是一个标准的岭回归(Ridge Regression问题。
- 存在闭式解(Closed-form Solution):
F⋆=12β(I+μH⊤H)−1(μH⊤H+H⊤W(1)) F^\star = \frac{1}{2\beta} (I + \mu H^\top H)^{-1} (\mu H^\top H + H^\top W^{(1)}) F⋆=2β1(I+μH⊤H)−1(μH⊤H+H⊤W(1))
-
更新 HHH:固定 P,G,FP, G, FP,G,F,优化 HHH。
- 问题是一个关于 HHH 的凸优化问题。
- 通过对拉格朗日函数求导并令导数为0,可以得到其闭式解:
H⋆=(W(1)−W(1)F⊤−μG−W(2))(μF+F⊤+FF⊤−2(α+μ)I)−1 H^\star = (W^{(1)} - W^{(1)}F^\top - \mu G - W^{(2)}) (\mu F + F^\top + FF^\top - 2(\alpha + \mu)I)^{-1} H⋆=(W(1)−W(1)F⊤−μG−W(2))(μF+F⊤+FF⊤−2(α+μ)I)−1
-
更新 GGG:固定 P,H,FP, H, FP,H,F,优化 GGG。
- 问题为:
minG∑i,jDistP2(xi,xj)gij+μ2∥G−H+1μW(2)∥F2s.t. gi⊤1=1,0≤gij≤1 \min_G \sum_{i,j} \text{Dist}_P^2(x_i, x_j) g_{ij} + \frac{\mu}{2} \|G - H + \frac{1}{\mu} W^{(2)}\|_F^2 \quad \text{s.t. } g_i^\top \mathbf{1} = 1, 0 \leq g_{ij} \leq 1 Gmini,j∑DistP2(xi,xj)gij+2μ∥G−H+μ1W(2)∥F2s.t. gi⊤1=1,0≤gij≤1 - 该问题可以分解为 nnn 个独立的子问题。对每个样本 iii,求解:
mingi∥gi+1μki∥22s.t. gi⊤1=1,0≤gij≤1 \min_{g_i} \|g_i + \frac{1}{\mu}k_i\|_2^2 \quad \text{s.t. } g_i^\top \mathbf{1} = 1, 0 \leq g_{ij} \leq 1 gimin∥gi+μ1ki∥22s.t. gi⊤1=1,0≤gij≤1
其中 kik_iki 是一个与 DistP2\text{Dist}_P^2DistP2 和 W(2)W^{(2)}W(2) 相关的向量。 - 这是一个典型的带单纯形约束的投影问题。作者采用拉格朗日乘子法求解,最终解的形式为:
gij⋆=max(k~ij−z⋆,0) g_{ij}^\star = \max(\tilde{k}_{ij} - z^\star, 0) gij⋆=max(k~ij−z⋆,0)
其中 z⋆z^\starz⋆ 是通过求解一个一维的凸函数 ϕ(z)=0\phi(z)=0ϕ(z)=0 来确定的,这里使用了牛顿法。
- 问题为:
-
更新乘子和惩罚参数:
- 更新拉格朗日乘子:
{W(1)←W(1)+μ(H−HF)W(2)←W(2)+μ(G−H) \begin{cases} W^{(1)} \leftarrow W^{(1)} + \mu (H - HF) \\ W^{(2)} \leftarrow W^{(2)} + \mu (G - H) \end{cases} {W(1)←W(1)+μ(H−HF)W(2)←W(2)+μ(G−H) - 更新惩罚参数 μ\muμ(通常以一定比率增加,如 μ←min(νμ,μmax)\mu \leftarrow \min(\nu\mu, \mu_{\max})μ←min(νμ,μmax))。
- 更新拉格朗日乘子:
该过程不断迭代,直到收敛。
5. 主要贡献点 (Main Contributions)
论文在摘要和引言中明确指出了四大贡献:
-
提出了可学习的感知线性距离(Linearity-aware Distance):
- 该距离不仅能准确衡量样本间的线性相关程度(理论证明),而且是一个真正的可学习的度量(满足度量的所有性质,尤其是三角不等式),这弥补了传统皮尔逊相关系数作为距离度量的不足。
-
提出了首个将度量学习融入子空间聚类的框架(MLSC):
- 这是该研究最核心的创新。MLSC通过度量学习将数据投影到线性流形空间,从而完美契合了自表达式的线性化假设,建立了两者间的本质联系。
-
设计了一个实用的集成框架:
- 该框架统一了度量学习(学习 PPP)、图学习(学习 GGG)和子空间聚类(学习 FFF),三者协同工作,信息共享,共同优化。
-
在多个基准数据集上取得了优越的性能:
- 实验结果表明,MLSC在聚类准确率(ACC)和归一化互信息(NMI)上均优于现有的度量学习型和谱聚类型子空间聚类方法。
6. 算法实现过程详解
根据论文的Algorithm 1,MLSC的完整实现过程如下:
-
输入与初始化:
- 输入:数据集 X∈Rd×nX \in \mathbb{R}^{d \times n}X∈Rd×n,聚类数 kkk,超参数 α,β\alpha, \betaα,β。
- 初始化:将 G,H,F,W(1),W(2)G, H, F, W^{(1)}, W^{(2)}G,H,F,W(1),W(2) 初始化为零矩阵。随机初始化投影矩阵 PPP。设置学习率 η\etaη、惩罚参数 μ\muμ 及其最大值 μmax\mu_{\max}μmax、收敛阈值 ϵ\epsilonϵ 等。
-
迭代优化循环:
- 更新 PPP:使用梯度下降法,根据公式 P←P−η∂L∂PP \leftarrow P - \eta \frac{\partial \mathcal{L}}{\partial P}P←P−η∂P∂L 更新投影矩阵 PPP。这一步让模型学习如何将原始数据映射到一个线性关系更明显的空间。
- 更新 FFF:使用闭式解公式计算新的自表达式系数矩阵 FFF。这一步基于当前的图 HHH 来更新表示系数。
- 更新 HHH:使用闭式解公式计算新的辅助变量 HHH。这一步综合了正则化、自表达式约束和与 GGG 的一致性约束。
- 更新 GGG:对于每个样本 iii,计算向量 kik_iki,然后通过求解 ϕ(z)=0\phi(z)=0ϕ(z)=0 得到 z⋆z^\starz⋆,最后根据 gij⋆=max(k~ij−z⋆,0)g_{ij}^\star = \max(\tilde{k}_{ij} - z^\star, 0)gij⋆=max(k~ij−z⋆,0) 更新图 GGG 的第 iii 行。这一步用感知线性距离来“雕刻”相似度图。
- 更新乘子和参数:根据ADMM规则更新拉格朗日乘子 W(1),W(2)W^{(1)}, W^{(2)}W(1),W(2) 和惩罚参数 μ\muμ。
- 检查收敛:计算 ∥H−HF∥F2\|H - HF\|_F^2∥H−HF∥F2 和 ∥G−H∥F2\|G - H\|_F^2∥G−H∥F2,如果两者都小于阈值 ϵ\epsilonϵ,则停止迭代。
-
输出聚类结果:
- 当算法收敛后,得到最终的最优表示矩阵 F⋆F^\starF⋆。
- 构建亲和度矩阵(Affinity Matrix):S=12(∣F⋆∣+∣F⋆∣⊤)S = \frac{1}{2}(|F^\star| + |F^\star|^\top)S=21(∣F⋆∣+∣F⋆∣⊤),这确保了矩阵的对称性。
- 在亲和度矩阵 SSS 上应用谱聚类(Spectral Clustering算法,将其划分为 kkk 个簇,最终得到聚类标签。
整个算法流程清晰地体现了“通过度量学习构建理想线性环境,再在此环境下进行自表达式学习”的设计哲学。
这个公式是论文中提出的感知线性距离(Linearity-aware Distance),它是一个核心的创新点。我们来详细解析其含义。
该公式的目的是:衡量两个数据样本 xxx 和 yyy 之间的“线性相关性”程度,并将其转化为一个符合度量标准的距离值。
让我们分解这个公式:
DistP(x,y)=[1−(x−x^)⊤P⊤P(y−y^)∥P(x−x^)∥2∥P(y−y^)∥2]1/2 \text{Dist}_P(x, y) = \left[1 - \frac{(x - \hat{x})^\top P^\top P (y - \hat{y})}{\|P(x - \hat{x})\|_2 \|P(y - \hat{y})\|_2} \right]^{1/2} DistP(x,y)=[1−∥P(x−x^)∥2∥P(y−y^)∥2(x−x^)⊤P⊤P(y−y^)]1/2
1. 核心思想:基于皮尔逊相关系数的变形
这个公式的核心灵感来源于皮尔逊相关系数(Pearson Correlation Coefficient)。皮尔逊相关系数衡量的是两个变量之间线性关系的强度和方向,其值域为 [-1, 1]。
- 完全正相关 (Perfect Positive Correlation): 值为 +1。
- 无相关性 (No Correlation): 值为 0。
- 完全负相关 (Perfect Negative Correlation): 值为 -1。
然而,皮尔逊相关系数本身不是一个距离度量,因为它不满足三角不等式。而本论文的目标是设计一个能准确反映线性相关性的可学习度量(Learnable Metric)。因此,作者对皮尔逊相关系数进行了改造。
2. 公式各部分的含义
- x,yx, yx,y: 这是两个原始的数据样本(向量)。
- x^,y^\hat{x}, \hat{y}x^,y^: 这是样本 xxx 和 yyy 的均值。具体定义为 x^=1d∑i=1dxi\hat{x} = \frac{1}{d}\sum_{i=1}^{d} x_ix^=d1∑i=1dxi 和 y^=1d∑i=1dyi\hat{y} = \frac{1}{d}\sum_{i=1}^{d} y_iy^=d1∑i=1dyi。减去均值是为了消除数据的平移影响,只关注它们的相对变化趋势。
- (x−x^),(y−y^)(x - \hat{x}), (y - \hat{y})(x−x^),(y−y^): 这是样本 xxx 和 yyy 的中心化向量。它们代表了数据在去除整体水平后的波动部分。
- P∈Rh×dP \in \mathbb{R}^{h \times d}P∈Rh×d: 这是一个可学习的投影矩阵。这是整个方法的关键。它将原始的 ddd 维数据投影到一个新的 hhh 维潜在空间(latent space)中。通过学习 PPP,模型可以自动发现一个更适合进行线性分析的空间。
- P(x−x^),P(y−y^)P(x - \hat{x}), P(y - \hat{y})P(x−x^),P(y−y^): 这是经过投影矩阵 PPP 变换后的中心化向量。这一步是将原始数据映射到一个“线性化”的新空间。
- 分子 (x−x^)⊤P⊤P(y−y^)(x - \hat{x})^\top P^\top P (y - \hat{y})(x−x^)⊤P⊤P(y−y^): 这是投影后向量的内积。它衡量了两个向量在投影空间中的相似性(或说共线性)。如果这个值很大,说明两个向量在新空间中方向一致。
- 分母 ∥P(x−x^)∥2∥P(y−y^)∥2\|P(x - \hat{x})\|_2 \|P(y - \hat{y})\|_2∥P(x−x^)∥2∥P(y−y^)∥2: 这是两个投影后向量的模长(L2范数)的乘积。它用于归一化内积,使其成为一个范围在 [-1, 1] 之间的余弦相似度。
- 分数部分 (x−x^)⊤P⊤P(y−y^)∥P(x−x^)∥2∥P(y−y^)∥2\frac{(x - \hat{x})^\top P^\top P (y - \hat{y})}{\|P(x - \hat{x})\|_2 \|P(y - \hat{y})\|_2}∥P(x−x^)∥2∥P(y−y^)∥2(x−x^)⊤P⊤P(y−y^): 这就是投影空间中的余弦相似度。它的值越接近 1,表示两个样本在新空间中越相似(正相关);越接近 -1,表示越相反(负相关);越接近 0,表示越不相关。
3. 距离的构建
最后,公式用 1
减去这个相似度,再取平方根:
- 当两个样本在投影空间中完全正相关时,相似度为 1,那么
1-1=0
,所以距离为 0。 - 当两个样本在投影空间中完全负相关时,相似度为 -1,那么
1-(-1)=2
,所以距离为 2\sqrt{2}2。 - 当两个样本在投影空间中完全不相关时,相似度为 0,那么
1-0=1
,所以距离为 1。
4. 总结:公式的物理意义
综合来看,这个公式 Dist_P(x, y)
的含义是:
在通过可学习的投影矩阵 PPP 将数据转换到一个潜在的线性流形空间后,计算样本 xxx 和 yyy 在这个新空间中的“线性距离”。这个距离的大小直接反映了它们在新空间中的线性相关性:距离越小,线性相关性越强(包括同向或反向);距离越大,线性相关性越弱。
这个设计巧妙地解决了传统自表达式方法在非线性数据上强行进行线性表示的问题。它首先通过度量学习(学习 PPP)将数据“线性化”,然后再在这个理想的线性空间里进行自表达式学习,从而建立起度量学习与自表达式策略的内在联系。