PAMI-2025《Fair Clustering Ensemble With Equal Cluster Capacity》
核心思想
论文的核心思想是提出一种公平聚类集成(Fair Clustering Ensemble, FCE)方法,以解决传统聚类集成忽略公平性问题,同时针对现有群组级公平定义可能导致簇容量不均衡(即某些簇过大或过小)的缺陷。作者观察到,传统公平定义(如文献[17]中的定义)可能允许将大部分数据置于一个簇中,从而实现“完美公平”但牺牲簇均衡(如图1和图2所示的示例)。为此,作者引入了一个新的公平定义(fairness_CCE),它同时考虑公平性和簇容量均衡,并设计了一个简单有效的正则化项‖GTY‖F2‖G^T Y‖_F^2‖GTY‖F2,将其嵌入聚类集成框架中。该方法以多个基础聚类结果作为输入,生成一个公平且簇容量均衡的共识聚类结果,而无需访问原始数据特征,从而保护隐私。该方法适用于涉及人类的实际应用,如社交网络和犯罪分析,并可作为后处理框架应用于任何聚类方法。
目标函数
论文的目标函数基于聚类集成框架,结合了公平性和簇容量均衡的正则化项。给定mmm个基础聚类结果Y(1),…,Y(m)∈{0,1}n×cY^{(1)}, \dots, Y^{(m)} \in \{0,1\}^{n \times c}Y(1),…,Y(m)∈{0,1}n×c(nnn为样本数,ccc为簇数),保护群组矩阵G∈{0,1}n×TG \in \{0,1\}^{n \times T}G∈{0,1}n×T(TTT为保护群组数),以及学习变量包括权重αi\alpha_iαi、正交嵌入H∈Rn×cH \in \mathbb{R}^{n \times c}H∈Rn×c、旋转矩阵R(i),R∈Rc×cR^{(i)}, R \in \mathbb{R}^{c \times c}R(i),R∈Rc×c和共识聚类矩阵Y∈{0,1}n×cY \in \{0,1\}^{n \times c}Y∈{0,1}n×c。目标函数为:
minθ∑i=1mαi2∥H−Y(i)R(i)∥F2+λ1∥Y−HR∥F2+λ2∥GTY∥F2,
\min_{\theta} \sum_{i=1}^m \alpha_i^2 \|H - Y^{(i)} R^{(i)}\|_F^2 + \lambda_1 \|Y - H R\|_F^2 + \lambda_2 \|G^T Y\|_F^2,
θmini=1∑mαi2∥H−Y(i)R(i)∥F2+λ1∥Y−HR∥F2+λ2∥GTY∥F2,
其中θ={αi,H,R(i),R,Y}\theta = \{\alpha_i, H, R^{(i)}, R, Y\}θ={αi,H,R(i),R,Y},约束为HTH=IH^T H = IHTH=I,R(i)TR(i)=IR^{(i)T} R^{(i)} = IR(i)TR(i)=I,RTR=IR^T R = IRTR=I,∑j=1cYij=1\sum_{j=1}^c Y_{ij} = 1∑j=1cYij=1,0≤αi≤10 \leq \alpha_i \leq 10≤αi≤1且∑i=1mαi=1\sum_{i=1}^m \alpha_i = 1∑i=1mαi=1。这里,第一项是集成损失,第二项用于离散化,第三项是作者设计的公平与均衡正则化项(λ1=0.001\lambda_1=0.001λ1=0.001固定,λ2\lambda_2λ2为超参数)。
目标函数的优化过程
优化采用交替迭代策略,每个子问题固定其他变量求解:
- 优化HHH:子问题为minH−tr(HTB)\min_H -tr(H^T B)minH−tr(HTB),其中B=∑i=1mαi2Y(i)R(i)+λ1YRTB = \sum_{i=1}^m \alpha_i^2 Y^{(i)} R^{(i)} + \lambda_1 Y R^TB=∑i=1mαi2Y(i)R(i)+λ1YRT,约束HTH=IH^T H = IHTH=I。通过SVD分解B=UΣVTB = U \Sigma V^TB=UΣVT,闭式解为H=UVTH = U V^TH=UVT(基于Von Neumann迹不等式)。
- 优化R(i)R^{(i)}R(i):子问题为minR(i)−tr(R(i)TC)\min_{R^{(i)}} -tr(R^{(i)T} C)minR(i)−tr(R(i)TC),其中C=Y(i)THC = Y^{(i)T} HC=Y(i)TH,约束R(i)TR(i)=IR^{(i)T} R^{(i)} = IR(i)TR(i)=I。类似地,通过SVD求解。
- 优化RRR:子问题为minR−tr(RTE)\min_R -tr(R^T E)minR−tr(RTE),其中E=HTYE = H^T YE=HTY,约束RTR=IR^T R = IRTR=I。通过SVD求解。
- 优化YYY:子问题为minY∥Y−HR∥F2+λ2∥GTY∥F2\min_Y \|Y - H R\|_F^2 + \lambda_2 \|G^T Y\|_F^2minY∥Y−HR∥F2+λ2∥GTY∥F2,约束Y∈{0,1}n×cY \in \{0,1\}^{n \times c}Y∈{0,1}n×c且行和为1。逐行求解:对第iii行测试所有one-hot向量,选择目标函数值最低的。
- 优化αi\alpha_iαi:子问题为minαi∑i=1mαi2∥H−Y(i)R(i)∥F2\min_{\alpha_i} \sum_{i=1}^m \alpha_i^2 \|H - Y^{(i)} R^{(i)}\|_F^2minαi∑i=1mαi2∥H−Y(i)R(i)∥F2,约束0≤αi≤10 \leq \alpha_i \leq 10≤αi≤1且∑αi=1\sum \alpha_i =1∑αi=1。通过Cauchy-Schwarz不等式,闭式解为αi=∥H−Y(i)R(i)∥F−2/∑j=1m∥H−Y(j)R(j)∥F−2\alpha_i = \|H - Y^{(i)} R^{(i)}\|_F^{-2} / \sum_{j=1}^m \|H - Y^{(j)} R^{(j)}\|_F^{-2}αi=∥H−Y(i)R(i)∥F−2/∑j=1m∥H−Y(j)R(j)∥F−2。
算法保证目标函数单调递减并有下界,因此收敛。时间复杂度为O(n2c2)O(n^2 c^2)O(n2c2),主要瓶颈在矩阵乘法,可并行加速。
主要贡献点
- 首个考虑公平性和簇容量均衡的聚类集成:传统聚类集成忽略公平,作者首次将群组级公平嵌入集成框架,作为后处理提升鲁棒性和隐私保护。
- 新公平定义:提出fairness_CCE定义,同时量化公平性和簇容量均衡,避免传统定义的簇不均衡问题(如将所有数据置于一个簇)。
- 简单有效的正则化项:设计‖GTY‖F2‖G^T Y‖_F^2‖GTY‖F2,可同时实现公平(比例均衡)和簇容量均衡(大小均衡),并可退化为纯簇容量均衡项(当T=1T=1T=1时)。该项通用,可插入其他机器学习方法如k-means。
- 实验验证:在基准数据集上证明方法的有效性和优越性,包括公平、均衡和准确性的权衡讨论。
实验结果
实验在6个基准数据集上进行:D&S、HAR、MNIST-USPS、Reverse MNIST、JAFFE和Yale(详见Table I)。评估指标包括准确性(ACC、NMI)、公平性(Bal、MNCE,越大越公平)和簇容量均衡(CCE、NE,越大越均衡)。
- 与聚类集成方法比较:两组实验,一组用k-means基础结果(Tables II-IV),另一组用多样基础算法(Tables V-VII)。FCE在所有数据集上公平性和均衡指标上均优于11种SOTA方法(如BCE、RCE、LWGP等),如在MNIST-USPS上Bal为0.955、MNCE为0.988(最佳)。准确性相当或更好(如ACC/NMI在许多数据集上排名前二)。消融实验显示,去除正则化项的FCE-f在准确性上强,但公平/均衡弱;使用Hungary对齐的FCE-a不如旋转矩阵对齐的FCE稳定。
- 与公平聚类方法比较(Table VIII):与SpFC、VFC、FFC、KFC、SFD、CFC比较,FCE在簇容量均衡上全面优越(如CCE/NE最高),公平性相当或更好(如在HAR上Bal为0.981)。某些方法(如SFD)虽公平高,但导致簇极不均衡(大部分数据在一个簇)。使用多样基础的FCE_dbase在整体排名上最佳(avg rank最低)。
- 其他结果:可视化显示FCE显著提升公平(Fig. 3)。收敛快(10迭代内,Fig. 4)。运行时间与SOTA相当(Fig. 5)。权衡曲线(Fig. 6)显示准确性与公平/均衡存在trade-off,但FCE在上右拐点处取得良好平衡。未知簇数版本(FCE_unknown_k,使用Silhouette指数)结果接近真簇数版本(Table IX)。
总体上,实验证实FCE在公平性和均衡上优越,同时保持聚类性能,适用于隐私敏感场景。
算法的实现过程
算法实现如Algorithm 1所示,详细步骤如下:
- 输入准备:给定mmm个基础聚类结果C1,…,CmC_1, \dots, C_mC1,…,Cm和保护群组G1,…,GTG_1, \dots, G_TG1,…,GT,超参数λ1=0.001\lambda_1=0.001λ1=0.001和λ2\lambda_2λ2(调优范围[10−5,101][10^{-5}, 10^1][10−5,101])。构建one-hot基础矩阵Y(1),…,Y(m)∈{0,1}n×cY^{(1)}, \dots, Y^{(m)} \in \{0,1\}^{n \times c}Y(1),…,Y(m)∈{0,1}n×c和保护矩阵G∈{0,1}n×TG \in \{0,1\}^{n \times T}G∈{0,1}n×T。
- 初始化:设R=IR = IR=I,R(i)=IR^{(i)} = IR(i)=I,αi=1/m\alpha_i = 1/mαi=1/m。初始化HHH通过最小化∑i=1m∥H−Y(i)R(i)∥F2\sum_{i=1}^m \|H - Y^{(i)} R^{(i)}\|_F^2∑i=1m∥H−Y(i)R(i)∥F2(SVD求解)。
- 迭代循环(直到收敛):
- 更新YYY:逐行测试one-hot向量,选择最小化∥Y−HR∥F2+λ2∥GTY∥F2\|Y - H R\|_F^2 + \lambda_2 \|G^T Y\|_F^2∥Y−HR∥F2+λ2∥GTY∥F2的行。需计算矩阵乘法,如(GTY)kj(G^T Y)_{kj}(GTY)kj表示群组kkk在簇jjj中的样本数。
- 更新RRR:对E=HTYE = H^T YE=HTY进行SVD,R=UVTR = U V^TR=UVT(E=UΣVTE = U \Sigma V^TE=UΣVT)。
- 更新R(i)R^{(i)}R(i):对每个iii,对C=Y(i)THC = Y^{(i)T} HC=Y(i)TH进行SVD,R(i)=UVTR^{(i)} = U V^TR(i)=UVT。
- 更新HHH:对B=∑i=1mαi2Y(i)R(i)+λ1YRTB = \sum_{i=1}^m \alpha_i^2 Y^{(i)} R^{(i)} + \lambda_1 Y R^TB=∑i=1mαi2Y(i)R(i)+λ1YRT进行SVD,H=UVTH = U V^TH=UVT。
- 更新αi\alpha_iαi:计算αi=∥H−Y(i)R(i)∥F−2/∑j=1m∥H−Y(j)R(j)∥F−2\alpha_i = \|H - Y^{(i)} R^{(i)}\|_F^{-2} / \sum_{j=1}^m \|H - Y^{(j)} R^{(j)}\|_F^{-2}αi=∥H−Y(i)R(i)∥F−2/∑j=1m∥H−Y(j)R(j)∥F−2,确保αi\alpha_iαi在[0,1]并归一化。
- 输出:共识聚类矩阵YYY,从中提取簇标签。
实现中,SVD使用标准库(如NumPy),矩阵乘法可并行。收敛判断基于目标函数变化小于阈值(如10−410^{-4}10−4)。如果簇数未知,可用Silhouette指数搜索ccc。
fairness_CCE的算法原理
fairness_CCE是论文中提出的一种新型公平性度量指标,用于同时评估聚类结果的群组级公平性(group-level fairness)和簇容量均衡性(cluster capacity equality)。它基于传统公平定义(如文献[17]中的Definition 1)进行扩展,旨在解决传统定义忽略簇容量导致的不均衡问题(如将大部分数据置于一个簇中仍被视为“完美公平”)。下面,我将详细介绍其算法原理,包括定义、数学推导、为什么能同时实现公平与均衡、以及如何引导设计正则化项。
1. 背景与问题分析
在聚类任务中,给定数据集X∈Rn×dX \in \mathbb{R}^{n \times d}X∈Rn×d(nnn个样本,ddd维特征),聚类结果为C={π1,…,πc}C = \{\pi_1, \dots, \pi_c\}C={π1,…,πc}(ccc个簇)。假设有TTT个不相交的保护群组G1,…,GTG_1, \dots, G_TG1,…,GT(如性别、种族等敏感群体)。
传统公平定义(Definition 1):
- 令ηi=∣Gi∣/n\eta_i = |G_i| / nηi=∣Gi∣/n为群组GiG_iGi在整个数据集中的比例。
- 令ηi(k)=∣πk∩Gi∣/∣πk∣\eta_i(k) = |\pi_k \cap G_i| / |\pi_k|ηi(k)=∣πk∩Gi∣/∣πk∣为群组GiG_iGi在簇πk\pi_kπk中的比例。
- 簇πk\pi_kπk的公平性:fairness(πk)=mini(min(ηi/ηi(k),ηi(k)/ηi))fairness(\pi_k) = \min_i (\min(\eta_i / \eta_i(k), \eta_i(k) / \eta_i))fairness(πk)=mini(min(ηi/ηi(k),ηi(k)/ηi))。
- 整体公平性:fairness(C)=minkfairness(πk)∈[0,1]fairness(C) = \min_k fairness(\pi_k) \in [0,1]fairness(C)=minkfairness(πk)∈[0,1](越大越公平)。
问题:该定义忽略簇容量∣πk∣|\pi_k|∣πk∣,可能导致极不均衡簇(如所有样本到一个簇,fairness(C)=1fairness(C)=1fairness(C)=1但容量不均)。论文引入簇容量均衡定义(Definition 2):
CCE(C)=mini,j(∣πi∣∣πj∣)∈[0,1]
CCE(C) = \min_{i,j} \left( \frac{|\pi_i|}{|\pi_j|} \right) \in [0,1]
CCE(C)=i,jmin(∣πj∣∣πi∣)∈[0,1]
(越大越均衡,当∣πk∣=n/c|\pi_k| = n/c∣πk∣=n/c时最优)。
为同时衡量二者,作者提出fairness_CCE。
2. fairness_CCE的数学定义
Definition 3(fairness_CCE):
- 令γi(k)=∣πk∩Gi∣/∣Gi∣\gamma_i(k) = |\pi_k \cap G_i| / |G_i|γi(k)=∣πk∩Gi∣/∣Gi∣为簇πk\pi_kπk在群组GiG_iGi中的比例(注意:这与传统ηi(k)\eta_i(k)ηi(k)方向相反,是簇在群组中的占比)。
- 簇πk\pi_kπk的fairness_CCE:
fairness_CCE(πk)=mini∈{1,…,T}(min(cγi(k),1cγi(k))) fairness\_CCE(\pi_k) = \min_{i \in \{1,\dots,T\}} \left( \min \left( c \gamma_i(k), \frac{1}{c \gamma_i(k)} \right) \right) fairness_CCE(πk)=i∈{1,…,T}min(min(cγi(k),cγi(k)1)) - 整体聚类结果的fairness_CCE:
fairness_CCE(C)=mink∈{1,…,c}fairness_CCE(πk)∈(0,1] fairness\_CCE(C) = \min_{k \in \{1,\dots,c\}} fairness\_CCE(\pi_k) \in (0,1] fairness_CCE(C)=k∈{1,…,c}minfairness_CCE(πk)∈(0,1]
(越大,表示结果越公平且簇容量越均衡)。
备注:
- 值域(0,1](0,1](0,1]:当cγi(k)=1c \gamma_i(k) = 1cγi(k)=1(即γi(k)=1/c\gamma_i(k) = 1/cγi(k)=1/c)时,达到最大1(完美公平与均衡)。
- 与传统定义的区别:传统关注群组在簇中的比例ηi(k)≈ηi\eta_i(k) \approx \eta_iηi(k)≈ηi;fairness_CCE关注簇在群组中的比例γi(k)≈1/c\gamma_i(k) \approx 1/cγi(k)≈1/c,这隐含了容量约束。
3. 为什么fairness_CCE能同时衡量公平性和簇容量均衡?
原理基于数学等价性推导。fairness_CCE越大,意味着对于所有i,ki,ki,k,cγi(k)c \gamma_i(k)cγi(k)越接近1(因为min(cγi(k),1/(cγi(k)))\min(c \gamma_i(k), 1/(c \gamma_i(k)))min(cγi(k),1/(cγi(k)))在1处最大)。
推导过程:
-
cγi(k)≈1c \gamma_i(k) \approx 1cγi(k)≈1 等价于:
c⋅∣πk∩Gi∣∣Gi∣≈1 ⟹ ∣πk∩Gi∣≈∣Gi∣c c \cdot \frac{|\pi_k \cap G_i|}{|G_i|} \approx 1 \implies |\pi_k \cap G_i| \approx \frac{|G_i|}{c} c⋅∣Gi∣∣πk∩Gi∣≈1⟹∣πk∩Gi∣≈c∣Gi∣
这表示每个群组GiG_iGi被均匀分配到ccc个簇中(每个簇获得约∣Gi∣/c|G_i|/c∣Gi∣/c个来自GiG_iGi的样本)。 -
簇容量均衡的推导:对所有群组i=1i=1i=1到TTT求和(注意群组不相交,∑i∣πk∩Gi∣=∣πk∣\sum_i |\pi_k \cap G_i| = |\pi_k|∑i∣πk∩Gi∣=∣πk∣,∑i∣Gi∣=n\sum_i |G_i| = n∑i∣Gi∣=n):
∑i=1T∣πk∩Gi∣≈∑i=1T∣Gi∣c ⟹ ∣πk∣≈nc \sum_{i=1}^T |\pi_k \cap G_i| \approx \sum_{i=1}^T \frac{|G_i|}{c} \implies |\pi_k| \approx \frac{n}{c} i=1∑T∣πk∩Gi∣≈i=1∑Tc∣Gi∣⟹∣πk∣≈cn
这正好是簇容量均衡的理想状态(每个簇大小相近,避免极大规模或小簇)。根据Definition 2,CCE(C)CCE(C)CCE(C)趋近1。 -
公平性的推导:将上式∣πk∩Gi∣≈∣Gi∣/c|\pi_k \cap G_i| \approx |G_i|/c∣πk∩Gi∣≈∣Gi∣/c除以∣πk∣≈n/c|\pi_k| \approx n/c∣πk∣≈n/c:
∣πk∩Gi∣∣πk∣≈∣Gi∣/cn/c=∣Gi∣n \frac{|\pi_k \cap G_i|}{|\pi_k|} \approx \frac{|G_i|/c}{n/c} = \frac{|G_i|}{n} ∣πk∣∣πk∩Gi∣≈n/c∣Gi∣/c=n∣Gi∣
左侧是ηi(k)\eta_i(k)ηi(k),右侧是ηi\eta_iηi,因此ηi(k)≈ηi\eta_i(k) \approx \eta_iηi(k)≈ηi,根据Definition 1,fairness(C)fairness(C)fairness(C)趋近1(公平)。
总结:fairness_CCE通过强制γi(k)≈1/c\gamma_i(k) \approx 1/cγi(k)≈1/c,隐含地实现了群组均匀分配,从而同时提升公平(比例均衡)和均衡(大小均衡)。这解决了传统定义的缺陷,如在Reverse MNIST数据集上,SFD方法公平高(Bal=0.709, MNCE=0.979)但均衡低(CCE=0.029, NE=0.558),因为它未显式约束容量。
4. 如何引导设计正则化项
fairness_CCE的核心洞察是公式(4):∣πk∩Gi∣≈∣Gi∣/c|\pi_k \cap G_i| \approx |G_i|/c∣πk∩Gi∣≈∣Gi∣/c,即每个群组均匀分配到簇中。基于此,作者设计一个优化问题来实现它,并推导出正则化项。
-
构建矩阵:保护群组one-hot矩阵G∈{0,1}n×TG \in \{0,1\}^{n \times T}G∈{0,1}n×T(Gij=1G_{ij}=1Gij=1若样本iii属于群组jjj)。聚类结果one-hot矩阵Y∈{0,1}n×cY \in \{0,1\}^{n \times c}Y∈{0,1}n×c(Yij=1Y_{ij}=1Yij=1若样本iii在簇jjj)。
-
定义A=GTY∈RT×cA = G^T Y \in \mathbb{R}^{T \times c}A=GTY∈RT×c,其中Aij=∣πj∩Gi∣A_{ij} = |\pi_j \cap G_i|Aij=∣πj∩Gi∣(群组iii在簇jjj中的样本数)。
-
对于每个群组iii,要实现均匀分配,即Ai1,…,AicA_{i1}, \dots, A_{ic}Ai1,…,Aic相近,且∑j=1cAij=∣Gi∣\sum_{j=1}^c A_{ij} = |G_i|∑j=1cAij=∣Gi∣(常量)。优化问题:
minAi1,…,Aic∑j=1cAij2s.t.∑j=1cAij=∣Gi∣ \min_{A_{i1},\dots,A_{ic}} \sum_{j=1}^c A_{ij}^2 \quad s.t. \quad \sum_{j=1}^c A_{ij} = |G_i| Ai1,…,Aicminj=1∑cAij2s.t.j=1∑cAij=∣Gi∣
最优解:Ai1=⋯=Aic=∣Gi∣/cA_{i1} = \dots = A_{ic} = |G_i|/cAi1=⋯=Aic=∣Gi∣/c(因为二次和在均值处最小,类似于方差最小化)。 -
对所有群组求和,得到整体正则化项:
minA∑k=1T∑j=1cAkj2=minA∥A∥F2=minY∥GTY∥F2 \min_A \sum_{k=1}^T \sum_{j=1}^c A_{kj}^2 = \min_A \|A\|_F^2 = \min_Y \|G^T Y\|_F^2 Amink=1∑Tj=1∑cAkj2=Amin∥A∥F2=Ymin∥GTY∥F2
(Frobenius范数)。
这个项嵌入目标函数中,作为公平与均衡的惩罚:最小化∥GTY∥F2\|G^T Y\|_F^2∥GTY∥F2会推动YYY向均匀分配方向优化,从而提升fairness_CCE。
5. 算法特性与扩展
- 范围与阈值:若需明确“公平”阈值,可设δ\deltaδ,若fairness_CCE≥δfairness\_CCE \geq \deltafairness_CCE≥δ则公平。
- 特殊情况:若无保护群组(T=1T=1T=1,GGG为全1向量),则退化为纯簇容量均衡正则化∥1TY∥F2\|1^T Y\|_F^2∥1TY∥F2。
- 通用性:该正则化项简单(仅需伪标签YYY和GGG),可插入其他方法如k-means、谱聚类。
- 权衡:论文讨论公平、均衡与准确性可能冲突(准确性用外部标签如ACC/NMI衡量,可能基于不公平的ground truth)。在人类相关应用中,优先公平/均衡。
通过以上原理,fairness_CCE不仅量化了双重目标,还直接指导了优化框架的设计,确保聚类集成结果在实际中更鲁棒和公正。实验验证了其有效性,如在基准数据集上显著提升Bal/MNCE和CCE/NE指标。