当前位置: 首页 > news >正文

PAMI-2025《Fair Clustering Ensemble With Equal Cluster Capacity》

核心思想

论文的核心思想是提出一种公平聚类集成(Fair Clustering Ensemble, FCE)方法,以解决传统聚类集成忽略公平性问题,同时针对现有群组级公平定义可能导致簇容量不均衡(即某些簇过大或过小)的缺陷。作者观察到,传统公平定义(如文献[17]中的定义)可能允许将大部分数据置于一个簇中,从而实现“完美公平”但牺牲簇均衡(如图1和图2所示的示例)。为此,作者引入了一个新的公平定义(fairness_CCE),它同时考虑公平性和簇容量均衡,并设计了一个简单有效的正则化项‖GTY‖F2‖G^T Y‖_F^2GTYF2,将其嵌入聚类集成框架中。该方法以多个基础聚类结果作为输入,生成一个公平且簇容量均衡的共识聚类结果,而无需访问原始数据特征,从而保护隐私。该方法适用于涉及人类的实际应用,如社交网络和犯罪分析,并可作为后处理框架应用于任何聚类方法。

目标函数

论文的目标函数基于聚类集成框架,结合了公平性和簇容量均衡的正则化项。给定mmm个基础聚类结果Y(1),…,Y(m)∈{0,1}n×cY^{(1)}, \dots, Y^{(m)} \in \{0,1\}^{n \times c}Y(1),,Y(m){0,1}n×cnnn为样本数,ccc为簇数),保护群组矩阵G∈{0,1}n×TG \in \{0,1\}^{n \times T}G{0,1}n×TTTT为保护群组数),以及学习变量包括权重αi\alpha_iαi、正交嵌入H∈Rn×cH \in \mathbb{R}^{n \times c}HRn×c、旋转矩阵R(i),R∈Rc×cR^{(i)}, R \in \mathbb{R}^{c \times c}R(i),RRc×c和共识聚类矩阵Y∈{0,1}n×cY \in \{0,1\}^{n \times c}Y{0,1}n×c。目标函数为:
min⁡θ∑i=1mαi2∥H−Y(i)R(i)∥F2+λ1∥Y−HR∥F2+λ2∥GTY∥F2, \min_{\theta} \sum_{i=1}^m \alpha_i^2 \|H - Y^{(i)} R^{(i)}\|_F^2 + \lambda_1 \|Y - H R\|_F^2 + \lambda_2 \|G^T Y\|_F^2, θmini=1mαi2HY(i)R(i)F2+λ1YHRF2+λ2GTYF2,
其中θ={αi,H,R(i),R,Y}\theta = \{\alpha_i, H, R^{(i)}, R, Y\}θ={αi,H,R(i),R,Y},约束为HTH=IH^T H = IHTH=IR(i)TR(i)=IR^{(i)T} R^{(i)} = IR(i)TR(i)=IRTR=IR^T R = IRTR=I∑j=1cYij=1\sum_{j=1}^c Y_{ij} = 1j=1cYij=10≤αi≤10 \leq \alpha_i \leq 10αi1∑i=1mαi=1\sum_{i=1}^m \alpha_i = 1i=1mαi=1。这里,第一项是集成损失,第二项用于离散化,第三项是作者设计的公平与均衡正则化项(λ1=0.001\lambda_1=0.001λ1=0.001固定,λ2\lambda_2λ2为超参数)。

目标函数的优化过程

优化采用交替迭代策略,每个子问题固定其他变量求解:

  1. 优化HHH:子问题为min⁡H−tr(HTB)\min_H -tr(H^T B)minHtr(HTB),其中B=∑i=1mαi2Y(i)R(i)+λ1YRTB = \sum_{i=1}^m \alpha_i^2 Y^{(i)} R^{(i)} + \lambda_1 Y R^TB=i=1mαi2Y(i)R(i)+λ1YRT,约束HTH=IH^T H = IHTH=I。通过SVD分解B=UΣVTB = U \Sigma V^TB=UΣVT,闭式解为H=UVTH = U V^TH=UVT(基于Von Neumann迹不等式)。
  2. 优化R(i)R^{(i)}R(i):子问题为min⁡R(i)−tr(R(i)TC)\min_{R^{(i)}} -tr(R^{(i)T} C)minR(i)tr(R(i)TC),其中C=Y(i)THC = Y^{(i)T} HC=Y(i)TH,约束R(i)TR(i)=IR^{(i)T} R^{(i)} = IR(i)TR(i)=I。类似地,通过SVD求解。
  3. 优化RRR:子问题为min⁡R−tr(RTE)\min_R -tr(R^T E)minRtr(RTE),其中E=HTYE = H^T YE=HTY,约束RTR=IR^T R = IRTR=I。通过SVD求解。
  4. 优化YYY:子问题为min⁡Y∥Y−HR∥F2+λ2∥GTY∥F2\min_Y \|Y - H R\|_F^2 + \lambda_2 \|G^T Y\|_F^2minYYHRF2+λ2GTYF2,约束Y∈{0,1}n×cY \in \{0,1\}^{n \times c}Y{0,1}n×c且行和为1。逐行求解:对第iii行测试所有one-hot向量,选择目标函数值最低的。
  5. 优化αi\alpha_iαi:子问题为min⁡αi∑i=1mαi2∥H−Y(i)R(i)∥F2\min_{\alpha_i} \sum_{i=1}^m \alpha_i^2 \|H - Y^{(i)} R^{(i)}\|_F^2minαii=1mαi2HY(i)R(i)F2,约束0≤αi≤10 \leq \alpha_i \leq 10αi1∑αi=1\sum \alpha_i =1αi=1。通过Cauchy-Schwarz不等式,闭式解为αi=∥H−Y(i)R(i)∥F−2/∑j=1m∥H−Y(j)R(j)∥F−2\alpha_i = \|H - Y^{(i)} R^{(i)}\|_F^{-2} / \sum_{j=1}^m \|H - Y^{(j)} R^{(j)}\|_F^{-2}αi=HY(i)R(i)F2/j=1mHY(j)R(j)F2

算法保证目标函数单调递减并有下界,因此收敛。时间复杂度为O(n2c2)O(n^2 c^2)O(n2c2),主要瓶颈在矩阵乘法,可并行加速。

主要贡献点

  1. 首个考虑公平性和簇容量均衡的聚类集成:传统聚类集成忽略公平,作者首次将群组级公平嵌入集成框架,作为后处理提升鲁棒性和隐私保护。
  2. 新公平定义:提出fairness_CCE定义,同时量化公平性和簇容量均衡,避免传统定义的簇不均衡问题(如将所有数据置于一个簇)。
  3. 简单有效的正则化项:设计‖GTY‖F2‖G^T Y‖_F^2GTYF2,可同时实现公平(比例均衡)和簇容量均衡(大小均衡),并可退化为纯簇容量均衡项(当T=1T=1T=1时)。该项通用,可插入其他机器学习方法如k-means。
  4. 实验验证:在基准数据集上证明方法的有效性和优越性,包括公平、均衡和准确性的权衡讨论。

实验结果

实验在6个基准数据集上进行:D&S、HAR、MNIST-USPS、Reverse MNIST、JAFFE和Yale(详见Table I)。评估指标包括准确性(ACC、NMI)、公平性(Bal、MNCE,越大越公平)和簇容量均衡(CCE、NE,越大越均衡)。

  • 与聚类集成方法比较:两组实验,一组用k-means基础结果(Tables II-IV),另一组用多样基础算法(Tables V-VII)。FCE在所有数据集上公平性和均衡指标上均优于11种SOTA方法(如BCE、RCE、LWGP等),如在MNIST-USPS上Bal为0.955、MNCE为0.988(最佳)。准确性相当或更好(如ACC/NMI在许多数据集上排名前二)。消融实验显示,去除正则化项的FCE-f在准确性上强,但公平/均衡弱;使用Hungary对齐的FCE-a不如旋转矩阵对齐的FCE稳定。
  • 与公平聚类方法比较(Table VIII):与SpFC、VFC、FFC、KFC、SFD、CFC比较,FCE在簇容量均衡上全面优越(如CCE/NE最高),公平性相当或更好(如在HAR上Bal为0.981)。某些方法(如SFD)虽公平高,但导致簇极不均衡(大部分数据在一个簇)。使用多样基础的FCE_dbase在整体排名上最佳(avg rank最低)。
  • 其他结果:可视化显示FCE显著提升公平(Fig. 3)。收敛快(10迭代内,Fig. 4)。运行时间与SOTA相当(Fig. 5)。权衡曲线(Fig. 6)显示准确性与公平/均衡存在trade-off,但FCE在上右拐点处取得良好平衡。未知簇数版本(FCE_unknown_k,使用Silhouette指数)结果接近真簇数版本(Table IX)。

总体上,实验证实FCE在公平性和均衡上优越,同时保持聚类性能,适用于隐私敏感场景。

算法的实现过程

算法实现如Algorithm 1所示,详细步骤如下:

  1. 输入准备:给定mmm个基础聚类结果C1,…,CmC_1, \dots, C_mC1,,Cm和保护群组G1,…,GTG_1, \dots, G_TG1,,GT,超参数λ1=0.001\lambda_1=0.001λ1=0.001λ2\lambda_2λ2(调优范围[10−5,101][10^{-5}, 10^1][105,101])。构建one-hot基础矩阵Y(1),…,Y(m)∈{0,1}n×cY^{(1)}, \dots, Y^{(m)} \in \{0,1\}^{n \times c}Y(1),,Y(m){0,1}n×c和保护矩阵G∈{0,1}n×TG \in \{0,1\}^{n \times T}G{0,1}n×T
  2. 初始化:设R=IR = IR=IR(i)=IR^{(i)} = IR(i)=Iαi=1/m\alpha_i = 1/mαi=1/m。初始化HHH通过最小化∑i=1m∥H−Y(i)R(i)∥F2\sum_{i=1}^m \|H - Y^{(i)} R^{(i)}\|_F^2i=1mHY(i)R(i)F2(SVD求解)。
  3. 迭代循环(直到收敛)
    • 更新YYY:逐行测试one-hot向量,选择最小化∥Y−HR∥F2+λ2∥GTY∥F2\|Y - H R\|_F^2 + \lambda_2 \|G^T Y\|_F^2YHRF2+λ2GTYF2的行。需计算矩阵乘法,如(GTY)kj(G^T Y)_{kj}(GTY)kj表示群组kkk在簇jjj中的样本数。
    • 更新RRR:对E=HTYE = H^T YE=HTY进行SVD,R=UVTR = U V^TR=UVTE=UΣVTE = U \Sigma V^TE=UΣVT)。
    • 更新R(i)R^{(i)}R(i):对每个iii,对C=Y(i)THC = Y^{(i)T} HC=Y(i)TH进行SVD,R(i)=UVTR^{(i)} = U V^TR(i)=UVT
    • 更新HHH:对B=∑i=1mαi2Y(i)R(i)+λ1YRTB = \sum_{i=1}^m \alpha_i^2 Y^{(i)} R^{(i)} + \lambda_1 Y R^TB=i=1mαi2Y(i)R(i)+λ1YRT进行SVD,H=UVTH = U V^TH=UVT
    • 更新αi\alpha_iαi:计算αi=∥H−Y(i)R(i)∥F−2/∑j=1m∥H−Y(j)R(j)∥F−2\alpha_i = \|H - Y^{(i)} R^{(i)}\|_F^{-2} / \sum_{j=1}^m \|H - Y^{(j)} R^{(j)}\|_F^{-2}αi=HY(i)R(i)F2/j=1mHY(j)R(j)F2,确保αi\alpha_iαi在[0,1]并归一化。
  4. 输出:共识聚类矩阵YYY,从中提取簇标签。

实现中,SVD使用标准库(如NumPy),矩阵乘法可并行。收敛判断基于目标函数变化小于阈值(如10−410^{-4}104)。如果簇数未知,可用Silhouette指数搜索ccc

fairness_CCE的算法原理

fairness_CCE是论文中提出的一种新型公平性度量指标,用于同时评估聚类结果的群组级公平性(group-level fairness)和簇容量均衡性(cluster capacity equality)。它基于传统公平定义(如文献[17]中的Definition 1)进行扩展,旨在解决传统定义忽略簇容量导致的不均衡问题(如将大部分数据置于一个簇中仍被视为“完美公平”)。下面,我将详细介绍其算法原理,包括定义、数学推导、为什么能同时实现公平与均衡、以及如何引导设计正则化项。

1. 背景与问题分析

在聚类任务中,给定数据集X∈Rn×dX \in \mathbb{R}^{n \times d}XRn×dnnn个样本,ddd维特征),聚类结果为C={π1,…,πc}C = \{\pi_1, \dots, \pi_c\}C={π1,,πc}ccc个簇)。假设有TTT个不相交的保护群组G1,…,GTG_1, \dots, G_TG1,,GT(如性别、种族等敏感群体)。

传统公平定义(Definition 1):

  • ηi=∣Gi∣/n\eta_i = |G_i| / nηi=Gi∣/n为群组GiG_iGi在整个数据集中的比例。
  • ηi(k)=∣πk∩Gi∣/∣πk∣\eta_i(k) = |\pi_k \cap G_i| / |\pi_k|ηi(k)=πkGi∣/∣πk为群组GiG_iGi在簇πk\pi_kπk中的比例。
  • πk\pi_kπk的公平性:fairness(πk)=min⁡i(min⁡(ηi/ηi(k),ηi(k)/ηi))fairness(\pi_k) = \min_i (\min(\eta_i / \eta_i(k), \eta_i(k) / \eta_i))fairness(πk)=mini(min(ηi/ηi(k),ηi(k)/ηi))
  • 整体公平性:fairness(C)=min⁡kfairness(πk)∈[0,1]fairness(C) = \min_k fairness(\pi_k) \in [0,1]fairness(C)=minkfairness(πk)[0,1](越大越公平)。

问题:该定义忽略簇容量∣πk∣|\pi_k|πk,可能导致极不均衡簇(如所有样本到一个簇,fairness(C)=1fairness(C)=1fairness(C)=1但容量不均)。论文引入簇容量均衡定义(Definition 2):
CCE(C)=min⁡i,j(∣πi∣∣πj∣)∈[0,1] CCE(C) = \min_{i,j} \left( \frac{|\pi_i|}{|\pi_j|} \right) \in [0,1] CCE(C)=i,jmin(πjπi)[0,1]
(越大越均衡,当∣πk∣=n/c|\pi_k| = n/cπk=n/c时最优)。

为同时衡量二者,作者提出fairness_CCE。

2. fairness_CCE的数学定义

Definition 3(fairness_CCE):

  • γi(k)=∣πk∩Gi∣/∣Gi∣\gamma_i(k) = |\pi_k \cap G_i| / |G_i|γi(k)=πkGi∣/∣Gi为簇πk\pi_kπk在群组GiG_iGi中的比例(注意:这与传统ηi(k)\eta_i(k)ηi(k)方向相反,是簇在群组中的占比)。
  • πk\pi_kπk的fairness_CCE:
    fairness_CCE(πk)=min⁡i∈{1,…,T}(min⁡(cγi(k),1cγi(k))) fairness\_CCE(\pi_k) = \min_{i \in \{1,\dots,T\}} \left( \min \left( c \gamma_i(k), \frac{1}{c \gamma_i(k)} \right) \right) fairness_CCE(πk)=i{1,,T}min(min(cγi(k),cγi(k)1))
  • 整体聚类结果的fairness_CCE:
    fairness_CCE(C)=min⁡k∈{1,…,c}fairness_CCE(πk)∈(0,1] fairness\_CCE(C) = \min_{k \in \{1,\dots,c\}} fairness\_CCE(\pi_k) \in (0,1] fairness_CCE(C)=k{1,,c}minfairness_CCE(πk)(0,1]
    (越大,表示结果越公平且簇容量越均衡)。

备注:

  • 值域(0,1](0,1](0,1]:当cγi(k)=1c \gamma_i(k) = 1cγi(k)=1(即γi(k)=1/c\gamma_i(k) = 1/cγi(k)=1/c)时,达到最大1(完美公平与均衡)。
  • 与传统定义的区别:传统关注群组在簇中的比例ηi(k)≈ηi\eta_i(k) \approx \eta_iηi(k)ηi;fairness_CCE关注簇在群组中的比例γi(k)≈1/c\gamma_i(k) \approx 1/cγi(k)1/c,这隐含了容量约束。
3. 为什么fairness_CCE能同时衡量公平性和簇容量均衡?

原理基于数学等价性推导。fairness_CCE越大,意味着对于所有i,ki,ki,kcγi(k)c \gamma_i(k)cγi(k)越接近1(因为min⁡(cγi(k),1/(cγi(k)))\min(c \gamma_i(k), 1/(c \gamma_i(k)))min(cγi(k),1/(cγi(k)))在1处最大)。

推导过程:

  • cγi(k)≈1c \gamma_i(k) \approx 1cγi(k)1 等价于:
    c⋅∣πk∩Gi∣∣Gi∣≈1  ⟹  ∣πk∩Gi∣≈∣Gi∣c c \cdot \frac{|\pi_k \cap G_i|}{|G_i|} \approx 1 \implies |\pi_k \cap G_i| \approx \frac{|G_i|}{c} cGiπkGi1πkGicGi
    这表示每个群组GiG_iGi被均匀分配到ccc个簇中(每个簇获得约∣Gi∣/c|G_i|/cGi∣/c个来自GiG_iGi的样本)。

  • 簇容量均衡的推导:对所有群组i=1i=1i=1TTT求和(注意群组不相交,∑i∣πk∩Gi∣=∣πk∣\sum_i |\pi_k \cap G_i| = |\pi_k|iπkGi=πk∑i∣Gi∣=n\sum_i |G_i| = niGi=n):
    ∑i=1T∣πk∩Gi∣≈∑i=1T∣Gi∣c  ⟹  ∣πk∣≈nc \sum_{i=1}^T |\pi_k \cap G_i| \approx \sum_{i=1}^T \frac{|G_i|}{c} \implies |\pi_k| \approx \frac{n}{c} i=1TπkGii=1TcGiπkcn
    这正好是簇容量均衡的理想状态(每个簇大小相近,避免极大规模或小簇)。根据Definition 2,CCE(C)CCE(C)CCE(C)趋近1。

  • 公平性的推导:将上式∣πk∩Gi∣≈∣Gi∣/c|\pi_k \cap G_i| \approx |G_i|/cπkGiGi∣/c除以∣πk∣≈n/c|\pi_k| \approx n/cπkn/c
    ∣πk∩Gi∣∣πk∣≈∣Gi∣/cn/c=∣Gi∣n \frac{|\pi_k \cap G_i|}{|\pi_k|} \approx \frac{|G_i|/c}{n/c} = \frac{|G_i|}{n} πkπkGin/cGi∣/c=nGi
    左侧是ηi(k)\eta_i(k)ηi(k),右侧是ηi\eta_iηi,因此ηi(k)≈ηi\eta_i(k) \approx \eta_iηi(k)ηi,根据Definition 1,fairness(C)fairness(C)fairness(C)趋近1(公平)。

总结:fairness_CCE通过强制γi(k)≈1/c\gamma_i(k) \approx 1/cγi(k)1/c,隐含地实现了群组均匀分配,从而同时提升公平(比例均衡)和均衡(大小均衡)。这解决了传统定义的缺陷,如在Reverse MNIST数据集上,SFD方法公平高(Bal=0.709, MNCE=0.979)但均衡低(CCE=0.029, NE=0.558),因为它未显式约束容量。

4. 如何引导设计正则化项

fairness_CCE的核心洞察是公式(4):∣πk∩Gi∣≈∣Gi∣/c|\pi_k \cap G_i| \approx |G_i|/cπkGiGi∣/c,即每个群组均匀分配到簇中。基于此,作者设计一个优化问题来实现它,并推导出正则化项。

  • 构建矩阵:保护群组one-hot矩阵G∈{0,1}n×TG \in \{0,1\}^{n \times T}G{0,1}n×TGij=1G_{ij}=1Gij=1若样本iii属于群组jjj)。聚类结果one-hot矩阵Y∈{0,1}n×cY \in \{0,1\}^{n \times c}Y{0,1}n×cYij=1Y_{ij}=1Yij=1若样本iii在簇jjj)。

  • 定义A=GTY∈RT×cA = G^T Y \in \mathbb{R}^{T \times c}A=GTYRT×c,其中Aij=∣πj∩Gi∣A_{ij} = |\pi_j \cap G_i|Aij=πjGi(群组iii在簇jjj中的样本数)。

  • 对于每个群组iii,要实现均匀分配,即Ai1,…,AicA_{i1}, \dots, A_{ic}Ai1,,Aic相近,且∑j=1cAij=∣Gi∣\sum_{j=1}^c A_{ij} = |G_i|j=1cAij=Gi(常量)。优化问题:
    min⁡Ai1,…,Aic∑j=1cAij2s.t.∑j=1cAij=∣Gi∣ \min_{A_{i1},\dots,A_{ic}} \sum_{j=1}^c A_{ij}^2 \quad s.t. \quad \sum_{j=1}^c A_{ij} = |G_i| Ai1,,Aicminj=1cAij2s.t.j=1cAij=Gi
    最优解:Ai1=⋯=Aic=∣Gi∣/cA_{i1} = \dots = A_{ic} = |G_i|/cAi1==Aic=Gi∣/c(因为二次和在均值处最小,类似于方差最小化)。

  • 对所有群组求和,得到整体正则化项:
    min⁡A∑k=1T∑j=1cAkj2=min⁡A∥A∥F2=min⁡Y∥GTY∥F2 \min_A \sum_{k=1}^T \sum_{j=1}^c A_{kj}^2 = \min_A \|A\|_F^2 = \min_Y \|G^T Y\|_F^2 Amink=1Tj=1cAkj2=AminAF2=YminGTYF2
    (Frobenius范数)。

这个项嵌入目标函数中,作为公平与均衡的惩罚:最小化∥GTY∥F2\|G^T Y\|_F^2GTYF2会推动YYY向均匀分配方向优化,从而提升fairness_CCE。

5. 算法特性与扩展
  • 范围与阈值:若需明确“公平”阈值,可设δ\deltaδ,若fairness_CCE≥δfairness\_CCE \geq \deltafairness_CCEδ则公平。
  • 特殊情况:若无保护群组(T=1T=1T=1GGG为全1向量),则退化为纯簇容量均衡正则化∥1TY∥F2\|1^T Y\|_F^21TYF2
  • 通用性:该正则化项简单(仅需伪标签YYYGGG),可插入其他方法如k-means、谱聚类。
  • 权衡:论文讨论公平、均衡与准确性可能冲突(准确性用外部标签如ACC/NMI衡量,可能基于不公平的ground truth)。在人类相关应用中,优先公平/均衡。

通过以上原理,fairness_CCE不仅量化了双重目标,还直接指导了优化框架的设计,确保聚类集成结果在实际中更鲁棒和公正。实验验证了其有效性,如在基准数据集上显著提升Bal/MNCE和CCE/NE指标。

http://www.dtcms.com/a/334682.html

相关文章:

  • 【完整源码+数据集+部署教程】高尔夫球追踪与识别系统源码和数据集:改进yolo11-LAWDS
  • 026 inode 与软硬链接
  • [Oracle数据库] Oracle 复杂查询
  • 8.15 JS流程控制案例+解答
  • java 面试八股集锦
  • K8S HPA 弹性水平扩缩容 Pod 详解
  • 西门子SMART PLC监控时间戳问题BUG修复
  • Cursor执行命令卡顿解决办法(Cursor卡住、Cursor命令卡住、Cursor执行慢、Cursor执行命令慢)改成以管理员身份运行就好!!!
  • 《探索IndexedDB实现浏览器端UTXO模型的前沿技术》
  • 【CPP】自己实现一个CPP小工具demo,可以扩展其他选项
  • homebrew 2
  • pytorch例子计算两张图相似度
  • 创建maven module中的override
  • Maven下载和配置-IDEA使用
  • 自动化测试的下一站:AI缺陷检测工具如何实现“bug提前预警”?
  • uniapp跨端适配方案
  • Qt 动态属性(Dynamic Property)详解
  • SDN安全开发环境中常见的框架,工具,第三方库,mininet常见指令介绍
  • 【基础-判断】HarmonyOS提供了基础的应用加固安全能力,包括混淆、加密和代码签名能力
  • 守护品质安全,防伪溯源系统打造全链路信任体系
  • 物联网 (IoT) 的顶级硬件平台
  • IEEEtaes.cls解析
  • python---模块
  • 防御保护15
  • YOLOv8环境配置命令
  • GCN图卷积神经网络的Pytorch实现
  • Azure AI Search 探索总结
  • 数据库索引视角:对比二叉树到红黑树再到B树
  • 【计算机视觉与深度学习实战】03基于Canny、Sobel和Laplacian算子的边缘检测系统设计与实现
  • DeepSeek-R1-深度解析-通过强化学习激励大语言模型的推理能力