当前位置：首页 > news >正文

PAMI-2025《Fair Clustering Ensemble With Equal Cluster Capacity》

news 2025/8/18 18:16:27

核心思想

论文的核心思想是提出一种公平聚类集成（Fair Clustering Ensemble, FCE）方法，以解决传统聚类集成忽略公平性问题，同时针对现有群组级公平定义可能导致簇容量不均衡（即某些簇过大或过小）的缺陷。作者观察到，传统公平定义（如文献[17]中的定义）可能允许将大部分数据置于一个簇中，从而实现“完美公平”但牺牲簇均衡（如图1和图2所示的示例）。为此，作者引入了一个新的公平定义（fairness_CCE），它同时考虑公平性和簇容量均衡，并设计了一个简单有效的正则化项 $G^T Y‖_F^2$ ，将其嵌入聚类集成框架中。该方法以多个基础聚类结果作为输入，生成一个公平且簇容量均衡的共识聚类结果，而无需访问原始数据特征，从而保护隐私。该方法适用于涉及人类的实际应用，如社交网络和犯罪分析，并可作为后处理框架应用于任何聚类方法。

目标函数

论文的目标函数基于聚类集成框架，结合了公平性和簇容量均衡的正则化项。给定 $m$ 个基础聚类结果 $Y(1),…,Y(m)∈{0,1}n×cY^{(1)}, \dots, Y^{(m)} \in \{0,1\}^{n \times c}$ （ $n$ 为样本数， $c$ 为簇数），保护群组矩阵 $\in \{0,1\}^{n \times T}$ （ $T$ 为保护群组数），以及学习变量包括权重 $αi\alpha_i$ 、正交嵌入 $\in \mathbb{R}^{n \times c}$ 、旋转矩阵 $R(i),R∈Rc×cR^{(i)}, R \in \mathbb{R}^{c \times c}$ 和共识聚类矩阵 $\in \{0,1\}^{n \times c}$ 。目标函数为：
$\min_{\theta} \sum_{i=1}^m \alpha_i^2 \|H - Y^{(i)} R^{(i)}\|_F^2 + \lambda_1 \|Y - H R\|_F^2 + \lambda_2 \|G^T Y\|_F^2,$
其中 $θ={αi,H,R(i),R,Y}\theta = \{\alpha_i, H, R^{(i)}, R, Y\}$ ，约束为 $H^T H = I$ ， $R^{(i)T} R^{(i)} = I$ ， $R^T R = I$ ， $∑j=1cYij=1\sum_{j=1}^c Y_{ij} = 1$ ， $\leq \alpha_i \leq 1$ 且 $∑i=1mαi=1\sum_{i=1}^m \alpha_i = 1$ 。这里，第一项是集成损失，第二项用于离散化，第三项是作者设计的公平与均衡正则化项（ $λ1=0.001\lambda_1=0.001$ 固定， $λ2\lambda_2$ 为超参数）。

目标函数的优化过程

优化采用交替迭代策略，每个子问题固定其他变量求解：

优化 $H$ ：子问题为 $min_H -tr(H^T B)$ ，其中 $\sum_{i=1}^m \alpha_i^2 Y^{(i)} R^{(i)} + \lambda_1 Y R^T$ ，约束 $H^T H = I$ 。通过SVD分解 $\Sigma V^T$ ，闭式解为 $H = U V^T$ （基于Von Neumann迹不等式）。
优化 $R^{(i)}$ ：子问题为 $min_{R^{(i)}} -tr(R^{(i)T} C)$ ，其中 $C = Y^{(i)T} H$ ，约束 $R^{(i)T} R^{(i)} = I$ 。类似地，通过SVD求解。
优化 $R$ ：子问题为 $min_R -tr(R^T E)$ ，其中 $E = H^T Y$ ，约束 $R^T R = I$ 。通过SVD求解。
优化 $Y$ ：子问题为 $min⁡Y∥Y−HR∥F2+λ2∥GTY∥F2\min_Y \|Y - H R\|_F^2 + \lambda_2 \|G^T Y\|_F^2$ ，约束 $\in \{0,1\}^{n \times c}$ 且行和为1。逐行求解：对第 $i$ 行测试所有one-hot向量，选择目标函数值最低的。
优化 $αi\alpha_i$ ：子问题为 $min⁡αi∑i=1mαi2∥H−Y(i)R(i)∥F2\min_{\alpha_i} \sum_{i=1}^m \alpha_i^2 \|H - Y^{(i)} R^{(i)}\|_F^2$ ，约束 $\leq \alpha_i \leq 1$ 且 $∑αi=1\sum \alpha_i =1$ 。通过Cauchy-Schwarz不等式，闭式解为 $αi=∥H−Y(i)R(i)∥F−2/∑j=1m∥H−Y(j)R(j)∥F−2\alpha_i = \|H - Y^{(i)} R^{(i)}\|_F^{-2} / \sum_{j=1}^m \|H - Y^{(j)} R^{(j)}\|_F^{-2}$ 。

算法保证目标函数单调递减并有下界，因此收敛。时间复杂度为 $O(n^2 c^2)$ ，主要瓶颈在矩阵乘法，可并行加速。

主要贡献点

首个考虑公平性和簇容量均衡的聚类集成：传统聚类集成忽略公平，作者首次将群组级公平嵌入集成框架，作为后处理提升鲁棒性和隐私保护。
新公平定义：提出fairness_CCE定义，同时量化公平性和簇容量均衡，避免传统定义的簇不均衡问题（如将所有数据置于一个簇）。
简单有效的正则化项：设计 $G^T Y‖_F^2$ ，可同时实现公平（比例均衡）和簇容量均衡（大小均衡），并可退化为纯簇容量均衡项（当 $T = 1$ 时）。该项通用，可插入其他机器学习方法如k-means。
实验验证：在基准数据集上证明方法的有效性和优越性，包括公平、均衡和准确性的权衡讨论。

实验结果

实验在6个基准数据集上进行：D&S、HAR、MNIST-USPS、Reverse MNIST、JAFFE和Yale（详见Table I）。评估指标包括准确性（ACC、NMI）、公平性（Bal、MNCE，越大越公平）和簇容量均衡（CCE、NE，越大越均衡）。

与聚类集成方法比较：两组实验，一组用k-means基础结果（Tables II-IV），另一组用多样基础算法（Tables V-VII）。FCE在所有数据集上公平性和均衡指标上均优于11种SOTA方法（如BCE、RCE、LWGP等），如在MNIST-USPS上Bal为0.955、MNCE为0.988（最佳）。准确性相当或更好（如ACC/NMI在许多数据集上排名前二）。消融实验显示，去除正则化项的FCE-f在准确性上强，但公平/均衡弱；使用Hungary对齐的FCE-a不如旋转矩阵对齐的FCE稳定。
与公平聚类方法比较（Table VIII）：与SpFC、VFC、FFC、KFC、SFD、CFC比较，FCE在簇容量均衡上全面优越（如CCE/NE最高），公平性相当或更好（如在HAR上Bal为0.981）。某些方法（如SFD）虽公平高，但导致簇极不均衡（大部分数据在一个簇）。使用多样基础的FCE_dbase在整体排名上最佳（avg rank最低）。
其他结果：可视化显示FCE显著提升公平（Fig. 3）。收敛快（10迭代内，Fig. 4）。运行时间与SOTA相当（Fig. 5）。权衡曲线（Fig. 6）显示准确性与公平/均衡存在trade-off，但FCE在上右拐点处取得良好平衡。未知簇数版本（FCE_unknown_k，使用Silhouette指数）结果接近真簇数版本（Table IX）。

总体上，实验证实FCE在公平性和均衡上优越，同时保持聚类性能，适用于隐私敏感场景。

算法的实现过程

算法实现如Algorithm 1所示，详细步骤如下：

输入准备：给定 $m$ 个基础聚类结果 $C1,…,CmC_1, \dots, C_m$ 和保护群组 $G1,…,GTG_1, \dots, G_T$ ，超参数 $λ1=0.001\lambda_1=0.001$ 和 $λ2\lambda_2$ （调优范围 $10^{-5}, 10^1]$ ）。构建one-hot基础矩阵 $Y(1),…,Y(m)∈{0,1}n×cY^{(1)}, \dots, Y^{(m)} \in \{0,1\}^{n \times c}$ 和保护矩阵 $\in \{0,1\}^{n \times T}$ 。
初始化：设 $R = I$ ， $R^{(i)} = I$ ， $αi=1/m\alpha_i = 1/m$ 。初始化 $H$ 通过最小化 $∑i=1m∥H−Y(i)R(i)∥F2\sum_{i=1}^m \|H - Y^{(i)} R^{(i)}\|_F^2$ （SVD求解）。
迭代循环（直到收敛）：
- 更新 $Y$ ：逐行测试one-hot向量，选择最小化 $∥Y−HR∥F2+λ2∥GTY∥F2\|Y - H R\|_F^2 + \lambda_2 \|G^T Y\|_F^2$ 的行。需计算矩阵乘法，如 $G^T Y)_{kj}$ 表示群组 $k$ 在簇 $j$ 中的样本数。
- 更新 $R$ ：对 $E = H^T Y$ 进行SVD， $R = U V^T$ （ $\Sigma V^T$ ）。
- 更新 $R^{(i)}$ ：对每个 $i$ ，对 $C = Y^{(i)T} H$ 进行SVD， $R^{(i)} = U V^T$ 。
- 更新 $H$ ：对 $\sum_{i=1}^m \alpha_i^2 Y^{(i)} R^{(i)} + \lambda_1 Y R^T$ 进行SVD， $H = U V^T$ 。
- 更新 $αi\alpha_i$ ：计算 $αi=∥H−Y(i)R(i)∥F−2/∑j=1m∥H−Y(j)R(j)∥F−2\alpha_i = \|H - Y^{(i)} R^{(i)}\|_F^{-2} / \sum_{j=1}^m \|H - Y^{(j)} R^{(j)}\|_F^{-2}$ ，确保 $αi\alpha_i$ 在[0,1]并归一化。
输出：共识聚类矩阵 $Y$ ，从中提取簇标签。

实现中，SVD使用标准库（如NumPy），矩阵乘法可并行。收敛判断基于目标函数变化小于阈值（如 $10^{-4}$ ）。如果簇数未知，可用Silhouette指数搜索 $c$ 。

fairness_CCE的算法原理

fairness_CCE是论文中提出的一种新型公平性度量指标，用于同时评估聚类结果的群组级公平性（group-level fairness）和簇容量均衡性（cluster capacity equality）。它基于传统公平定义（如文献[17]中的Definition 1）进行扩展，旨在解决传统定义忽略簇容量导致的不均衡问题（如将大部分数据置于一个簇中仍被视为“完美公平”）。下面，我将详细介绍其算法原理，包括定义、数学推导、为什么能同时实现公平与均衡、以及如何引导设计正则化项。

1. 背景与问题分析

在聚类任务中，给定数据集 $\in \mathbb{R}^{n \times d}$ （ $n$ 个样本， $d$ 维特征），聚类结果为 $\{\pi_1, \dots, \pi_c\}$ （ $c$ 个簇）。假设有 $T$ 个不相交的保护群组 $G1,…,GTG_1, \dots, G_T$ （如性别、种族等敏感群体）。

传统公平定义（Definition 1）：

令 $ηi=∣Gi∣/n\eta_i = |G_i| / n$ 为群组 $G_i$ 在整个数据集中的比例。
令 $ηi(k)=∣πk∩Gi∣/∣πk∣\eta_i(k) = |\pi_k \cap G_i| / |\pi_k|$ 为群组 $G_i$ 在簇 $πk\pi_k$ 中的比例。
簇 $πk\pi_k$ 的公平性： $fairness(πk)=min⁡i(min⁡(ηi/ηi(k),ηi(k)/ηi))fairness(\pi_k) = \min_i (\min(\eta_i / \eta_i(k), \eta_i(k) / \eta_i))$ 。
整体公平性： $\min_k fairness(\pi_k) \in [0,1]$ （越大越公平）。

问题：该定义忽略簇容量 $∣πk∣|\pi_k|$ ，可能导致极不均衡簇（如所有样本到一个簇， $f ai r n ess (C) = 1$ 但容量不均）。论文引入簇容量均衡定义（Definition 2）：
$\min_{i,j} \left( \frac{|\pi_i|}{|\pi_j|} \right) \in [0,1]$
（越大越均衡，当 $∣πk∣=n/c|\pi_k| = n/c$ 时最优）。

为同时衡量二者，作者提出fairness_CCE。

2. fairness_CCE的数学定义

Definition 3（fairness_CCE）：

令 $γi(k)=∣πk∩Gi∣/∣Gi∣\gamma_i(k) = |\pi_k \cap G_i| / |G_i|$ 为簇 $πk\pi_k$ 在群组 $G_i$ 中的比例（注意：这与传统 $ηi(k)\eta_i(k)$ 方向相反，是簇在群组中的占比）。
簇 $πk\pi_k$ 的fairness_CCE：
$fairness_CCE(πk)=min⁡i∈{1,…,T}(min⁡(cγi(k),1cγi(k))) fairness\_CCE(\pi_k) = \min_{i \in \{1,\dots,T\}} \left( \min \left( c \gamma_i(k), \frac{1}{c \gamma_i(k)} \right) \right)$
整体聚类结果的fairness_CCE：
$fairness_CCE(C)=min⁡k∈{1,…,c}fairness_CCE(πk)∈(0,1] fairness\_CCE(C) = \min_{k \in \{1,\dots,c\}} fairness\_CCE(\pi_k) \in (0,1]$
（越大，表示结果越公平且簇容量越均衡）。

备注：

值域 $(0, 1]$ ：当 $\gamma_i(k) = 1$ （即 $γi(k)=1/c\gamma_i(k) = 1/c$ ）时，达到最大1（完美公平与均衡）。
与传统定义的区别：传统关注群组在簇中的比例 $ηi(k)≈ηi\eta_i(k) \approx \eta_i$ ；fairness_CCE关注簇在群组中的比例 $γi(k)≈1/c\gamma_i(k) \approx 1/c$ ，这隐含了容量约束。

3. 为什么fairness_CCE能同时衡量公平性和簇容量均衡？

原理基于数学等价性推导。fairness_CCE越大，意味着对于所有 $i, k$ ， $\gamma_i(k)$ 越接近1（因为 $min⁡(cγi(k),1/(cγi(k)))\min(c \gamma_i(k), 1/(c \gamma_i(k)))$ 在1处最大）。

推导过程：

$\gamma_i(k) \approx 1$ 等价于：
$\cdot \frac{|\pi_k \cap G_i|}{|G_i|} \approx 1 \implies |\pi_k \cap G_i| \approx \frac{|G_i|}{c}$
这表示每个群组 $G_i$ 被均匀分配到 $c$ 个簇中（每个簇获得约 $G_i|/c$ 个来自 $G_i$ 的样本）。
簇容量均衡的推导：对所有群组 $i = 1$ 到 $T$ 求和（注意群组不相交， $∑i∣πk∩Gi∣=∣πk∣\sum_i |\pi_k \cap G_i| = |\pi_k|$ ， $∑i∣Gi∣=n\sum_i |G_i| = n$ ）：
$\sum_{i=1}^T |\pi_k \cap G_i| \approx \sum_{i=1}^T \frac{|G_i|}{c} \implies |\pi_k| \approx \frac{n}{c}$
这正好是簇容量均衡的理想状态（每个簇大小相近，避免极大规模或小簇）。根据Definition 2， $CCE (C)$ 趋近1。
公平性的推导：将上式 $∣πk∩Gi∣≈∣Gi∣/c|\pi_k \cap G_i| \approx |G_i|/c$ 除以 $∣πk∣≈n/c|\pi_k| \approx n/c$ ：
$\frac{|\pi_k \cap G_i|}{|\pi_k|} \approx \frac{|G_i|/c}{n/c} = \frac{|G_i|}{n}$
左侧是 $ηi(k)\eta_i(k)$ ，右侧是 $ηi\eta_i$ ，因此 $ηi(k)≈ηi\eta_i(k) \approx \eta_i$ ，根据Definition 1， $f ai r n ess (C)$ 趋近1（公平）。

总结：fairness_CCE通过强制 $γi(k)≈1/c\gamma_i(k) \approx 1/c$ ，隐含地实现了群组均匀分配，从而同时提升公平（比例均衡）和均衡（大小均衡）。这解决了传统定义的缺陷，如在Reverse MNIST数据集上，SFD方法公平高（Bal=0.709, MNCE=0.979）但均衡低（CCE=0.029, NE=0.558），因为它未显式约束容量。

4. 如何引导设计正则化项

fairness_CCE的核心洞察是公式(4)： $∣πk∩Gi∣≈∣Gi∣/c|\pi_k \cap G_i| \approx |G_i|/c$ ，即每个群组均匀分配到簇中。基于此，作者设计一个优化问题来实现它，并推导出正则化项。

构建矩阵：保护群组one-hot矩阵 $\in \{0,1\}^{n \times T}$ （ $G_{ij}=1$ 若样本 $i$ 属于群组 $j$ ）。聚类结果one-hot矩阵 $\in \{0,1\}^{n \times c}$ （ $Y_{ij}=1$ 若样本 $i$ 在簇 $j$ ）。
定义 $G^T Y \in \mathbb{R}^{T \times c}$ ，其中 $Aij=∣πj∩Gi∣A_{ij} = |\pi_j \cap G_i|$ （群组 $i$ 在簇 $j$ 中的样本数）。
对于每个群组 $i$ ，要实现均匀分配，即 $Ai1,…,AicA_{i1}, \dots, A_{ic}$ 相近，且 $∑j=1cAij=∣Gi∣\sum_{j=1}^c A_{ij} = |G_i|$ （常量）。优化问题：
$\min_{A_{i1},\dots,A_{ic}} \sum_{j=1}^c A_{ij}^2 \quad s.t. \quad \sum_{j=1}^c A_{ij} = |G_i|$
最优解： $Ai1=⋯=Aic=∣Gi∣/cA_{i1} = \dots = A_{ic} = |G_i|/c$ （因为二次和在均值处最小，类似于方差最小化）。
对所有群组求和，得到整体正则化项：
$\min_A \sum_{k=1}^T \sum_{j=1}^c A_{kj}^2 = \min_A \|A\|_F^2 = \min_Y \|G^T Y\|_F^2$
（Frobenius范数）。

这个项嵌入目标函数中，作为公平与均衡的惩罚：最小化 $G^T Y\|_F^2$ 会推动 $Y$ 向均匀分配方向优化，从而提升fairness_CCE。

5. 算法特性与扩展

范围与阈值：若需明确“公平”阈值，可设 $δ\delta$ ，若 $fairness_CCE≥δfairness\_CCE \geq \delta$ 则公平。
特殊情况：若无保护群组（ $T = 1$ ， $G$ 为全1向量），则退化为纯簇容量均衡正则化 $1^T Y\|_F^2$ 。
通用性：该正则化项简单（仅需伪标签 $Y$ 和 $G$ ），可插入其他方法如k-means、谱聚类。
权衡：论文讨论公平、均衡与准确性可能冲突（准确性用外部标签如ACC/NMI衡量，可能基于不公平的ground truth）。在人类相关应用中，优先公平/均衡。