当前位置: 首页 > news >正文

【论文阅读】Towards Fair Federated Learning via Unbiased Feature Aggregation

Towards Fair Federated Learning via Unbiased Feature Aggregation -- 面向公平联合学习的无偏特征聚合

  • TLDR
  • 背景
  • 本文贡献
  • 预备知识
    • 知识蒸馏
    • 模型公平性
  • 系统模型
  • FedUFA
    • 无偏特征映射
    • 特征偏差识别
      • 判别器 D
      • 预测器 P
      • 对抗训练
    • 模型偏差缓解
  • 总结
    • 优点
    • 缺点

名称Towards fair federated learning via unbiased feature aggregation
期刊IEEE Transactions on Dependable and Secure Computing
作者Zeqing He, Zhibo Wang*, Xiaowei Dong, Peng Sun, Ju Ren, Kui Ren
DOI10.1109/TDSC.2025.3541306

TLDR

为了解决联邦学习中的不公平(偏见)问题,论文提出了FedUFA,首个支持异构模型架构的公平联邦学习框架。该方法通过服务器端的无偏特征聚合机制,利用知识蒸馏对抗训练消除客户端特征中的敏感属性信息,并且无需访问原始数据。

背景

  1. 由于联邦学习中服务器无法访问本地数据,而客户端中可能存在敏感信息(种族、性别等),这些敏感信息可能会在聚合后导致全局模型出现决策不公平现象;
  2. 联邦学习中的客户端可能使用不同的模型架构,这导致全局平均聚合(FedAvg)已不再适用。

本文贡献

  • 作者表示本文提出了首个公平联邦学习框架(即 FedUFA),用于缓解在客户端具有异构本地模型的实际联邦学习系统中出现的模型不公平问题。
  • 本文提供了一种公平的知识蒸馏方案,用于在服务器端对本地模型去偏,并设计了一个无偏特征映射器,以移除客户端在公共数据集上学习并上传的特征中的公平性敏感信息。具体而言,无偏特征映射器在训练过程中对抗一个判别器(用于识别敏感信息)和一个预测器(用于根据上传的特征区分目标标签)。该设计在服务器端生成公平且一致的潜在表示,客户端可利用这些表示对本地模型进行去偏处理。

预备知识

知识蒸馏

知识蒸馏是一种流行的技术,用于将知识从更大、更复杂的模型转移到更小、更高效的模型。一个知识蒸馏系统由三个主要组成部分构成,即 知识蒸馏算法师生架构
具体而言,知识可以体现为多种形式,如软输出特征表示关系知识 。其基本前提是学生模型模仿教师模型,旨在实现相当甚至更优的性能。

在各种知识蒸馏技术中,基于特征的知识蒸馏是一种广泛使用的范式,它利用教师模型中间层的特征表示来指导学生模型的训练。相应地,基于特征的知识蒸馏的损失函数 L k d ( ⋅ ) L_{kd}(\cdot) Lkd() 定义为
eq1
其中, f t ( x ) f_t(x) ft(x) f s ( x ) f_s(x) fs(x) 分别表示针对给定输入 x x x 时教师模型和学生模型中间层的特征表示。转换函数 Φ t ( ⋅ ) \Phi_t(\cdot) Φt() Φ s ( ⋅ ) \Phi_s(\cdot) Φs() f t ( x ) f_t(x) ft(x) f s ( x ) f_s(x) fs(x) 映射到相同空间,以便进行比较。这里, L F L_F LF 表示一种差异度量方法,例如 L 2 L_2 L2 范数距离或交叉熵损失,用于量化教师模型与学生模型特征图之间的差异。

模型公平性

本文考虑联邦模型的 二分类任务,并采用两种广泛使用的指标(即人口均衡和机会均等)来衡量模型的公平性。作者使用 y ∈ { − 1 , 1 } y \in \{−1, 1\} y{1,1} y ^ ∈ { − 1 , 1 } \hat{y} \in \{−1, 1\} y^{1,1} s ∈ { − 1 , 1 } s \in \{−1, 1\} s{1,1} 分别表示目标标签、模型预测值和敏感属性(例如性别)。人口均衡和机会均等的形式化定义如下所示:

  • 定义 1:人口平等(Demographic Parity, DP) 如果敏感属性 s s s 不会影响将样本预测为正类,可以说该模型满足人口平等。形式化地有
    eq4
    其中 P ( y ^ = 1 ∣ s ) P (\hat{y} = 1 \mid s) P(y^=1s) 表示在具有敏感属性 s s s 的样本中被预测为正类的概率。

  • 定义 2:均衡机会(Equalized Odds, EO)
    如果预测值 y ^ \hat{y} y^ 与敏感属性 s s s 在目标标签 y y y 条件下相互独立,可以说该模型满足均衡机会。形式化地有
    eq5

其中 P ( y ^ = 1 ∣ y , s ) P (\hat{y} = 1 \mid y, s) P(y^=1y,s) 表示在已知标签 y ∈ { − 1 , 1 } y \in \{-1, 1\} y{1,1} 和敏感属性 s s s 的情况下,将样本预测为正类的概率。

系统模型

本文明确地讨论联邦模型的二分类任务。

考虑一个由 K K K 个客户端和一个中心服务器组成的联邦学习(FL)系统,客户端集合为 C = { c 1 , … , c K } C = \{c_1, \ldots, c_K\} C={c1,,cK}。每个客户端 c k c_k ck 拥有一个私有数据集 D k = { x k , y k , s k } D_k = \{x_k, y_k, s_k\} Dk={xk,yk,sk},其中 x k x_k xk 表示 D k D_k Dk 中样本的输入, y k y_k yk 表示目标标签(例如,被录用或未被录用), s k s_k sk 表示敏感属性标签(例如,性别)。

此外,每个客户端 c k c_k ck 拥有一个本地模型 w k = w k f ⋅ w k p w_k = w_k^f \cdot w_k^p wk=wkfwkp,其中 w k f w_k^f wkf 表示特征提取器, w k p w_k^p wkp 表示预测器。由于客户端的硬件条件和功能需求多样化,他们可以训练在层深和架构设计上均可能不同的模型,以满足各自的特定需求。

本文利用一个包含 N N N 个样本的小规模公共数据集 D G = { x G , y G , s G } D_G = \{x_G, y_G, s_G\} DG={xG,yG,sG},该数据集可被服务器和客户端共同访问。

FedUFA

为了缓解联邦学习中的不公平性问题,本文提出了一种基于特征的知识蒸馏方法,将客户端本地学习到的知识传输到服务器进行聚合。FedUFA 的示意图如下:
fig2

包含三个主要模块:

  • 无偏特征映射:该模块旨在将来自客户端的原始特征(不同形状)映射到共享的潜在空间,并去除与公平性相关的敏感特征,从而生成用于聚合的无偏对齐特征。
  • 特征偏差识别:该模块用于识别全局知识中的偏差(即由模块 M M M 生成并聚合的无偏对齐特征)。它由标签预测器 P P P 和判别器 D D D 组成。前者被训练用于区分联邦学习任务中的 目标标签 ,后者被训练用于识别与公平性相关的 敏感特征
  • 模型偏差缓解:该模块在客户端执行,通过由服务器反馈的无偏全局知识指导的知识蒸馏,获取公平的本地模型。

无偏特征映射

在FedUFA 中,客户端上传服务器的不是模型参数,而是本地模型在公共数据集 D G D_G DG 上的中间特征。考虑到来自客户端的原始特征可能具有不同的形状,并包含源自本地训练数据的偏差,本文设计了一个无偏特征映射器 M M M,以获得无偏且对齐的特征,然后将其聚合成无偏的全局知识,用于缓解不公平问题。

无偏特征映射器 M = M A ⋅ M E M = M_A \cdot M_E M=MAME 由对齐层 M A M_A MA 和去偏提取器 M E M_E ME 构成。前者用于对齐来自客户端的原始特征的维度,后者用于提取无偏信息。

服务器收集每个客户端 c k c_k ck 上传的本地特征 h k h_k hk,并将其输入无偏特征映射器,以获得对齐且无偏的特征 M ( h k ) M(h_k) M(hk),这些特征可进一步聚合以获得全局知识 h G h_G hG。该过程可表示为
eq6
其中 K t K^t Kt 表示本轮被选中的客户端数量。

特征偏差识别

无偏特征映射器与特征偏差识别模块通过 对抗训练 以联合优化。

具体而言,无偏特征映射器 M M M 通过与 D D D P P P 的对抗式训练,一方面欺骗判别器 D D D,另一方面保持在预测器 P P P 上的良好性能。通过这种方式,无偏特征映射器 M M M 学会去除用于减轻偏差的敏感特征,同时保留预测特征以维持 FL 任务的性能。

判别器 D

判别器 D D D 从对齐的 聚合特征 中识别与公平性相关的 敏感特征,即尽可能准确地预测敏感属性。判别器 D D D 通过最小化以下损失函数来进行训练:
eq7
其中, h G h_G hG 表示当前轮次中聚合的全局特征, D ( h G ) D(h_G) D(hG) s G s_G sG 分别是对敏感属性的预测值和真实值, J ( ⋅ ) J(\cdot) J() 表示交叉熵损失。

预测器 P

标签预测器 P P P 用于从聚合的全局特征中区分目标标签,来保持在 FL 任务上的性能。形式化地,目标标签预测器 P P P 通过最小化损失函数进行训练:
eq8
其中, h G h_G hG 再次表示聚合的 全局特征 P ( h G ) P(h_G) P(hG) y G y_G yG 分别表示公共数据集中目标标签的预测值和真实值。

对抗训练

为在保持联邦学习(FL)任务良好性能的同时缓解模型的不公平性,无偏特征映射器 M M M 有两方面作用:

  1. 无偏特征映射器 M M M 通过从客户端提交的特征中移除与公平性相关的信息,从而欺骗判别器 D D D。因此,无偏特征映射器 M M M 的公平性目标是最大化公式 (7) 中定义的 L D L_D LD
  2. M M M 应该在全局特征表示中保留与目标任务相关的特征,以维持 FL 任务的性能。因此,无偏特征映射器 M M M 的目标标签预测目标是最小化公式 (8) 中定义的 L P L_P LP

总体而言,在 FedUFA 中,无偏特征映射器 M 的总损失函数表示为:
eq9
其中 α ∈ [ 0 , 1 ] \alpha \in [0, 1] α[0,1] 是一个超参数,用于在 预测准确性公平性方面 平衡模型性能。

模型偏差缓解

在完成无偏特征映射器 M M M 的对抗训练过程后,服务器将 M M M 中的对齐层 M A M_A MA 和公平的全局特征广播给客户端,以帮助减轻本地模型中的偏差。

每个客户端的本地训练过程如下所述:

每个客户端 c k c_k ck 首先使用其私有数据集 D k D_k Dk 训练本地模型。给定输入数据样本 x x x 和目标标签 y y y,然后计算预测损失:
L c e = J ( w k ( x ) , y ) L_{ce}=\mathcal{J}(w_k(x),y) Lce=J(wk(x),y)
其中, w k w_k wk 是客户端 c k c_k ck 的当前本地模型, J \mathcal{J} J 用于计算交叉熵损失。

但是如果客户端仅仅最小化 L c e L_{ce} Lce 可能会导致不公平现象,为减轻不公平性,本文利用无偏的全局特征 h G h_G hG 作为监督,通过知识蒸馏训练本地模型。

首先,由于局部特征和全局特征的形状可能不同,客户端需要使用对齐层将局部特征投射到与全局特征相同的形状。其次,在知识蒸馏过程中,本文采用最大均值差异(MMD)损失来衡量局部特征与全局特征之间的差异。

h k = { h k i } i = 1 N h_k = \{ h_k^i\}_{i=1}^N hk={hki}i=1N 表示客户端 c k c_k ck 的局部特征集合,其中 h k i = M A ( w f k ( x G i ) ) h_k^i = MA(w_f^k(x_G^i)) hki=MA(wfk(xGi)) 表示在公共样本 x G i x_G^i xGi 上通过 M A M_A MA 对齐的局部特征。令 h G = { h G i } i = 1 N h_G = \{ h_G^i \}_{i=1}^N hG={hGi}i=1N 表示全局特征。对 h k h_k hk h G h_G hG 的 MMD 距离的经验近似计算为:
eq11
其中 ϕ \phi ϕ 是一个映射函数。通过进一步使用固定的高斯核进行展开,基于 MMD 的客户端 c k c_k ck 的知识蒸馏损失 L k d L_{kd} Lkd 可以表示为:
eq12
其中 Γ \Gamma Γ 是一种核函数,可以将样本向量隐式映射到更高维的特征空间。

然后,本地训练的总损失表示为:
L l o c a l = ( 1 − γ ) L k d + γ L c e L_{local}=(1- \gamma)L_{kd}+\gamma L_{ce} Llocal=(1γ)Lkd+γLce
其中 γ ∈ [ 0 , 1 ] \gamma \in [0, 1] γ[0,1] 是一个超参数,用于控制 L c e L_{ce} Lce L k d L_{kd} Lkd 之间的权重。通过最小化 L l o c a l L_{local} Llocal ,当地模型能够很好地拟合本地训练数据并减轻潜在的偏差。

FedUFA 的全部伪代码可见 算法1 和 算法 2:
alg1
alg2

总结

优点

  • 提出了首个支持 异构模型架构公平联邦学习 框架,填补了实际FL场景中公平性研究的空白;
  • 采用基于特征的 知识蒸馏 机制,解决异构模型兼容性问题;
  • 使用最大均值差异(MMD)损失实现特征分布对齐;
  • 客户端不上传模型参数二十上传特征图,
  • 采用对抗训练机制,协同训练不同模块。

缺点

  • 计算复杂,集成知识蒸馏和对抗训练增加了系统复杂性,作者在论文讨论部分承认这可能导致更高计算需求和更长训练时间;
  • 需要预先识别公平敏感属性;
  • 公共数据集与客户端数据分布差异较大时性能下降(实验中数据采样率 b < 0.2 b<0.2 b<0.2 时效果明显降低);
  • 没有考虑隐私保护。
http://www.dtcms.com/a/583234.html

相关文章:

  • 百度如何推广网站wordpress改语言
  • 做网站小程序php做网站用html做吗
  • 网站建设可行性报告自学程序员怎么入门
  • 高端定制网站的特点建设企业网站的需求分析
  • 浙江省工程建设质量管理协会 网站宁波网站建设开发公司
  • 从考试到实战:全面解析大模型的评估与基准测试体系
  • 【MySQL | 基础】概念
  • 大连地区建设网站怎么优化推广自己的网站
  • 设计微信公众号的网站吗网站建设维护招聘要求
  • 韩国平面设计网站php 抓取 wordpress 文字内容
  • 3800给做网站医院网站建设与管理ppt
  • 商城类网站功能wordpress增加底部导航
  • C语言复习二(2025.11.7)
  • Android Studio 多语言助手插件:让多语言管理变得简单高效
  • 京东的网站建设拓和科技有限公司网站
  • 中国铁路建设监理协会官方网站公司想建个网站
  • 凯里网站建设济宁市兖州区建设局网站
  • 北京网站建站系统平台新时代文明实践站网址
  • 如何更改网站源码用dw做的网站怎样弄上网上
  • 如何在局域网内做网站WordPress使用两个模板
  • 宝马itms做课网站老闵行小学排名
  • 天津建站费用企业网站设计目的和意义
  • 网站快速备案价格中国交通建设网官方网站
  • wordpress登录网站网站建设公司怎么找渠道
  • 网页的创新型网站策划无锡网站建设哪家公司比较好
  • 网站维护要多久微信小程序制作多少钱一个
  • 从美拉德大片到《龙骨焚箱》:武者周小飞的柔与刚
  • 电影网站如何做seowordpress简约新闻自媒体主题
  • 解决SGIP1.2无心跳问题的思路
  • 家具品牌网站怎么做js 网站首页下拉广告