横向联邦学习、纵向联邦学习与联邦迁移学习是联邦学习的三大主要分支
1. 横向联邦学习(Horizontal Federated Learning, HFL)
核心特征:
-
数据分布:各参与方的数据特征空间相同,样本ID不同(即特征重叠,样本不重叠)。
例如:不同地区的银行拥有相同的用户特征(年龄、收入),但用户群体不同。 -
训练方式:各参与方训练相同的模型结构,服务器聚合模型参数(如FedAvg)。
适用场景:
-
跨机构同构数据:如多个手机厂商用各自用户的输入行为数据联合训练输入法模型。
-
边缘设备协作:智能手机、IoT设备等数据分散但特征一致的场景。
优点:
-
实现简单,可直接应用传统联邦平均(FedAvg)算法。
-
适合大规模分布式设备(如Google的Gboard输入法)。
使用频率:
-
最常用,尤其是C端场景(移动端、物联网)。
2. 纵向联邦学习(Vertical Federated Learning, VFL)
核心特征:
-
数据分布:各参与方的数据样本ID相同,特征空间不同(即样本重叠,特征不重叠)。
例如:医院和保险公司拥有同一批患者,但医院有体检数据,保险公司有理赔记录。 -
训练方式:需先对齐样本(如PSI协议),再联合训练(如分割模型:部分层在各方本地,部分层协同计算)。
适用场景:
-
跨行业数据互补:如金融+电商联合反欺诈(电商提供行为数据,银行提供信用数据)。
-
隐私敏感领域:医疗、金融等需保护垂直特征数据的场景。
优点:
-
能利用多维度特征提升模型效果。
挑战:
-
样本对齐需加密计算(计算开销大)。
-
模型结构复杂(需设计分割网络)。
使用频率:
-
增长快,尤其在B端跨行业合作中(如微众银行的FATE框架支持VFL)。
3. 联邦迁移学习(Federated Transfer Learning, FTL)
核心特征:
-
数据分布:各参与方的数据样本ID和特征空间均不同(即样本和特征均不重叠)。
例如:中文电商和英文社交平台的数据完全异构。 -
训练方式:通过迁移学习(如特征映射、域适应)在联邦框架下共享知识。
适用场景:
-
跨域异构数据:如不同语言、不同业务领域的机构协作(医疗影像+病理报告)。
-
小数据方辅助训练:数据量极少的参与方借助其他域数据提升模型。
优点:
-
解决数据完全异构的极端场景。
挑战:
-
需设计复杂的迁移机制(如对抗训练、共享隐空间)。
-
训练稳定性差,易受负迁移影响。
使用频率:
-
较少,仅在特定需求下使用(如跨国企业合作)。
三 对比总结
维度 横向联邦学习(HFL) 纵向联邦学习(VFL) 联邦迁移学习(FTL) 数据重叠 特征重叠,样本不重叠 样本重叠,特征不重叠 样本和特征均不重叠 典型场景 多手机厂商联合训练模型 医院+保险公司联合建模 跨国电商+社交平台合作 技术难点 非IID数据优化 样本对齐、分割模型设计 跨域知识迁移 使用频率 ★★★★★(最常用) ★★★☆(B端增长快) ★★☆(小众场景) 四、如何选择?
-
优先横向联邦学习:
-
如果参与方的数据特征相似(如都是用户行为数据),且样本不同(如不同地区用户)。
-
案例:Google联合数百万手机训练下一词预测模型。
-
-
选择纵向联邦学习:
-
如果参与方拥有同一批实体的不同特征(如医院有体检数据,药企有用药记录)。
-
案例:银行与电商平台联合反欺诈(电商提供购物行为,银行提供交易流水)。
-
-
考虑联邦迁移学习:
-
仅在数据完全异构且必须协作时使用(如跨语言、跨模态数据)。
-
案例:中文医疗文本模型迁移到英文临床数据。
五、行业应用现状
-
横向联邦学习占据主流(约70%应用),因其适合C端海量设备场景(手机、IoT)。
-
纵向联邦学习在金融、医疗等B端领域快速普及(如微众银行FATE框架)。
-
联邦迁移学习仍处于研究探索阶段,实际落地较少。
六、未来趋势
-
横向联邦:继续主导边缘计算场景(5G/6G时代更多终端设备参与)。
-
纵向联邦:随着隐私计算技术(如MPC)成熟,将成为跨行业数据合作的核心方案。
-
联邦迁移:需突破跨模态对齐技术(如文本→图像的联邦迁移)。
七. 横向联邦学习的深挖方向——隐私-效率权衡
7.1研究价值
-
(1)现实瓶颈:横向联邦虽成熟,但在隐私保护(DP/SMPC)与模型性能的平衡上仍有挑战。
-
(2)关键问题:
-
如何降低差分隐私(DP)引入的噪声对模型精度的影响?
-
如何设计轻量级加密协议(如部分同态加密)以减少计算开销?
-
7.2推荐课题
-
自适应差分隐私算法
-
动态调整隐私预算(ε)分配,优先保护敏感层梯度。
-
-
联邦学习的稀疏化训练
-
通过梯度稀疏化(如Top-k选择)减少通信量,同时增强隐私。
-
工具:PySyft中的稀疏梯度聚合模块。
-
-
-