如何学习联邦学习和差分隐私
一、学习联邦学习
1. 基础准备
-
前置知识:
-
机器学习:掌握深度学习(CNN/RNN)、优化算法(SGD)、模型评估。
-
分布式系统:了解客户端-服务器架构、通信协议(gRPC/HTTP)。
-
隐私基础:熟悉数据匿名化、加密的基本概念。
-
-
推荐资源:
-
书籍:《Deep Learning》(Ian Goodfellow) 第1-8章。
-
课程:Coursera Deep Learning Specialization。
-
2. 联邦学习核心理论
-
关键概念:
-
横向联邦学习 vs. 纵向联邦学习 vs. 联邦迁移学习。
-
联邦平均(FedAvg)、梯度聚合、客户端选择策略。
-
-
经典论文:
-
Communication-Efficient Learning of Deep Networks from Decentralized Data(McMahan et al., 2017,联邦学习奠基论文)。
-
Federated Learning: Challenges, Methods, and Future Directions(综述论文)。
-
-
学习资源:
-
书籍:《Federated Learning》(Qiang Yang等著)。
-
课程:微众银行开源的FATE联邦学习课程。
-
3. 动手实践
-
工具与框架:
-
PySyft(基于PyTorch的隐私库):官方教程。
-
TensorFlow Federated (TFF):Google的联邦学习框架,入门指南。
-
FATE(工业级框架):中文文档。
-
-
实验项目:
-
用TFF实现MNIST手写数字的横向联邦训练。
-
模拟医院间的纵向联邦学习(特征对齐+模型训练)。
-
4. 进阶方向
-
研究前沿:
-
联邦学习与区块链结合(去中心化信任)。
-
非独立同分布(Non-IID)数据下的优化。
-
-
挑战赛:
-
参加Kaggle或天池的联邦学习相关比赛(如隐私保护预测)。
二、学习差分隐私(Differential Privacy)
1. 基础理论
-
核心定义:
-
(ε, δ)-DP:隐私预算(ε)和失败概率(δ)的数学定义。
-
敏感度(Sensitivity)、拉普拉斯机制、高斯机制。
-
-
必读论文:
-
Calibrating Noise to Sensitivity in Private Data Analysis(Dwork et al., 2006,DP开创性论文)。
-
The Algorithmic Foundations of Differential Privacy(教材级综述)。
-
-
2. 实践工具
-
开源库:
-
IBM Differential Privacy Library:GitHub。
-
Google DP(基于C++的库):文档。
-
-
课程推荐:
-
Coursera Differential Privacy(微软出品)。
3. 应用场景
-
联邦学习+DP:
-
在客户端上传梯度前添加噪声(如DP-SGD算法)。
-
-
数据发布:
-
生成满足DP的统计报表(如人口普查数据)。
-
-
4. 数学强化
-
重点数学知识:
-
概率论(分布函数、卷积)。
-
线性代数(矩阵分解、范数计算)。
-
-
推荐资源:
-
《Probability and Computing》(Mitzenmacher著)第7章。
三、联邦学习与差分隐私的结合
1. 关键技术
-
DP-FedAvg:
-
在客户端梯度更新时添加噪声,服务器聚合时进一步模糊化。
-
-
隐私放大(Privacy Amplification):
-
通过子采样(Subsampling)降低实际隐私预算消耗。
-
-
2. 实验设计
-
目标:在联邦学习中实现(ε=2.0, δ=1e-5)-DP保护。
-
步骤:
-
客户端本地训练后,对梯度添加拉普拉斯噪声。
-
服务器使用安全聚合(Secure Aggregation)汇总梯度。
-
计算总隐私预算消耗(使用Moments Accountant)。
-
-
论文与代码:
-
Practical Secure Aggregation for Federated Learning(Google安全聚合协议)。
-
参考TensorFlow Privacy库中的DP-FedAvg实现。
四、学习资源整合
类型 联邦学习 差分隐私 理论 《Federated Learning》书籍 《The Algorithmic Foundations of DP》 框架 TensorFlow Federated, FATE IBM DP Library, Google DP 课程 微众银行FATE课程 Coursera微软DP课程 论文 McMahan 2017 (FedAvg) Dwork 2006 (DP基础) 五、常见误区与避坑指南
-
误区1:认为联邦学习天然绝对安全。
-
纠正:必须结合DP或加密技术才能抵抗攻击。
-
-
误区2:过度追求隐私导致模型性能下降。
-
纠正:平衡隐私预算(ε)与模型精度(调参实验)。
-
-
-
-
-