Effectively Using Public Data in Privacy Preserving Machine Learning
**背景**:DP会降低效用,有工作表明,在保证DP训练模型时候,利用公共数据可以提高隐私和效用的权衡。
**核心**:探索DP模型中使用公共数据的潜力,文章收益大于先前工作的收益。
DOPE-SGD 探索使用公共数据 / 合成数据去重新确定梯度的“起点”(origin),即通过公共数据推断一个参考点或修正梯度方向,从而在裁剪与加噪过程中减少信息损失、降低噪声方差
*方法*:
1.提出DOPESGD,在训练期间使用公共数据。
1.1 利用公共数据生成合成数据。数据增强技术
1.2 在DPSGD中使用改进的梯度裁剪机制,利用从可用的公共数据推断的信息来改变梯度向量的来源。
1.3 引入一种通过利用DP后处理来集成中间DP模型的技术。
实验结果:
假设:可以访问2000张公共数据集