当前位置：首页 > news >正文

【数据保护】一种安全高效的全匿踪纵向联邦学习方法

news 2025/9/26 8:35:38

论文：一种安全高效的全匿踪纵向联邦学习方法

最近在做一些企业级大模型应用落地的场景，接受到企业最多的顾虑就是数据安全，今天偶然看到一篇很有意思的文章，讨论的是全流程数据不泄露的范式，是24年发表在信息安全研究期刊的一篇论文，作者主要来自国内隐私计算头部企业以及中国电子口岸、上海海关科技处。

全文提出了一种全匿踪纵向联邦学习方法（AnonymFL），实现数据的“可用不可见”，确保在联邦学习过程中不泄露任何参与者数据的隐私信息。传统的联邦学习虽能保护数据不离域，但在样本交集处理过程中会暴露用户ID等敏感信息，不符合隐私保护的要求。为了解决这一问题，文中提出的AnonymFL框架利用匿名对齐和多方安全计算技术，在不泄露交集和非交集信息的前提下，实现了联邦学习的全链路隐私保护。通过实验证明，AnonymFL不仅能够支持大规模数据集的隐私保护对齐和联邦建模，而且在保证模型准确性的前提下，还显著提高了计算效率。

关键要点：

提出了一种全匿名纵向联邦学习框架AnonymFL，在保护隐私的前提下进行联合建模。
使用多方安全计算的秘密共享协议实现该框架，并优化了匿踪求交的性能。
在Kubernetes私有云上进行实验，验证了该方案的准确性和效率。
结果显示，该方案可以在不泄露任何一方私人信息的情况下进行联合建模。

整篇文章的结构如下：

1. 一种安全高效的全匿名纵向联邦学习方法

首先介绍了一种新的纵向联邦学习方法，旨在保护参与方的数据隐私。传统的纵向联邦学习方法使用私有集合交集来对齐样本，但是这种方法不能满足交集中用户ID的隐私保护需求。因此，本文提出了基于匿名对齐的全匿名纵向联邦学习框架，并通过多方安全计算实现了联合建模。实验结果表明，该方法具有高性能和低误差的特点，在实践中具有广泛的应用前景。

2. 匿名求交技术及其在纵向联邦学习中的应用

其次介绍了联邦学习中的纵向联邦学习及其安全需求，以及目前一些学者提出的匿名求交方法。其中，纵向联邦学习需要保护数据水平对齐时的非交集信息和交集ID，并且需要全链路过程进行保护。现有的匿名求交方法包括基于数据集隐私求并集（PSU）的纵向联邦学习框架、PIS-C协议、Private-ID和PS3I等算法，以及Circuit-PSI的方法。这些方法用于解决安全求交过程中用户ID暴露的问题，但是也存在着一些缺点和潜在的安全风险。

3. 全匿踪纵向联邦学习框架及其应用

进一步讨论的是关于纵向联邦学习中的隐私保护问题。传统的PSI方法会暴露交集ID信息，而作者提出了匿踪对齐、匿踪场景匿名化以及匿踪学习等概念，并设计了一种全匿踪纵向联邦学习框架（AnonymFL），可以在保证隐私安全的前提下完成联合计算和学习建模。该框架使用多方安全计算技术来实现，可以处理千万级平衡样本的全匿踪对齐和百万级平衡样本的全匿踪联邦建模。在匿踪PSI的基础上，还可以进行全匿踪分析建模，对交集和非交集数据进行统计分析或学习建模，而不会泄露任何隐私信息。

4. 全匿踪纵向联邦学习：匿名化、匿踪学习

论文介绍了全匿踪纵向联邦学习AnonymFL框架及其实现方式。该框架通过多方安全计算(MPC)的秘密分享协议实现了全匿踪纵向联邦学习的计算算子和应用模块，并且在整个过程不会泄露各持有方集合的任何隐私信息。其中，匿踪对齐是纵向联邦学习过程中利用匿踪求交完成各参与方数据集水平对齐的过程，采用了基于加法秘密分享机制的多方安全比较算法来实现敏感信息保护。最终，该方法经过实证研究证明了其可行性和有效性。

5. 基于多方安全计算的隐私保护逻辑回归算法

这一章节主要介绍了匿名化和匿踪学习的概念及其应用。匿名化是通过对个人身份信息进行处理，使其无法被识别或复原的过程，常见的方法有k-匿名、l-多样性、t-闭合、差分隐私等。而匿踪学习则是指对匿名化后的数据集进行建模学习的过程，包括模型训练、模型推理和模型评估等步骤。该章节还提到了一些隐私保护的技术，如基于差分隐私的机器学习、基于同态加密的机器学习以及基于多方安全计算的机器学习等。最后，该章节给出了一个基于多方安全秘密分享机制的隐私保护逻辑回归算法的具体实现过程。

6. 匿踪纵向联邦学习方案的性能优化与实证研究

最后主要介绍了如何使用多方安全计算来实现匿踪对齐，并且提出了一种基于MPC-Ordering的方法来降低计算复杂度。该方法通过将数据集中的碎片态用户ID进行拼接和排序，然后再进行批量比较，从而减少了比较次数，提高了计算效率。同时，在联合建模训练过程中需要加载全匿PSI样本的碎片，并且需要增加指示对齐碎片输入，用于统计当前Batch中交集的样本个数。最后，作者进行了正确性和效率的实验评估，验证了全匿踪纵向联邦学习方案的性能。