The Algorithmic Foundations of Differential Privacy - 1
摘要
隐私保护数据分析的问题历史悠久,跨越多个学科。随着关于个体的电子数据变得日益详尽,以及技术使这些数据的收集与管理能力不断增强,人们愈发需要一种健壮、有意义且在数学上严格的隐私定义,同时还需要一类计算上丰富、能够满足该定义的算法。**差分隐私(Differential Privacy)**正是这样的一个定义。
在阐述差分隐私的动机与含义之后,本专著的大部分篇幅致力于介绍实现差分隐私的基本技术,并以查询发布(query-release)问题为贯穿示例,展示如何将这些技术创造性地组合应用。一个关键观点是:通过重新思考计算目标,往往可以得到远优于那种“把非隐私计算的每一步机械地替换为差分隐私实现”的结果。尽管已经取得了一些惊人的计算成果,但仍然存在根本性的限制——不仅是差分隐私所能达到的边界,也是任何能防止隐私完全崩溃的方法所能达到的边界。几乎所有本文讨论的算法在面对具有任意计算能力的对手时都能维持差分隐私。有些算法计算量很大,另一些则较为高效;文中同时讨论了对手与算法双方的计算复杂性。
随后,我们从基础转向查询发布之外的应用,讨论了用于机制设计与机器学习的差分隐私方法。现有文献的绝大多数都假定一个单一且静态的数据库会被多次分析;本文还讨论了其他模型中的差分隐私,包括分布式数据库以及数据流计算。
最后需要说明的是:本书旨在对差分隐私的问题与技术进行系统而深入的入门性介绍,而非穷尽性的综述。关于差分隐私的研究如今已十分庞大,我们只能涵盖其中的一小部分。
前言
隐私保护数据分析的问题历史悠久,涉及多个学科。随着关于个人的电子数据日益详尽,以及技术使这些数据的收集与管理能力更为强大,我们愈发需要一种健壮、有意义且在数学上严格的隐私定义,同时还需要一类计算上丰富且能满足该定义的算法。**差分隐私(Differential Privacy)**正是这样的一个定义。
在阐述差分隐私的动机与含义之后,本书的大部分篇幅(第 3–7 节)致力于介绍实现差分隐私的基本技术,以及如何将这些技术创造性地组合应用,并以**查询发布(query-release)**问题为贯穿示例。一个关键观点是:通过重新思考计算目标,往往能得到远优于那种“将非隐私计算的每一步机械地替换为差分隐私实现”的结果。
尽管已经取得了一些令人惊叹的计算成果,但仍然存在根本性的限制——不仅是差分隐私本身所能达到的边界,也是任何旨在防止隐私彻底崩溃的方法所能达到的