过滤攻击-聚合数据
公开的聚合数据是通过对原始细粒度数据进行汇总、统计或转换后发布的,旨在提供群体层面的洞察而非个体信息。它们具有以下关键特征:
1. 去标识性(De-identification)
-
表现:
-
直接标识符(姓名、身份证号、手机号)被删除或泛化(如年龄变为“20-30岁”,地址变为“海淀区”)。
-
个体无法通过聚合数据直接定位到具体人。
-
-
隐私风险:
-
间接标识符(邮编、性别、职业)组合仍可能通过链接攻击重新识别个体(如“中关村某科技公司35岁男性高管”可能唯一)。
-
2. 统计性(Statistical Nature)
-
表现:
-
仅发布统计量:计数(某地区病例数)、均值(平均收入)、比例(疫苗接种率)、分位数(收入中位数)、汇总值(GDP)。
-
不包含原始记录(如单条医疗记录)。
-
-
隐私风险:
-
通过多维度交叉统计重构个体值(例:已知“某公司10名员工平均工资5万” + “9名员工工资≤6万” → 可推出第10人工资≥14万)。
-
3. 多维性(Multi-dimensionality)
-
表现:
-
按不同维度分层发布统计结果(如同时按年龄、性别、地区发布收入分布)。
-
-
隐私风险:
-
维度越多,数据越稀疏 → 小群体问题(如“海淀区60岁以上患罕见病X的女性”可能仅1人),泄露其敏感信息。
-
4. 稀疏性(Sparsity)
-
表现:
-
高维组合下,许多统计单元内数据量极少(甚至为0)。
-
例:发布“每个邮编区域+职业类型”的平均收入时,偏远地区“核物理学家”可能仅1人。
-
-
隐私风险:
-
稀疏单元中的统计值(如均值)≈该个体的真实值 → 直接暴露隐私。
-
5. 关联性(Correlation)
-
表现:
-
聚合数据隐含属性间关联规律(如“学历与收入正相关”“邮编100084多关联学生”)。
-
-
隐私风险:
-
攻击者利用已知关联(如从公开简历库知“某人是清华博士”)+聚合数据(“海淀区博士平均收入30万”)→ 推测该个体收入。
-
6. 稳定性/连续性(Stability/Continuity)
-
表现:
-
同类数据定期发布(如月度失业率、季度GDP),相邻时间段数据通常变化平缓。
-
-
隐私风险:通过差分攻击对比前后版
7. 高信息量(High Informativeness)
-
表现:
-
聚合数据保留原始数据的统计分布特征(如直方图、热力图反映空间密度)。
-
-
隐私风险:
-
利用分布特征进行分布重构攻击(例:从带噪声的年龄分布直方图中反推原始年龄分布)。
-
8. 机制可溯性(Mechanism Transparency)
-
表现:
-
部分发布说明统计方法(如“使用差分隐私,ε=1.0”),或直接暴露算法(如开源代码)。
-
-
隐私风险:
-
攻击者利用已知噪声机制(如拉普拉斯分布)设计最优滤波算法,削弱噪声影响(例:对差分隐私保护的聚合数据多次查询取平均)。
-
隐私保护的关键矛盾
聚合数据的特征构成一对矛盾:
-
正面价值:多维性、高信息量支撑深度分析(如政策制定、商业决策)。
-
隐私风险:这些特征恰好为过滤攻击提供数学基础,使其能反推个体信息。
典型案例说明特征如何导致攻击
案例:人口普查数据泄露
-
数据特征:
-
发布至街道层级的年龄/职业/教育程度交叉统计表(多维性+统计性)。
-
-
攻击过程:
-
攻击者获取某人的公开信息(家住“A街道”,职业“律师”,年龄“40岁”)。
-
查询聚合表发现:
-
A街道40岁律师仅1人(稀疏性),
-
该群体平均收入50万(统计性)→ 推断此人收入≈50万。
-
-
防御方案:
-
对稀疏单元合并或截断(如不发布≤5人的统计项)。
-
添加差分隐私噪声:即使攻击者查到“A街道40岁律师平均收入50万”,实际发布值为“50万+随机噪声”,使其无法置信推断。
聚合数据的“双面性”
特征 | 分析价值 | 隐私风险 |
---|---|---|
去标识性 | 保护直接隐私 | 间接标识符组合可重新识别个体 |
多维性 | 支持细粒度分析 | 小群体问题导致个体暴露 |
统计性 | 反映群体规律 | 多维度交叉重构个体值 |
高信息量 | 保留数据分布模式 | 分布重构攻击基础 |
稳定性 | 追踪趋势变化 | 差分攻击推断个体变化 |