【差分隐私相关概念】瑞丽差分隐私(RDP)命题4
命题4的证明详解(分情况讨论)
背景与设定
- 机制: f : D → R f: \mathcal{D} \to \mathcal{R} f:D→R 是由 n n n 个 ϵ \epsilon ϵ-差分隐私机制自适应组合而成。
- 相邻输入: D D D 和 D ′ D' D′ 是相邻数据集。
- 目标:证明对任意事件 S ⊆ R S \subseteq \mathcal{R} S⊆R,有:
Pr [ f ( D ) ∈ S ] ≤ exp ( 2 ϵ n log ( 1 / Pr [ f ( D ′ ) ∈ S ] ) ) ⋅ Pr [ f ( D ′ ) ∈ S ] . \Pr[f(D) \in S] \leq \exp\left( 2\epsilon \sqrt{n \log(1/\Pr[f(D') \in S])} \right) \cdot \Pr[f(D') \in S]. Pr[f(D)∈S]≤exp(2ϵnlog(1/Pr[f(D′)∈S]))⋅Pr[f(D′)∈S].
证明概述
-
Rényi差分隐私(RDP)的组合性:
根据命题1(RDP的组合性),每个机制的RDP参数为 ( α , 2 α ϵ 2 ) (\alpha, 2\alpha \epsilon^2) (α,2αϵ2),组合后得到:
D α ( f ( D ) ∥ f ( D ′ ) ) ≤ 2 α n ϵ 2 ( α ≥ 1 ) . D_\alpha(f(D) \parallel f(D')) \leq 2\alpha n \epsilon^2 \quad (\alpha \geq 1). Dα(f(D)∥f(D′))≤2αnϵ2(α≥1). -
概率保持定理(命题10):
对于事件 S S S,若 Q = Pr [ f ( D ′ ) ∈ S ] Q = \Pr[f(D') \in S] Q=Pr[f(D′)∈S],则:
Pr [ f ( D ) ∈ S ] ≤ ( exp ( D α ( P ∥ Q ) ) ⋅ Q ) ( α − 1 ) / α . \Pr[f(D) \in S] \leq \left( \exp(D_\alpha(P \parallel Q)) \cdot Q \right)^{(\alpha - 1)/\alpha}. Pr[f(D)∈S]≤(exp(Dα(P∥Q))⋅Q)(α−1)/α.
情况I: log ( 1 / Q ) ≥ ϵ 2 n \log(1/Q) \geq \epsilon^2 n log(1/Q)≥ϵ2n
步骤1:选择最优的 α \alpha α
令 α = log ( 1 / Q ) ϵ n \alpha = \frac{\sqrt{\log(1/Q)}}{\epsilon \sqrt{n}} α=ϵnlog(1/Q)。
- 验证 α ≥ 1 \alpha \geq 1 α≥1:
由 log ( 1 / Q ) ≥ ϵ 2 n \log(1/Q) \geq \epsilon^2 n log(1/Q)≥ϵ2n,得:
α = log ( 1 / Q ) ϵ n ≥ ϵ 2 n ϵ n = 1. \alpha = \frac{\sqrt{\log(1/Q)}}{\epsilon \sqrt{n}} \geq \frac{\sqrt{\epsilon^2 n}}{\epsilon \sqrt{n}} = 1. α=ϵnlog(1/Q)≥ϵnϵ2n=1.
步骤2:应用概率保持定理
代入 D α ( P ∥ Q ) ≤ 2 α n ϵ 2 D_\alpha(P \parallel Q) \leq 2\alpha n \epsilon^2 Dα(P∥Q)≤2αnϵ2,得:
Pr [ f ( D ) ∈ S ] ≤ ( exp ( 2 α n ϵ 2 ) ⋅ Q ) ( α − 1 ) / α . \Pr[f(D) \in S] \leq \left( \exp(2\alpha n \epsilon^2) \cdot Q \right)^{(\alpha - 1)/\alpha}. Pr[f(D)∈S]≤(exp(2αnϵ2)⋅Q)(α−1)/α.
步骤3:展开指数项
对指数部分进行分解:
exp ( 2 α n ϵ 2 ) ⋅ Q = exp ( 2 α n ϵ 2 + log Q ) . \exp(2\alpha n \epsilon^2) \cdot Q = \exp\left( 2\alpha n \epsilon^2 + \log Q \right). exp(2αnϵ2)⋅Q=exp(2αnϵ2+logQ).
由于 log Q = − log ( 1 / Q ) \log Q = -\log(1/Q) logQ=−log(1/Q),令 L = log ( 1 / Q ) L = \log(1/Q) L=log(1/Q),则:
exp ( 2 α n ϵ 2 − L ) . \exp\left( 2\alpha n \epsilon^2 - L \right). exp(2αnϵ2−L).
步骤4:代入 α \alpha α 并化简
代入 α = L / ( ϵ n ) \alpha = \sqrt{L}/(\epsilon \sqrt{n}) α=L/(ϵn),计算指数部分:
2 α n ϵ 2 − L = 2 ⋅ L ϵ n ⋅ n ϵ 2 − L = 2 ϵ n L − L . 2\alpha n \epsilon^2 - L = 2 \cdot \frac{\sqrt{L}}{\epsilon \sqrt{n}} \cdot n \epsilon^2 - L = 2\epsilon \sqrt{n L} - L. 2αnϵ2−L=2⋅ϵnL⋅nϵ2−L=2ϵnL−L.
进一步化简:
exp ( 2 ϵ n L − L ) = exp ( L ⋅ ( 2 ϵ n L − 1 ) ) . \exp\left( 2\epsilon \sqrt{n L} - L \right) = \exp\left( L \cdot \left( \frac{2\epsilon \sqrt{n}}{\sqrt{L}} - 1 \right) \right). exp(2ϵnL−L)=exp(L⋅(L2ϵn−1)).
步骤5:结合 Q 1 − 1 / α Q^{1 - 1/\alpha} Q1−1/α
注意到 Q 1 − 1 / α = exp ( − log ( 1 / Q ) ⋅ ( 1 − 1 / α ) ) Q^{1 - 1/\alpha} = \exp\left( -\log(1/Q) \cdot (1 - 1/\alpha) \right) Q1−1/α=exp(−log(1/Q)⋅(1−1/α)),因此最终结果为:
Pr [ f ( D ) ∈ S ] ≤ exp ( 2 ϵ n L ) ⋅ Q . \Pr[f(D) \in S] \leq \exp\left( 2\epsilon \sqrt{n L} \right) \cdot Q. Pr[f(D)∈S]≤exp(2ϵnL)⋅Q.
情况II: log ( 1 / Q ) < ϵ 2 n \log(1/Q) < \epsilon^2 n log(1/Q)<ϵ2n
步骤1:直接验证右边超过1
令 L = log ( 1 / Q ) L = \log(1/Q) L=log(1/Q),则 L < ϵ 2 n L < \epsilon^2 n L<ϵ2n。需证明:
exp ( 2 ϵ n L ) ⋅ Q ≥ 1. \exp\left( 2\epsilon \sqrt{n L} \right) \cdot Q \geq 1. exp(2ϵnL)⋅Q≥1.
步骤2:利用基本不等式
由 n L ≥ L / ϵ \sqrt{n L} \geq L/\epsilon nL≥L/ϵ(因 L < ϵ 2 n L < \epsilon^2 n L<ϵ2n,即 L / ϵ < ϵ n L/\epsilon < \epsilon n L/ϵ<ϵn),得:
2 ϵ n L ≥ 2 L . 2\epsilon \sqrt{n L} \geq 2L. 2ϵnL≥2L.
因此:
exp ( 2 ϵ n L ) ⋅ Q ≥ exp ( 2 L ) ⋅ e − L = e L ≥ 1 ( 因 L ≥ 0 ) . \exp\left( 2\epsilon \sqrt{n L} \right) \cdot Q \geq \exp(2L) \cdot e^{-L} = e^{L} \geq 1 \quad (\text{因} \ L \geq 0). exp(2ϵnL)⋅Q≥exp(2L)⋅e−L=eL≥1(因 L≥0).
步骤3:结论
由于概率 Pr [ f ( D ) ∈ S ] ≤ 1 \Pr[f(D) \in S] \leq 1 Pr[f(D)∈S]≤1,而右边 exp ( 2 ϵ n L ) ⋅ Q ≥ 1 \exp\left( 2\epsilon \sqrt{n L} \right) \cdot Q \geq 1 exp(2ϵnL)⋅Q≥1,原不等式自然成立。
关键点总结
- 情况I:当事件 S S S 在 D ′ D' D′ 下的概率 Q Q Q 极小时(即 log ( 1 / Q ) ≥ ϵ 2 n \log(1/Q) \geq \epsilon^2 n log(1/Q)≥ϵ2n),通过优化选择 α \alpha α,将RDP参数转化为指数形式的上界。
- 情况II:当 Q Q Q 不太小时,直接验证右侧超过1,从而不等式自动成立。
- 核心技巧:通过RDP的组合性和概率保持定理,结合参数优化(选择 α \alpha α),最终统一了两种情况的结果。