用对称化与chaining技术bound经验过程上确界的期望(Guntuboyina理论统计学笔记)
文章目录
- 对称化
- 特殊情况: F \cal F F是 Boolean 函数类
- 覆盖数与packing number
- 有限指标集的Chaining
- 无限指标集的chaining
- 引入envelope后的bound
- 应用:有限VC维的Boolean函数类
- 参考文献
Type | Notes |
---|---|
Title | Theoretical Statistics |
Author(s) | Aditya Guntuboyina |
Year | 2018 Spring |
Level | Graduate |
Location | UC Berkeley |
Department | Department of Statistics |
Course Number | 210B |
Lecture(s) | L05–L09 |
UC Berkeley 的课程编号规则是:编号 1–99 的为初级本科课程,编号 100–199 的为高级本科课程,编号 200–299 的为研究生课程。
本课程是 UC Berkeley 理论统计的两门课之一,另外一门是 210A。老师是 UC Berkeley 的副教授。本课程有讲义,讲义typo较多,公式引用有少量错乱。
这门课的第一部分主要讲经验过程理论,讲得比较基础,优点是讲的线索清晰,并且是从动机出发的。
对称化
现在我们考虑如何bound E sup f ∣ ( P n − P ) f ∣ {\rm E}\sup_f |(P_n - P)f| Esupf∣(Pn−P)f∣,需要用到对称化技巧和chaining技巧。
对称化就是把 E sup f ∣ ( P n − P ) f ∣ {\rm E}\sup_f |(P_n - P)f| Esupf∣(Pn−P)f∣转变成 Rademacher 复杂度进行度量。Rademacher 复杂度是针对某个集合的,比如 F \cal F F,定义是先引入一系列相互独立且独立于 X i X_i Xi’s的 Rademacher 随机变量 ϵ i \epsilon_i ϵi’s,然后定义 F \cal F F 的 Rademacher 复杂度为
R n ( F ) : = E sup f ∈ F 1 n ∣ ∑ i = 1 n ϵ i f ( X i ) ∣ R_n({\cal F}) := {\rm E}\sup_{f\in{\cal F}} \frac{1}{n} |\sum_{i=1}^{n} \epsilon_i f(X_i)| Rn(F):=Ef∈Fsupn1∣i=1∑nϵif(Xi)∣
这里的期望是对 ϵ i \epsilon_i ϵi’s和 X i X_i Xi’s求。
对称化引理说的是:
E sup f ∈ F ∣ ( P n − P ) f ∣ ≤ 2 E sup f ∈ F 1 n ∣ ∑ i = 1 n ϵ i f ( X i ) ∣ = 2 R n ( F ) {\rm E}\sup_{f\in{\cal F}} |(P_n - P)f| \leq 2 {\rm E}\sup_{f\in{\cal F}} \frac{1}{n} |\sum_{i=1}^{n} \epsilon_i f(X_i)| = 2R_n({\cal F}) Ef∈Fsup∣(Pn−P)f∣≤2Ef∈Fsupn1∣i=1∑nϵif(Xi)∣=2Rn(F)
于是,bound E sup f ∣ ( P n − P ) f ∣ {\rm E}\sup_f |(P_n - P)f| Esupf∣(Pn−P)f∣的问题转化成了 bound R n ( F ) R_n({\cal F}) Rn(F)。一种 bound R n ( F ) R_n({\cal F}) Rn(F)的策略是,对于任意 X i X_i Xi’s,求 R n ( F ) R_n({\cal F}) Rn(F)的一致上界,即先将 X i X_i Xi’s视为固定的 x i x_i xi’s,计算上界,此时只需要考虑 ϵ i \epsilon_i ϵi’s的随机性。经典的做法是 chaining。
特殊情况: F \cal F F是 Boolean 函数类
现在考虑如何 bound R n ( F ) R_n({\cal F}) Rn(F)。
在讲 chaining 之前,我们先考虑一种简单的特殊情况: F \cal F F是 Boolean 函数类,即里面的每个函数都是 0 / 1 0/1 0/1取值的。
首先介绍一个不等式:对于 ∣ A ∣ < ∞ |A|<\infty ∣A∣<∞的集合 A ⊆ R n A\subseteq \mathbb{R}^n A⊆Rn,有
R n ( A ) = E sup a ∈ A 1 n ∣ ∑ i = 1 n ϵ i a i ∣ ≤ 6 ln ( 2 ∣ A ∣ ) n max a ∈ A 1 n ∑ i = 1 n a i 2 R_n({A}) = {\rm E}\sup_{a \in A} \frac{1}{n} |\sum_{i=1}^{n} \epsilon_i a_i| \leq \sqrt{6} \sqrt{\frac{\ln(2|A|)}{n}} \max_{a\in A} \sqrt{\frac{1}{n} \sum_{i=1}^{n} a_i^2} Rn(A)=Ea∈Asupn1∣i=1∑nϵiai∣≤6nln(2∣A∣)a∈Amaxn1i=1∑nai2
由于 a i a_i ai’s 是固定的,随机性只来自有界随机变量 ϵ i \epsilon_i ϵi’s,因此可用 Hoeffding 不等式,再经过一系列处理即可得到上式。
对于 Boolean 函数类 F \cal F F,对任意 f ∈ F f\in{\cal F} f∈F,将 f ( x i ) f(x_i) f(xi)视为 a i a_i ai,则每个 f ( x i ) 2 ≤ 1 f(x_i)^2\leq 1 f(xi)2≤1,于是 { ( f ( x 1 ) , ⋯ , f ( x n ) ) : f ∈ F } \{(f(x_1),\cdots,f(x_n)):f\in{\cal F}\} {(f(x1),⋯,f(xn)):f∈F}就对应了上式的 A A A。该集合的基数最多为 2 n 2^n 2n,这个太大了,我们假设基数最多是 n n n的某个多项式形式,如 n c n^c nc,代入上式,可知随着 n → ∞ n\to\infty n→∞,
R n ( F ) ≤ 6 ( ln 2 + c ln n ) n = O ( ln n n ) R_n({\cal F})\leq \sqrt{\frac{6(\ln 2 + c \ln n)}{n}} = O(\sqrt{\frac{\ln n }{n}}) Rn(F)≤n6(ln2+clnn)=O(n