常见激活函数的Lipschitz连续证明
常见激活函数的Lipschitz连续证明
- 1. ReLU
- 定义
- 证明
- 2. LeakyReLU
- 定义
- 证明
- 3.Tanh
- 定义
- 证明
- 4. Sigmoid
- 定义
- 证明
- 5. 补充
- 拉格朗日中值定理(均值定理)
1. ReLU
定义
f ( x ) = max ( 0 , x ) f(x)=\text{max}(0, x) f(x)=max(0,x)。
证明
对任意 x , y ∈ R x, y\in \mathbb{R} x,y∈R:
- 若 x , y ≥ 0 x,y\ge 0 x,y≥0,则 ∣ f ( x ) − f ( y ) ∣ = ∣ x − y ∣ ≤ ∣ x − y ∣ |f(x)-f(y)|=|x-y|\le |x-y| ∣f(x)−f(y)∣=∣x−y∣≤∣x−y∣;
- 若 x , y ≤ 0 x,y\le 0 x,y≤0,则 ∣ f ( x ) − f ( y ) ∣ = 0 ≤ ∣ x − y ∣ |f(x)-f(y)|=0\le |x-y| ∣f(x)−f(y)∣=0≤∣x−y∣;
- 若 x ≥ 0 ≥ y x\ge 0 \ge y x≥0≥y,则 ∣ f ( x ) − f ( y ) ∣ = x ≤ x − y ≤ ∣ x − y ∣ |f(x)-f(y)|=x \le x-y\le |x-y| ∣f(x)−f(y)∣=x≤x−y≤∣x−y∣.
综上讨论,有 ∣ f ( x ) − f ( y ) ∣ ≤ ∣ x − y ∣ |f(x)-f(y)|\le |x-y| ∣f(x)−f(y)∣≤∣x−y∣。故,ReLU 为 1-Lipschitz,最优常数 L = 1 L=1 L=1。
2. LeakyReLU
定义
f ( x ) = max ( α x , x ) f(x)=\text{max}(\alpha x, x) f(x)=max(αx,x),其中 α ∈ ( 0 , 1 ) \alpha\in (0, 1) α∈(0,1),通常采用下面表达:
f ( x ) = { x if x ≥ 0 α x if x < 0 f(x) = \begin{cases} x & \text{if } x \geq 0 \\ \alpha x & \text{if } x < 0 \end{cases} f(x)={xαxif x≥0if x<0
证明
对任意 x , y ∈ R x, y\in \mathbb{R} x,y∈R,有
- 若 x , y ≥ 0 x,y\ge 0 x,y≥0,则 ∣ f ( x ) − f ( y ) ∣ = ∣ x − y ∣ ≤ ∣ x − y ∣ |f(x)-f(y)|=|x-y|\le |x-y| ∣f(x)−f(y)∣=∣x−y∣≤∣x−y∣;
- 若 x , y < 0 x,y< 0 x,y<0,则 ∣ f ( x ) − f ( y ) ∣ = α ∣ x − y ∣ ≤ ∣ x − y ∣ |f(x)-f(y)|=\alpha|x-y|\le |x-y| ∣f(x)−f(y)∣=α∣x−y∣≤∣x−y∣;
- 若 x ≥ 0 > y x\ge 0 > y x≥0>y,则 ∣ f ( x ) − f ( y ) ∣ = ∣ x − α y ∣ ≤ ∣ x − y ∣ |f(x)-f(y)|=|x-\alpha y|\le |x-y| ∣f(x)−f(y)∣=∣x−αy∣≤∣x−y∣. 注:由于 α < 1 \alpha<1 α<1,所以 α y ≥ y → x − α y ≤ x − y → ∣ x − α y ∣ ≤ ∣ x − y ∣ \alpha y\ge y\rightarrow x-\alpha y\le x-y\rightarrow |x-\alpha y|\le |x-y| αy≥y→x−αy≤x−y→∣x−αy∣≤∣x−y∣
综上讨论,有 ∣ f ( x ) − f ( y ) ∣ ≤ ∣ x − y ∣ |f(x)-f(y)|\le |x-y| ∣f(x)−f(y)∣≤∣x−y∣。故,LeakyReLU为 1-Lipschitz,最优常数 L = 1 L=1 L=1。
3.Tanh
定义
f ( x ) = tanh ( x ) = e x − e − x e x + e − x f(x) = \text{tanh}(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}} f(x)=tanh(x)=ex+e−xex−e−x
证明
tanh在 R \mathbb{R} R上连续且可导, f ′ ( x ) = 1 − tanh 2 ( x ) ∈ ( 0 , 1 ] f'(x)=1-\tanh^2(x)\in(0,1] f′(x)=1−tanh2(x)∈(0,1],因此 sup x ∈ R ∣ f ′ ( x ) ∣ = 1 \text{sup}_{x\in\mathbb{R}}|f'(x)|=1 supx∈R∣f′(x)∣=1。根据平均值定理
∣ f ( x ) − f ( y ) ∣ = ∣ f ′ ( c ) ( x − y ) ∣ ≤ ∣ f ′ ( c ) ∣ ⋅ ∣ x − y ∣ ≤ sup t ∣ f ′ ( t ) ∣ ⋅ ∣ x − y ∣ = 1 ⋅ ∣ x − y ∣ |f(x)-f(y)|=|f'(c)(x-y)|\le|f'(c)|\cdot|x-y|\le \text{sup}_t|f'(t)|\cdot|x-y|=1\cdot|x-y| ∣f(x)−f(y)∣=∣f′(c)(x−y)∣≤∣f′(c)∣⋅∣x−y∣≤supt∣f′(t)∣⋅∣x−y∣=1⋅∣x−y∣
故, L = 1 L=1 L=1(上界在 x = 0 x=0 x=0处取到)。
4. Sigmoid
定义
f ( x ) = σ ( x ) = 1 1 + e − x f(x) =\sigma(x)= \frac{1}{1+e^{-x}} f(x)=σ(x)=1+e−x1
证明
计算导数 f ′ ( x ) = σ ( x ) ( 1 − σ ( x ) ) f'(x)=\sigma(x)(1-\sigma(x)) f′(x)=σ(x)(1−σ(x)),令 h ( p ) = p ( 1 − p ) h(p)=p(1-p) h(p)=p(1−p),其 p ∈ ( 0 , 1 ) p\in(0,1) p∈(0,1),当 p = 0.5 p=0.5 p=0.5时, h ( p ) h(p) h(p)取最大值0.25,即 f ′ ( x ) ∈ ( 0 , 0.25 ] f'(x)\in(0, 0.25] f′(x)∈(0,0.25], sup x ∈ R ∣ f ′ ( x ) ∣ = 0.25 \text{sup}_{x\in \mathbb{R}}|f'(x)|=0.25 supx∈R∣f′(x)∣=0.25。
因为 σ ( x ) \sigma(x) σ(x)在 R \mathbb{R} R连续且可导,由平均值定理可得,存在一个常数 c c c使得
f ( x ) − f ( y ) = f ′ ( c ) ( x − y ) f(x)-f(y)=f'(c)(x-y) f(x)−f(y)=f′(c)(x−y)
等式两边取绝对值
∣ f ( x ) − f ( y ) ∣ = ∣ f ′ ( c ) ( x − y ) ∣ ≤ ∣ f ′ ( c ) ∣ ⋅ ∣ x − y ∣ ≤ sup t ∣ f ′ ( t ) ∣ ⋅ ∣ x − y ∣ = 0.25 ⋅ ∣ x − y ∣ |f(x)-f(y)|=|f'(c)(x-y)|\le|f'(c)|\cdot|x-y|\le \text{sup}_t|f'(t)|\cdot|x-y|=0.25\cdot|x-y| ∣f(x)−f(y)∣=∣f′(c)(x−y)∣≤∣f′(c)∣⋅∣x−y∣≤supt∣f′(t)∣⋅∣x−y∣=0.25⋅∣x−y∣
因此, L = 0.25 L=0.25 L=0.25(上界在 x = 0 x=0 x=0处取到)。
5. 补充
拉格朗日中值定理(均值定理)
如果函数 f ( x ) f(x) f(x)满足:
- 在闭区间 [ a , b ] [a,b] [a,b]上连续;
- 在开区间 ( a , b ) (a,b) (a,b)内可导。
则 ∃ ξ ∈ ( a , b ) \exists \xi \in (a,b) ∃ξ∈(a,b),使得
f ′ ( ξ ) = f ( b ) − f ( a ) b − a f'(\xi) = \dfrac{f(b) - f(a)}{b - a} f′(ξ)=b−af(b)−f(a)