当前位置: 首页 > news >正文

常见激活函数的Lipschitz连续证明

常见激活函数的Lipschitz连续证明

    • 1. ReLU
      • 定义
      • 证明
    • 2. LeakyReLU
      • 定义
      • 证明
    • 3.Tanh
      • 定义
      • 证明
    • 4. Sigmoid
      • 定义
      • 证明
    • 5. 补充
      • 拉格朗日中值定理(均值定理)

1. ReLU

定义

f ( x ) = max ( 0 , x ) f(x)=\text{max}(0, x) f(x)=max(0,x)

证明

对任意 x , y ∈ R x, y\in \mathbb{R} x,yR

  • x , y ≥ 0 x,y\ge 0 x,y0,则 ∣ f ( x ) − f ( y ) ∣ = ∣ x − y ∣ ≤ ∣ x − y ∣ |f(x)-f(y)|=|x-y|\le |x-y| f(x)f(y)=xyxy;
  • x , y ≤ 0 x,y\le 0 x,y0,则 ∣ f ( x ) − f ( y ) ∣ = 0 ≤ ∣ x − y ∣ |f(x)-f(y)|=0\le |x-y| f(x)f(y)=0xy;
  • x ≥ 0 ≥ y x\ge 0 \ge y x0y,则 ∣ f ( x ) − f ( y ) ∣ = x ≤ x − y ≤ ∣ x − y ∣ |f(x)-f(y)|=x \le x-y\le |x-y| f(x)f(y)=xxyxy.

综上讨论,有 ∣ f ( x ) − f ( y ) ∣ ≤ ∣ x − y ∣ |f(x)-f(y)|\le |x-y| f(x)f(y)xy。故,ReLU 为 1-Lipschitz,最优常数 L = 1 L=1 L=1

2. LeakyReLU

定义

f ( x ) = max ( α x , x ) f(x)=\text{max}(\alpha x, x) f(x)=max(αx,x),其中 α ∈ ( 0 , 1 ) \alpha\in (0, 1) α(0,1),通常采用下面表达:
f ( x ) = { x if  x ≥ 0 α x if  x < 0 f(x) = \begin{cases} x & \text{if } x \geq 0 \\ \alpha x & \text{if } x < 0 \end{cases} f(x)={xαxif x0if x<0

证明

对任意 x , y ∈ R x, y\in \mathbb{R} x,yR,有

  • x , y ≥ 0 x,y\ge 0 x,y0,则 ∣ f ( x ) − f ( y ) ∣ = ∣ x − y ∣ ≤ ∣ x − y ∣ |f(x)-f(y)|=|x-y|\le |x-y| f(x)f(y)=xyxy;
  • x , y < 0 x,y< 0 x,y<0,则 ∣ f ( x ) − f ( y ) ∣ = α ∣ x − y ∣ ≤ ∣ x − y ∣ |f(x)-f(y)|=\alpha|x-y|\le |x-y| f(x)f(y)=αxyxy;
  • x ≥ 0 > y x\ge 0 > y x0>y,则 ∣ f ( x ) − f ( y ) ∣ = ∣ x − α y ∣ ≤ ∣ x − y ∣ |f(x)-f(y)|=|x-\alpha y|\le |x-y| f(x)f(y)=xαyxy. 注:由于 α < 1 \alpha<1 α<1,所以 α y ≥ y → x − α y ≤ x − y → ∣ x − α y ∣ ≤ ∣ x − y ∣ \alpha y\ge y\rightarrow x-\alpha y\le x-y\rightarrow |x-\alpha y|\le |x-y| αyyxαyxyxαyxy

综上讨论,有 ∣ f ( x ) − f ( y ) ∣ ≤ ∣ x − y ∣ |f(x)-f(y)|\le |x-y| f(x)f(y)xy。故,LeakyReLU为 1-Lipschitz,最优常数 L = 1 L=1 L=1

3.Tanh

定义

f ( x ) = tanh ( x ) = e x − e − x e x + e − x f(x) = \text{tanh}(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}} f(x)=tanh(x)=ex+exexex

证明

tanh在 R \mathbb{R} R上连续且可导, f ′ ( x ) = 1 − tanh ⁡ 2 ( x ) ∈ ( 0 , 1 ] f'(x)=1-\tanh^2(x)\in(0,1] f(x)=1tanh2(x)(0,1],因此 sup x ∈ R ∣ f ′ ( x ) ∣ = 1 \text{sup}_{x\in\mathbb{R}}|f'(x)|=1 supxRf(x)=1。根据平均值定理
∣ f ( x ) − f ( y ) ∣ = ∣ f ′ ( c ) ( x − y ) ∣ ≤ ∣ f ′ ( c ) ∣ ⋅ ∣ x − y ∣ ≤ sup t ∣ f ′ ( t ) ∣ ⋅ ∣ x − y ∣ = 1 ⋅ ∣ x − y ∣ |f(x)-f(y)|=|f'(c)(x-y)|\le|f'(c)|\cdot|x-y|\le \text{sup}_t|f'(t)|\cdot|x-y|=1\cdot|x-y| f(x)f(y)=f(c)(xy)f(c)xysuptf(t)xy=1xy
故, L = 1 L=1 L=1(上界在 x = 0 x=0 x=0处取到)。

4. Sigmoid

定义

f ( x ) = σ ( x ) = 1 1 + e − x f(x) =\sigma(x)= \frac{1}{1+e^{-x}} f(x)=σ(x)=1+ex1

证明

计算导数 f ′ ( x ) = σ ( x ) ( 1 − σ ( x ) ) f'(x)=\sigma(x)(1-\sigma(x)) f(x)=σ(x)(1σ(x)),令 h ( p ) = p ( 1 − p ) h(p)=p(1-p) h(p)=p(1p),其 p ∈ ( 0 , 1 ) p\in(0,1) p(0,1),当 p = 0.5 p=0.5 p=0.5时, h ( p ) h(p) h(p)取最大值0.25,即 f ′ ( x ) ∈ ( 0 , 0.25 ] f'(x)\in(0, 0.25] f(x)(0,0.25] sup x ∈ R ∣ f ′ ( x ) ∣ = 0.25 \text{sup}_{x\in \mathbb{R}}|f'(x)|=0.25 supxRf(x)=0.25

因为 σ ( x ) \sigma(x) σ(x) R \mathbb{R} R连续且可导,由平均值定理可得,存在一个常数 c c c使得
f ( x ) − f ( y ) = f ′ ( c ) ( x − y ) f(x)-f(y)=f'(c)(x-y) f(x)f(y)=f(c)(xy)

等式两边取绝对值
∣ f ( x ) − f ( y ) ∣ = ∣ f ′ ( c ) ( x − y ) ∣ ≤ ∣ f ′ ( c ) ∣ ⋅ ∣ x − y ∣ ≤ sup t ∣ f ′ ( t ) ∣ ⋅ ∣ x − y ∣ = 0.25 ⋅ ∣ x − y ∣ |f(x)-f(y)|=|f'(c)(x-y)|\le|f'(c)|\cdot|x-y|\le \text{sup}_t|f'(t)|\cdot|x-y|=0.25\cdot|x-y| f(x)f(y)=f(c)(xy)f(c)xysuptf(t)xy=0.25xy
因此, L = 0.25 L=0.25 L=0.25(上界在 x = 0 x=0 x=0处取到)。

5. 补充

拉格朗日中值定理(均值定理)

如果函数 f ( x ) f(x) f(x)满足:

  • 在闭区间 [ a , b ] [a,b] [a,b]上连续;
  • 在开区间 ( a , b ) (a,b) (a,b)内可导。

∃ ξ ∈ ( a , b ) \exists \xi \in (a,b) ξ(a,b),使得
f ′ ( ξ ) = f ( b ) − f ( a ) b − a f'(\xi) = \dfrac{f(b) - f(a)}{b - a} f(ξ)=baf(b)f(a)

http://www.dtcms.com/a/511684.html

相关文章:

  • 专做皮具的网站网站建设公司排行榜
  • 第三次面试:C++实习开发
  • 公司网站内容更新该怎么做wordpress显示目录
  • 边界扫描测试原理 2 -- 边界扫描测试设备的构成
  • 如何入侵网站后台晴天影视
  • Linux top 命令使用说明
  • 研发图文档管理的革新:从无序到智能协同
  • springboot点餐系统的设计与实现(代码+数据库+LW)
  • ArcoDesignVue Select组件分离问题
  • Python开发:接口场景设计
  • 汽车网站flash模板定制高端网站建设
  • 【Ubuntu18.04 D435i RGB相机与IMU标定详细版(三)】
  • 单肩包自定义页面设计模板seo关键词优化软件app
  • 朊病毒检测市场:技术突破与公共卫生需求驱动下的全球增长
  • 思维清晰的基石:概念和命题解析
  • ubuntu中替换python版本
  • mybatis请求重试工具
  • 高速运放输入引脚并联电阻太小会怎样?
  • vue前端面试题——记录一次面试当中遇到的题(10)
  • 有没有做高仿手表的网站php网站地图
  • wordpress提交百度站长中建装饰集团有限公司官网
  • 牛客网 AI题​(一)机器学习 + 深度学习
  • 第一例:石头剪刀布的机器学习(xedu,示例15)
  • 【AI论文】D2E:基于桌面数据扩展视觉-动作预训练规模,以迁移至具身人工智能领域
  • 机器学习和深度学习模型训练流程
  • C++ STL——allocator
  • 开题报告--中美外贸企业电子商务模式的比较分析
  • 基于原子操作的 C++ 高并发跳表实现
  • java 8 lambda表达式对list进行分组
  • 网站建设 有聊天工具的吗网站开发者的设计构想