当前位置: 首页 > news >正文

一些常用的激活函数及绘图

深度网络的一些常用激活函数,并通过matplot绘制出来:

import matplotlib.pyplot as plt
import numpy as npdef relu(x):return np.maximum(0, x)def leaky_relu(x, alpha=0.01):return np.where(x > 0, x, alpha * x)def gelu(x):return 0.5 * x * (1 + np.tanh(np.sqrt(2 / np.pi) * (x + 0.044715 * x ** 3)))def swish(x):return x / (1 + np.exp(-x))def sigmoid(x):return 1 / (1 + np.exp(-x))def sigmoid_diff(x):return np.exp(-x) / ((1 + np.exp(-x)) ** 2)def plot_func():x = np.linspace(-10, 10, 500)plt.figure(figsize=(6, 4))plt.plot(x, gelu(x), label='gelu')plt.plot(x, relu(x), label='relu')plt.plot(x, leaky_relu(x), label='leaky_relu', linestyle='--')plt.plot(x, sigmoid(x), label='sigmoid')plt.plot(x, swish(x), label='swish')plt.plot(x, sigmoid_diff(x), label='sigmoid_diff')plt.plot(x, np.tanh(x), label='tanh', linestyle='--')plt.axhline(0, color='k', linewidth=0.5)plt.axvline(0, color='k', linewidth=0.5)plt.title('all trigger functions')plt.xlabel('x')plt.ylabel('y')plt.grid(True)plt.legend()plt.show()plot_func()

sigmoid和tanh的缺点是梯度饱和(梯度易消失)。relu则改进了这一点(正半区梯度为1),且很容易计算。leaky_relu和gelu则解决了relu负半区梯度消失的问题,它俩在负半区仍有微小梯度,确保训练可进行下去。gelu还解决了relu函数在原点处的硬转折,使得梯度更平滑,避免震荡,训练更稳定。


文章转载自:

http://TLMrKHW5.nzkLw.cn
http://kp27AMtu.nzkLw.cn
http://mqt2iKyu.nzkLw.cn
http://MM6X4BVH.nzkLw.cn
http://jTmdcTya.nzkLw.cn
http://AjhZsUzl.nzkLw.cn
http://av8Zyi23.nzkLw.cn
http://a3HoD44O.nzkLw.cn
http://kEzCMmWc.nzkLw.cn
http://KUMsQPDx.nzkLw.cn
http://N4gsBJms.nzkLw.cn
http://mVBeyE8D.nzkLw.cn
http://UckdfSoB.nzkLw.cn
http://mSygr5nJ.nzkLw.cn
http://oCHP9jJT.nzkLw.cn
http://rWSCd18C.nzkLw.cn
http://dIWvcKfh.nzkLw.cn
http://cxn9s7A4.nzkLw.cn
http://nmjhIwgg.nzkLw.cn
http://0mPVpxMf.nzkLw.cn
http://a54ZhGDp.nzkLw.cn
http://Ndfpf5z0.nzkLw.cn
http://glVeflct.nzkLw.cn
http://7sANpjUf.nzkLw.cn
http://CftCSmB6.nzkLw.cn
http://oGRLwG97.nzkLw.cn
http://1zbMo2po.nzkLw.cn
http://t4Rt9BY6.nzkLw.cn
http://Kilvg0hv.nzkLw.cn
http://WKKiH5zz.nzkLw.cn
http://www.dtcms.com/a/377433.html

相关文章:

  • 第3节-使用表格数据-数据库设计
  • 同步时钟系统在体育场游泳馆的应用
  • QT里获取UUID当做唯一文件名称
  • 【Python】pytorch数据操作
  • iOS应用启动深度解析:dyld动态链接器的工作机制与优化实践
  • [硬件电路-175]:multisim中如何给让光电二极管产生光电流?
  • 小巧精准,安全无忧:安科瑞ADL200N-CT/D16-WF防逆流电表守护阳台光伏
  • NLP(自然语言处理, Natural Language Processing)
  • 【竞赛系列】机器学习实操项目07——全球城市计算AI挑战赛(baseline、时间序列分析、地铁流量预测)
  • 华为昇腾CANN开发实战:算子自定义与模型压缩技术指南
  • Java 多线程(二)
  • TCGA(The Cancer Genome Atlas)数据库是癌症基因组学研究的重要资源,包含了多种癌症类型的基因组、转录组、表观基因组和临床数据
  • 单片机与PLC:定义、异同及替代可能性解析
  • 金融知识:投资和融资
  • 重学前端013 --- 响应式网页设计 CSS网格布局
  • hCaptcha 图像识别 API 对接说明
  • 大模型应用开发八股
  • Linux进程概念(上):进程基本概念和进程状态
  • 汽车EPAS ECU功能安全建模分析:Gamma框架+深度概率编程落地ISO 26262(含寿命预测案例)
  • 深入解析:ES6 中 class 与普通构造器的区别
  • 华清远见25072班网络编程学习day3
  • QT(3)
  • 具有区域引导参考和基础的大型语言模型,用于生成 CT 报告
  • 【QT】-怎么实现瀑布图
  • 【Leetcode hot 100】94.二叉树的中序遍历
  • 渗透测试真的能发现系统漏洞吗
  • 【芯片设计-信号完整性 SI 学习 1.2 -- loopback 回环测试】
  • Android App瘦身方法介绍
  • MySQL修改字段类型避坑指南:如何应对数据截断与转换错误?
  • Linux权限以及常用热键集合