当前位置: 首页 > news >正文

【NLP 38、激活函数 ④ GELU激活函数】

别盲目,别着急,慢慢走,没事的

                                                —— 25.2.24

一、定义与数学表达式

GELU(Gaussian Error Linear Unit,高斯误差线性单元)是一种结合概率分布的非线性激活函数,其核心思想是通过输入值服从标准正态分布的概率来决定激活程度。数学表达式为:
GELU(x)=x⋅Φ(x)
其中,Φ(x) 是标准正态分布的累积分布函数(CDF):

实际应用中,常使用近似公式简化计算:

该近似公式在保持性能的同时显著降低计算复杂度


二、核心特点

非线性建模能力:通过高斯分布概率引入非线性,增强模型对复杂数据的拟合能力。

连续可导性:在整个定义域内可微,避免梯度消失问题,适合反向传播优化。

自门控特性:输入值越大,激活概率越高,类似“软开关”机制。

输出范围:(−∞,+∞),适用于需要线性输出的场景


三、优势对比

特性GELUReLUSigmoid/Tanh
梯度消失问题有效缓解部分区域梯度为0易出现梯度消失
输出范围全实数域[0,+∞)(0,1)或(−1,1)
计算复杂度较高(近似公式可优化)较高(涉及指数运算)
应用场景Transformer、NLP、CV计算机视觉、简单任务二分类输出层

四、实际应用 

Transformer架构:BERT、GPT-2/3等模型均采用GELU作为隐藏层激活函数,显著提升语言建模性能。

计算机视觉:在图像分类、目标检测任务中,GELU的非线性特性优于ReLU。

推荐系统:处理用户行为序列数据时,GELU的随机正则化特性增强模型泛化能力。


五、代码实现

1.torch.nn.GELU()

torch.nn.GELU(): PyTorch 中实现高斯误差线性单元(GELU)激活函数的类。其核心功能是通过高斯分布的累积分布函数(CDF)对输入张量进行非线性变换

数学表达式为:GELU(x)=x⋅Φ(x)

参数名称类型是否必填说明
approximatestr近似算法选择,可选值为 'none'(精确计算)或 'tanh'(近似计算,默认为 'none')。
import torch
import torch.nn as nn

# 定义GELU层(默认使用精确计算)
gelu_layer = nn.GELU()

# 输入张量
x = torch.randn(32, 128)

# 前向传播
output = gelu_layer(x)
print(output.shape)  # 输出形状与输入一致

2.torch.nn.functional.gelu()

torch.nn.functional.gelu(): PyTorch 中实现高斯误差线性单元(GELU)激活函数的函数。其核心功能是通过高斯分布的累积分布函数(CDF)对输入张量进行非线性变换,

数学表达式为:GELU(x)=x⋅Φ(x)

参数名称类型是否必填说明
approximatestr近似算法选择,可选值为 'none'(精确计算)或 'tanh'(近似计算,默认为 'none')。
import torch
import torch.nn.functional as F

# 输入张量
x = torch.randn(32, 128)

# 应用GELU激活函数
output = F.gelu(x)
print(output.shape)  # 输出形状与输入一致

相关文章:

  • Week1_250217~250223_OI日志(待完善)
  • 2025 银行业科技金融创新与发展报告
  • vLLM专题(十二)-推理输出(Reasoning Outputs)
  • 回合制游戏文字版(升级)
  • 【GreenHills】GHS合并库文件
  • 2024-2025 学年广东省职业院校技能大赛 “信息安全管理与评估”赛项 技能测试试卷(一)
  • ROS ur10机械臂添加140夹爪全流程记录
  • Android Studio超级详细讲解下载、安装配置教程(建议收藏)
  • 第二章:辅助功能
  • FFmpeg进化论:从av_register_all手动注册到编译期自动加载的技术跃迁
  • 高中数学基础-平面向量
  • JMeter性能问题
  • 5 分钟用满血 DeepSeek R1 搭建个人 AI 知识库(含本地部署)
  • Linux提权之提权脚本应用(十二)
  • halcon三维点云数据处理(二十五)moments_object_model_3d
  • 【qt链接mysql】
  • Android 轻量级双向 IPC 通信 Messenger
  • 前端项目打包过滤指定icon文件
  • 100天精通Python(爬虫篇)——第113天:爬虫基础模块之urllib详细教程大全
  • OpenCV(8):图像直方图
  • 陈吉宁龚正黄莉新胡文容等在警示教育基地参观学习,出席深入贯彻中央八项规定精神学习教育交流会
  • 日本航空自卫队一架练习机在爱知县坠毁
  • 夜读丨取稿费的乐趣
  • 1至4月全国铁路完成固定资产投资1947亿元,同比增长5.3%
  • 当我们提起拉动消费时,应该拉动什么消费?
  • 云南多地突查公职人员违规饮酒:公安局门口开展酒精吹气测试