当前位置: 首页 > news >正文

NLP高频面试题(五十三)——LLM中激活函数详解

引言

在现代大型语言模型架构中,激活函数是贯穿神经网络各层的关键组件。它们通过为线性变换结果引入非线性,从而赋予模型表达复杂语言模式的能力。选择合适的激活函数,不仅影响训练的稳定性与收敛速度,还在推理阶段决定了计算效率与模型性能。本文将系统梳理常见激活函数的原理与特点,并探讨新兴方案在实际 LLM 中的应用。

激活函数概述

激活函数(Activation Function)是一种非线性映射,将神经元的加权输入及偏置进行转换后再传递给下一层。没有激活函数,无论网络有多少层,都将退化为线性模型,无法拟合复杂的自然语言规律。激活函数需满足可导性(以便反向传播)与计算效率(以利大规模模型训练与推理)等基本要求。

经典激活函数

Sigmoid 与 Tanh

  • Sigmoid
    将输入压缩到 (0, 1) 区间,适合二元分类输出;但梯度在极端值区域接近零,容易导致梯度消失。
  • Tanh
    将输入映射到 (–1, 1),相较于 Sigmoid 中心对称,对特征归一化有帮助;但同样存在梯度消失问题。

<

相关文章:

  • 力扣hot100_链表(3)_python版本
  • 盈达科技:登顶GEO优化全球制高点,以AICC定义AI时代内容智能优化新标杆
  • TCP四大特性面试回答引导
  • 【无人机】无人机位置估计出现偏差的原因分析
  • ESP32-S3开发板麦克风录音到SD卡存储测试
  • 自主可控鸿道Intewell工业实时操作系统
  • Rust 语言使用场景分析
  • 【LangChain4j】AI 第一弹:LangChain4j 的理解
  • 图聚类中的亲和力传播
  • 数据库11(触发器)
  • 跨平台软件开发探讨
  • 三目云台转动性能稳定性
  • 动态显微镜数据分析及AI拓展
  • 第50讲:AI+农业金融与风险预测场景实战
  • Centos9安装docker
  • spark和hadoop之间的对比关系和联系
  • 《MySQL:MySQL表的内外连接》
  • 线程入门3
  • es 自动补全
  • Available platform plugins are: xcb.报错解决办法
  • 亮剑浦江丨上海网信部门处罚一批医疗服务类互联网企业,三大类问题值得关注
  • 外交部回应涉长江和记出售巴拿马运河港口交易:望有关各方审慎行事,充分沟通
  • 大学2025丨专访南开人工智能学院院长赵新:人工智能未来会变成通识类课程
  • 四川落马厅官周海琦受审,1000多人接受警示教育
  • 持续更新丨伊朗内政部长:港口爆炸已致8人死亡750人受伤
  • 阿曼外交大臣:伊美下一轮谈判暂定5月3日举行