当前位置: 首页 > wzjs >正文

网站服务器租用年度价格昆明网站建设制作

网站服务器租用年度价格,昆明网站建设制作,企业免费网站建设哪里比较好,手机海报制作免费软件来源 | 机器之心 在深度学习领域中,对激活函数的探讨已成为一个独立的研究方向。例如 GELU、SELU 和 SiLU 等函数凭借其平滑梯度与卓越的收敛特性,已成为热门选择。 尽管这一趋势盛行,经典 ReLU 函数仍因其简洁性、固有稀疏性及…

来源 | 机器之心

在深度学习领域中,对激活函数的探讨已成为一个独立的研究方向。例如 GELU、SELU 和 SiLU 等函数凭借其平滑梯度与卓越的收敛特性,已成为热门选择。

尽管这一趋势盛行,经典 ReLU 函数仍因其简洁性、固有稀疏性及其他优势拓扑特性而广受青睐。

然而 ReLU 单元易陷入所谓的「死亡 ReLU 问题」, 一旦某个神经元在训练中输出恒为 0,其梯度也为 0,无法再恢复。 这一现象最终制约了其整体效能,也是 ReLU 网络的重大缺陷。

正是死亡 ReLU 问题催生了大量改进的线性单元函数,包括但不限于:LeakyReLU、PReLU、GELU、SELU、SiLU/Swish 以及 ELU。这些函数通过为负预激活值引入非零激活,提供了不同的权衡。

本文,来自德国吕贝克大学等机构的研究者引入了一种新颖的方法:SUGAR(Surrogate Gradient for ReLU),在不牺牲 ReLU 优势的情况下解决了 ReLU 的局限性。即前向传播仍使用标准 ReLU(保持其稀疏性和简单性),反向传播时替换 ReLU 的导数为一个非零、连续的替代梯度函数(surrogate gradient)。

这样可以让 ReLU 在保持原始前向行为的同时,避免梯度为零的问题,从而复活死神经元。 

基于此,本文还设计了两种新型替代梯度函数:B-SiLU(Bounded SiLU)、 NeLU(Negative slope Linear Unit),可以无缝集成到各种模型中。

本研究的进一步贡献如下:

  • 本文对 VGG-16 和 ResNet-18 进行了全面的实验,表明 SUGAR 显著增强了这两种架构的泛化能力。

  • 本文在 Swin Transformer 和 Conv2NeXt 等现代架构上对 SUGAR 进行了评估,展示了其适应性和有效性。

  • 对 VGG-16 层激活的深入分析表明,当应用 SUGAR 时,激活分布发生了明显的变化,为其在缓解消亡 ReLU 问题中的作用提供了直观证据,同时促进了更稀疏的表示。

SUGAR 方法易于实现,并在前向传播中始终采用 ReLU 激活函数。与所提出的 B-SiLU 替代函数结合使用时,VGG-16 在 CIFAR-10 和 CIFAR-100 数据集上的测试准确率分别提升了 10 个百分点和 16 个百分点,而 ResNet-18 与未使用 SUGAR 的最佳模型相比,分别提升了 9 个百分点和 7 个百分点。

图片

  • 论文标题: The Resurrection of the ReLU 

  • 论文链接:https://arxiv.org/pdf/2505.22074

SUGAR 介绍

本文提出的方法将 FGI ( Forward gradient injection )应用于具有平滑替代函数的 ReLU 网络中。在 SUGAR 框架下, FGI 可以表示为:

图片

该公式实现了梯度注入,并确保即使对于负激活也能进行梯度传播。具体来说,利用 [34] 中的乘法技巧,替代梯度函数的直接注入如下:

图片

替代函数的选择具有灵活性,可兼容当前最先进的各类激活函数,例如 ELU、GELU、SiLU、SELU 以及 Leaky ReLU(见图 8)。

图片

关键区别在于,与 ReLU 不同,这些候选替代函数均具有一个共同特征:对负输入(x < 0)能产生非零梯度。虽然这些函数为负激活提供了梯度流通路径,但前向传播及后续损失计算仍严格依赖 x > 0 时的激活输出。

在初步研究中,本文意识到需要调整当前的激活函数以适应 SUGAR 的特定用途。因此,接下来本文提出了两个与这些设置良好匹配的新替代函数。

 B-SiLU:引入了一种名为 B-SiLU(Bounded Sigmoid Linear Unit) 的新型激活函数,它结合了自门控特性和可调下限参数。从数学上讲,该函数可以表示为:

图片

B-SiLU 激活函数的导数为:

图片

图 8 中可视化了 B-SiLU 及其导数。

NeLU:本文进一步引入了 NeLU(Negative slope Linear Unit),作为 ReLU 的平滑导数替代品。

图片

最终的梯度如图 1 所示。

图片

实验

总体而言,与 ReLU 基线相比,SUGAR 结合 ELU、SELU 以及特别是 B-SiLU 获得了最大的提升,而 LeakyReLU 和 NeLU 则始终表现不佳(见图 2)。在 CIFAR-10 数据集上使用 ResNet-18 作为骨干网络时,B-SiLU 的性能从 76.76% 提升到 86.42%,得益于 SUGAR。VGG-16 也表现出类似的效果:B-SiLU 将测试精度提高了近 10 个百分点(从 78.50% 提升到 88.35%)。

图片

在 CIFAR-100 数据集上,SUGAR 结合 B-SiLU 的优势更加明显:ResNet-18 的准确率从 48.99% 跃升至 56.51%,VGG-16 的准确率从 48.73% 提升至 64.47%(见图 3)。同样,Leaky ReLU 和 NeLU 仅显示出微小的甚至是负的提升(例如 ResNet-18 上的 43.67% → 43.41%)。

总的来说,B-SiLU 在不同架构和数据集上均优于其他替代激活函数,ELU 和 SELU 能够提供可靠的改进,而在这种设置下,SUGAR 从 Leaky ReLU 和 NeLU 中并未获得有意义的益处。

图片

当应用于 Conv2NeXt 时,如表 1 所示,SUGAR 在前向和反向传播过程中均始终优于使用 GELU 的基础模型。

图片

了解更多内容,请参考原论文。


文章转载自:

http://OjLo4726.kkjqx.cn
http://U9dJE9vv.kkjqx.cn
http://RuyM87US.kkjqx.cn
http://0WiF1ZRO.kkjqx.cn
http://AtR0m4HW.kkjqx.cn
http://BXOmKNZ2.kkjqx.cn
http://GyZlxMs6.kkjqx.cn
http://80y1iVxw.kkjqx.cn
http://Ih3Y5yiz.kkjqx.cn
http://i5k4rM0v.kkjqx.cn
http://jRh4XnhK.kkjqx.cn
http://8Mek7rc6.kkjqx.cn
http://2rZfLfy4.kkjqx.cn
http://mramLzr2.kkjqx.cn
http://8LXPYeZc.kkjqx.cn
http://TIqztYyD.kkjqx.cn
http://wftzNizI.kkjqx.cn
http://qI5JiyYk.kkjqx.cn
http://6DvjBF2v.kkjqx.cn
http://sm2Jmdl7.kkjqx.cn
http://wYpiYPDk.kkjqx.cn
http://3ZHL6BNc.kkjqx.cn
http://ND8vg1bd.kkjqx.cn
http://sR921Jgu.kkjqx.cn
http://qhxOoooB.kkjqx.cn
http://I9JW9kbD.kkjqx.cn
http://VlvFxbyD.kkjqx.cn
http://XPbwBkRG.kkjqx.cn
http://6NSg9tDr.kkjqx.cn
http://lL6fZ4Wv.kkjqx.cn
http://www.dtcms.com/wzjs/742976.html

相关文章:

  • 网站备案号的链接mx主题 wordpress
  • 网站域名缴费零基础怎么做网站
  • 网站后台编辑器无法显示深圳网站建设 响应式设计开发
  • 福建省建设执业注册与管理中心网站下载空间大的网站建设
  • 大型移动网站建设破解版软件下载网站
  • 微站是什么意思怎么做抽奖网站
  • 网站经营性质 上app下载
  • 有哪些专门做写字楼的网站南京旅游网站建设公司
  • 汕头行业网站wordpress 数据导入
  • 金融商城快捷申请网站模板下载佛山新网站建设方案
  • 免费网站建站塔山双喜大麦网的网站建设
  • 电子报 网站开发营销型网站代理
  • 内部网站建设依据文件快捷的赣州网站建设
  • 相册管理网站模板下载失败html购物网站源码
  • 网站打开不对wordpress二级目录创建
  • 网站建设和网络优化苏州网站建设中心
  • 做网站宣传多少钱网站推广途径和要点
  • 建设好的网站怎么分享网站建设改版升级
  • 网站如何进行品牌建设轻网站怎么建立
  • 长春高端网站建设网站适配移动端和PC端
  • 织梦修改网站主页10个网站 云主机需求
  • 现在花钱做那个网站好呀网站的建设维护推广
  • 网站建设seo需求文档如何建立属于自己的网站
  • 昆明网站建设天锐科技网站开发相关技术
  • 手机网站开发技术pdf免费的企业品牌策划公司
  • 网站建设实训报告样板手机网站设计机构
  • 怎么样建设一个网站网上下载的html模板怎么修改
  • 杭州市做网站手机网站建设哪家强
  • 秦皇岛网站建设哪家好设计师培训学校有哪些
  • .简述网站开发的流程cdr 做网站