当前位置: 首页 > news >正文

论文精度:Transformers without Normalization

 前言

论文题目:Transformers without Normalization

作者:Jiachen Zhu 1,2 , Xinlei Chen 1 , Kaiming He 3 , Yann LeCun 1,2 , Zhuang Liu 1,4,†

论文地址:https://arxiv.org/pdf/2503.10282

摘要

这篇论文探讨了现代神经网络中广泛使用的归一化层是否是必不可少的。作者提出了一个名为Dynamic Tanh(DyT)的操作,作为归一化层在Transformer中的替代方案。通过将DyT应用于没有归一化的Transformer模型,实验结果表明这些模型可以达到与有归一化的模型相同或更好的性能,并且不需要进行超参数调整。该研究挑战了人们对于归一化层不可或缺的传统认识,并为深度网络中归一化层的作用提供了新的见解。

论文方法

方法描述

该论文提出了一种新的神经网络层——动态tanh(DyT),用于替代传统的归一化层。DyT在每个输入元素上独立地执行前向传递,而无需计算统计信息或其

相关文章:

  • 提示词模板
  • KNN算法性能优化技巧与实战案例
  • vuex持久化存储,手动保存到localStorage,退出登录时清空vuex及localStorage
  • 【数据库】掌握MySQL事务与锁机制-数据一致性的关键
  • Vue:单文件组件
  • Spring Boot 启动顺序
  • k8s-coredns-CrashLoopBackOff 工作不正常
  • QT多媒体播放器类:QMediaPlayer
  • ollama搭建deepseek调用详细步骤
  • flutter 专题 九十八 Flutter 1.7正式版发布
  • EmbodiedSAM:在线实时3D实例分割,利用视觉基础模型实现高效场景理解
  • I211学习笔记
  • vue3:request.js中请求方法,api封装请求,方法请求
  • 28.Vulmap:Web 漏洞扫描与验证工具
  • Unity | 工具类:单例总结
  • Windows安装MySQL5.7.26教程图解
  • LeetCode 解题思路 20(Hot 100)
  • 再学:合约继承 、抽象合约 solidity接口、库、事件 合约重入攻击
  • C语言论递归函数及其本质
  • 【FAQ】HarmonyOS SDK 闭源开放能力 —Map Kit(6)
  • 专访|《内沙》导演杨弋枢:挽留终将失去的美好
  • 以军证实空袭也门多个港口
  • 中央提级巡视后,昆明厅官郭子贞接受审查调查
  • 华东政法与复旦上医签署合作框架协议,医学与法学如何交叉融合?
  • 董军在第六届联合国维和部长级会议上作大会发言
  • 病重老人被要求亲自取钱在农业银行门口去世?株洲警方介入