当前位置: 首页 > news >正文

论文精度:Transformers without Normalization

 前言

论文题目:Transformers without Normalization

作者:Jiachen Zhu 1,2 , Xinlei Chen 1 , Kaiming He 3 , Yann LeCun 1,2 , Zhuang Liu 1,4,†

论文地址:https://arxiv.org/pdf/2503.10282

摘要

这篇论文探讨了现代神经网络中广泛使用的归一化层是否是必不可少的。作者提出了一个名为Dynamic Tanh(DyT)的操作,作为归一化层在Transformer中的替代方案。通过将DyT应用于没有归一化的Transformer模型,实验结果表明这些模型可以达到与有归一化的模型相同或更好的性能,并且不需要进行超参数调整。该研究挑战了人们对于归一化层不可或缺的传统认识,并为深度网络中归一化层的作用提供了新的见解。

论文方法

方法描述

该论文提出了一种新的神经网络层——动态tanh(DyT),用于替代传统的归一化层。DyT在每个输入元素上独立地执行前向传递,而无需计算统计信息或其

http://www.dtcms.com/a/77223.html

相关文章:

  • 提示词模板
  • KNN算法性能优化技巧与实战案例
  • vuex持久化存储,手动保存到localStorage,退出登录时清空vuex及localStorage
  • 【数据库】掌握MySQL事务与锁机制-数据一致性的关键
  • Vue:单文件组件
  • Spring Boot 启动顺序
  • k8s-coredns-CrashLoopBackOff 工作不正常
  • QT多媒体播放器类:QMediaPlayer
  • ollama搭建deepseek调用详细步骤
  • flutter 专题 九十八 Flutter 1.7正式版发布
  • EmbodiedSAM:在线实时3D实例分割,利用视觉基础模型实现高效场景理解
  • I211学习笔记
  • vue3:request.js中请求方法,api封装请求,方法请求
  • 28.Vulmap:Web 漏洞扫描与验证工具
  • Unity | 工具类:单例总结
  • Windows安装MySQL5.7.26教程图解
  • LeetCode 解题思路 20(Hot 100)
  • 再学:合约继承 、抽象合约 solidity接口、库、事件 合约重入攻击
  • C语言论递归函数及其本质
  • 【FAQ】HarmonyOS SDK 闭源开放能力 —Map Kit(6)
  • 中兴B860AV3.2-T/B860AV3.1-T2_S905L3-B_2+8G_安卓9.0_先线刷+后卡刷固件-完美修复反复重启瑕疵
  • Linux--内核进程O(1)调度队列
  • 20分钟上手DeepSeek开发:SpringBoot + Vue2快速构建AI对话系统
  • 画册相册图库摄影画廊H5开源版开发
  • 论文阅读:SCI 1区 RADAR: Robust AI-Text Detection via Adversarial Learning
  • TypeScript + Vue:类风格组件如何引领前端新潮流?
  • 植物知识分享论坛毕设
  • Python基础语法全解析:从入门到实践
  • Qt中打开windows的cmd窗口并显示
  • Git 使用SSH登陆