当前位置：首页 > news >正文

好发不卷！Transformer依旧能打，模型性能显著提升！

news 2025/7/10 11:48:06

最近，Transformer的最新研究成果令人瞩目。研究人员在多个方向上取得了突破性进展，例如，通过引入动态双曲正切函数（DyT）替代归一化层，无需归一化的Transformer模型在多种任务场景中达到了甚至超过传统模型的性能。此外，基于Transformer的视觉分割技术也在不断演进，新的方法在非铺装路面分割、高分辨率遥感影像分割以及视频语义分割等领域表现出色。在架构改进方面，有研究提出了动态局部增强模块（DLE）和一元共现激励模块（UCE），以增强Transformer对局部特征的捕捉能力。

这些成果不仅展示了Transformer在处理复杂任务中的潜力，还为未来的深度学习研究提供了新的方向和思路。我整理了10篇【Transformer】的相关论文，全部论文PDF版，工中号沃的顶会回复“T10”领取。

Neighborhood Attention Transformer

文章解析

文章提出邻域注意力（NA）机制及基于此的 NAT 模型。通过实验对比，验证了其在多视觉任务中的优势，为视觉 Transformer 发展提供新方向，推动了相关领域研究。

创新点

提出邻域注意力机制，将自注意力定位到像素邻域，具有线性复杂度，引入局部归纳偏差并保持平移不变性。

开发NATTEN包，包含高效的C++和CUDA内核，使NA比Swin的窗口自注意力更快、内存使用更少。

构建NAT模型，采用分层设计和重叠卷积下采样，在图像分类、检测和分割任务中性能优异。

研究方法

构建不同参数配置的NAT模型变体，如NAT-Mini、NAT-Tiny等，对比其他模型进行实验。

在ImageNet-1K、MS-COCO、ADE20K等数据集上开展图像分类、目标检测和语义分割实验。

对比实验，将NAT与Swin Transformer、ConvNeXt等模型比较，评估性能差异。

进行消融实验，探究不同注意力模式、NAT设计及卷积核大小等对模型性能的影响。

研究结论

NA机制在理论和实践中均表现出色，基于NA的NAT模型在多视觉任务上超越或与Swin Transformer、ConvNeXt相当。

消融实验表明，NAT的设计，如卷积下采样和更深更窄的架构，以及NA机制对提升模型性能有重要作用。

NAT模型在不同视觉任务中展现出良好的适用性和有效性，为视觉Transformer的研究和应用提供了新的思路和方法。

Improving Language Understanding by Generative Pre-Training

文章解析

文章提出通过生成式预训练和判别式微调提升语言理解能力。在多任务实验中表现出色，验证了方法有效性，为自然语言处理领域提供新思路。

创新点

创新地采用两阶段训练框架，先在无监督语料库上进行生成式预训练，再针对特定任务微调，有效利用无监督数据提升模型性能。

设计任务特定的输入转换方式，将结构化输入转化为序列，减少模型架构修改，使预训练模型能更好地适应不同任务。

利用Transformer架构捕捉长距离依赖，相较于LSTM，在多种自然语言理解任务上表现更优，推动了语言模型发展。

研究方法

以BooksCorpus数据集训练语言模型，采用12层解码器的Transformer架构，设置特定超参数进行无监督预训练。

在多个自然语言理解任务数据集上进行微调实验，包括自然语言推理、问答等，调整学习率等超参数。

通过对比不同层数转移、零样本学习和消融实验，分析模型性能影响因素。

对比其他模型和方法，评估本文模型在各任务上的表现，验证其有效性。

研究结论

该模型在9个数据集上取得最领先的成绩，在常识推理、问答、文本蕴含等任务上显著超越之前的方法，性能提升明显。

预训练层数对模型性能有积极影响，每增加一层都能带来一定提升，Transformer架构有助于提升零样本学习能力。

辅助语言建模目标、预训练等对模型性能提升至关重要，证明了半监督学习方法在自然语言处理任务中的有效性。

http://www.dtcms.com/a/271079.html

相关文章：

C++STL-String

Docker 搭建 Harbor 私有仓库

Elasticsearch RESTful API入门：全文搜索实战（Java版）

【Oracle报错】[INS-13001] 环境不满足最低要求。

以太网基础④IP 协议介绍与 IP 校验和算法实现

逆向 qq 音乐 sign，data，解密 response 返回的 arraybuffer

在 Coze 平台工作流开发中，使用图生视频大模型需要时间比较长比如5分钟，如何解决工作流运行超时的问题以及等在视频生成以后再向下走

JavaEE初阶第八期：解锁多线程，从 “单车道” 到 “高速公路” 的编程升级（六）

Jmeter进阶篇（35）完美解决Jmeter转换HTML报告报错“Begin size 0 is not equal to fixed size 5”

git中的指令解释

详解CAN总线的位填充机制

【学习笔记】计算机操作系统（七）—— 文件管理

全志H616开发学习文档

prometheus+grafana接入kafka实战

Python管理咨询数据可视化实战：收入分布与顾问利用率双轴对比图表生成脚本

基于BRPC构建高性能HTTP/2服务实战指南

python之requests库解析

1️⃣理解大语言模型

【时时三省】(C语言基础)通过指针引用数组

阿里开源WebSailor：超越闭源模型的网络智能体新星

疏锦行Python打卡 DAY 54 Inception网络及其思考

HTML + CSS + JavaScript

字体 Unicode 区块字符展示 PDF 生成器

Ubuntu重装系统后ssh连接不上(遇到 “Unit ssh.service not found“ 错误)

kubernetes存储入门

Spring Boot + Vue.js 全栈开发：从前后端分离到高效部署，打造你的MVP利器！

【05】MFC入门到精通——MFC 为对话框中的控件添加变量和数据交换和检验

【01】MFC入门到精通—— MFC新建基于对话框的项目介绍（工作界面、资源视图、类视图）

Flink-1.19.0源码详解6-JobGraph生成-后篇

AJAX总结