好发不卷!Transformer依旧能打,模型性能显著提升!
最近,Transformer的最新研究成果令人瞩目。研究人员在多个方向上取得了突破性进展,例如,通过引入动态双曲正切函数(DyT)替代归一化层,无需归一化的Transformer模型在多种任务场景中达到了甚至超过传统模型的性能。此外,基于Transformer的视觉分割技术也在不断演进,新的方法在非铺装路面分割、高分辨率遥感影像分割以及视频语义分割等领域表现出色。在架构改进方面,有研究提出了动态局部增强模块(DLE)和一元共现激励模块(UCE),以增强Transformer对局部特征的捕捉能力。
这些成果不仅展示了Transformer在处理复杂任务中的潜力,还为未来的深度学习研究提供了新的方向和思路。我整理了10篇【Transformer】的相关论文,全部论文PDF版,工中号 沃的顶会 回复“T10”领取。
Neighborhood Attention Transformer
文章解析
文章提出邻域注意力(NA)机制及基于此的 NAT 模型。通过实验对比,验证了其在多视觉任务中的优势,为视觉 Transformer 发展提供新方向,推动了相关领域研究。
创新点
提出邻域注意力机制,将自注意力定位到像素邻域,具有线性复杂度,引入局部归纳偏差并保持平移不变性。
开发NATTEN包,包含高效的C++和CUDA内核,使NA比Swin的窗口自注意力更快、内存使用更少。
构建NAT模型,采用分层设计和重叠卷积下采样,在图像分类、检测和分割任务中性能优异。
研究方法
构建不同参数配置的NAT模型变体,如NAT-Mini、NAT-Tiny等,对比其他模型进行实验。
在ImageNet-1K、MS-COCO、ADE20K等数据集上开展图像分类、目标检测和语义分割实验。
对比实验,将NAT与Swin Transformer、ConvNeXt等模型比较,评估性能差异。
进行消融实验,探究不同注意力模式、NAT设计及卷积核大小等对模型性能的影响。
研究结论
NA机制在理论和实践中均表现出色,基于NA的NAT模型在多视觉任务上超越或与Swin Transformer、ConvNeXt相当。
消融实验表明,NAT的设计,如卷积下采样和更深更窄的架构,以及NA机制对提升模型性能有重要作用。
NAT模型在不同视觉任务中展现出良好的适用性和有效性,为视觉Transformer的研究和应用提供了新的思路和方法。
Improving Language Understanding by Generative Pre-Training
文章解析
文章提出通过生成式预训练和判别式微调提升语言理解能力。在多任务实验中表现出色,验证了方法有效性,为自然语言处理领域提供新思路。
创新点
创新地采用两阶段训练框架,先在无监督语料库上进行生成式预训练,再针对特定任务微调,有效利用无监督数据提升模型性能。
设计任务特定的输入转换方式,将结构化输入转化为序列,减少模型架构修改,使预训练模型能更好地适应不同任务 。
利用Transformer架构捕捉长距离依赖,相较于LSTM,在多种自然语言理解任务上表现更优,推动了语言模型发展。
研究方法
以BooksCorpus数据集训练语言模型,采用12层解码器的Transformer架构,设置特定超参数进行无监督预训练。
在多个自然语言理解任务数据集上进行微调实验,包括自然语言推理、问答等,调整学习率等超参数。
通过对比不同层数转移、零样本学习和消融实验,分析模型性能影响因素。
对比其他模型和方法,评估本文模型在各任务上的表现,验证其有效性。
研究结论
该模型在9个数据集上取得最领先的成绩,在常识推理、问答、文本蕴含等任务上显著超越之前的方法,性能提升明显。
预训练层数对模型性能有积极影响,每增加一层都能带来一定提升,Transformer架构有助于提升零样本学习能力。
辅助语言建模目标、预训练等对模型性能提升至关重要,证明了半监督学习方法在自然语言处理任务中的有效性。