当前位置: 首页 > news >正文

AD-DROP:Attribution-Driven Dropout for Robust Language Model Fine-Tuning

1 Introduction

该部分围绕大规模预训练语言模型(PrLMs)微调的核心问题、现有解决方案的不足展开,最终引出本文研究目标与核心方法,具体内容如下:

  1. 预训练-微调范式与核心挑战
    基于大规模无标注语料预训练语言模型,再在下游任务上进行微调,已成为自然语言处理领域的主流范式,其成功在一定程度上归功于自注意力机制。但自注意力网络存在冗余性,且由于模型参数过多与下游任务标注数据有限之间的不匹配,微调时极易出现过拟合问题。

  2. 现有正则化方法的局限
    为解决微调过拟合问题,研究者已提出多种正则化技术,如数据增强、对抗训练及基于dropout的方法。其中,以dropout为核心的方法因简单有效被广泛应用,且已衍生出Concrete Dropout、DropBlock、AutoDropout等变体,但这些变体均延续了传统dropout“随机丢弃单元”的思路,未关注dropout操作对自注意力机制的具体影响,这一研究空白成为本文的切入点。

  3. 自注意力归因的关键发现
    归因(Attribution)是一种模型可解释性方法,通过梯度等显著性度量将模型预测结果与输入特征关联,近年也被用于解释自注意力的影响模式。本文通过自注意力归因实验发现:自注意力位置对防止过拟合的重要性存在差异——丢弃低归因分数的注意力位置,比丢弃高归因分数的位置更易导致过拟合,这表明在dropout操作中,不能将所有自注意力位置等同对待。

  4. 本文研究目标与核心方法预告
    基于上述发现,本文旨在从自注意力归因视角填补现有dropout研究的空白,减少PrLMs微调时的过拟合。为此,提出核心方法“归因驱动的dropout(AD-DROP)”,并预告将设计交叉调优策略以优化该方法,为后续方法论部分做铺垫。

2 Methodology

2.1 Preliminaries

该部分作为方法论的基础铺垫,主要回顾了Transformer中的自注意力机制(PrLMs的核心架构),以及用于量化注意力位置重要性的自注意力归因方法,具体内容如下:

  1. Transformer自注意力机制回顾
    由于Transformer是预训练语言模型(PrLMs)的核心架构,首先明确自注意力模块的输入与计算逻辑:设Transformer某一层的输入为X∈Rn×dX \in \mathbb{R}^{n \times d}XRn×d(其中nnn为序列长度,ddd为嵌入维度),对于该层的第hhh个注意力头,输入XXX会通过线性投影分别转化为查询矩阵QhQ_{h}Qh、键矩阵KhK_{h}Kh和值矩阵VhV_{h}Vh
    该注意力头的输出通过以下公式计算:
    Attention(Qh,Kh,Vh)=AhVh=softmax(QhKhTdk+Mh)VhAttention \left(Q_{h}, K_{h}, V_{h}\right)=A_{h} V_{h}=softmax\left( \frac {Q_{h} K_{h}^{T}}{\sqrt {d_{k}}}+M_{h}\right) V_{h}Attention(Qh,Kh,Vh)=AhVh=softmax(dkQhKhT+Mh)Vh
    其中,dk\sqrt{d_{k}}dk是用于缓解梯度消失的缩放因子;MhM_{h}Mh为掩码矩阵,用于在自注意力中实现dropout——若某一注意力位置需被屏蔽,MhM_{h}Mh对应位置元素设为−∞-\infty,否则设为0。

  2. 自注意力归因方法介绍
    归因(Attribution)是一种模型可解释性技术,通过显著性度量(如梯度)将模型预测结果与输入特征关联,本文中用于量化自注意力位置对预测的影响。基于HHH个注意力头的注意力图A=[A1,A2,⋯ ,AH]A=[A_{1}, A_{2}, \cdots, A_{H}]A=[A1,A2,,AH],介绍了两种核心归因方法:

  • 梯度归因(Gradient Attribution):直接通过计算预测对数输出对注意力图的偏导数生成归因矩阵BhB_{h}Bh,公式为:
    Bh=∂Fc(A)∂AhB_{h}=\frac{\partial F_{c}(A)}{\partial A_{h}}Bh=AhFc(A)
    其中Fc(⋅)F_{c}(\cdot)Fc()表示模型对类别ccc的预测对数输出(logit)。
  • 集成梯度(Integrated Gradient):为解决梯度归因在模型饱和区域梯度为0的问题,提出的理论更严谨的归因方法,由Sundararajan等人提出并被Hao等人用于自注意力归因。其归因矩阵BhB_{h}Bh计算方式为:
    Bh=Ahm⊙∑k=1m∂Fc(kmA)∂AhB_{h}=\frac{A_{h}}{m} \odot \sum_{k=1}^{m} \frac{\partial F_{c}\left(\frac{k}{m} A\right)}{\partial A_{h}}Bh=mAhk=1mAhFc(mkA)
    其中mmm是用于近似积分的步数,⊙\odot表示元素-wise乘法。但文中同时指出,集成梯度需额外进行mmm次计算,计算成本显著高于梯度归因,后续实验也验证梯度归因在性能与效率间更具优势。

2.2 A Prior Attribution Experiment

  1. 实验设置

    • 基础模型与数据集:以RoBERTa_base为基础模型,在MRPC(微软研究复述语料库)数据集上开展实验;
    • 核心操作流程:首先对训练样本批次进行模型前向计算,得到每个样本对应真实标签的预测对数输出(logit);接着通过梯度归因(基于2.1节公式(2))计算第一层自注意力位置的归因矩阵(B_h),并对矩阵每行元素排序;随后分别采样归因分数高或低的位置生成掩码矩阵(M_h),代入自注意力计算公式(公式(1))得到最终预测;每个训练轮次后,在开发集上评估模型性能;
    • 对比基准:设置两种基准丢弃策略——随机采样丢弃位置、不丢弃任何位置,以对比不同策略的效果。
  2. 实验结果与关键观察
    实验通过绘制训练损失与验证损失曲线(图2),得出三点核心结论:

    • 丢弃低归因分数的位置会使模型快速拟合训练数据,但在开发集上性能表现较差,说明该操作无法有效训练模型,反而可能导致模型学习到训练数据中的噪声;
    • 与其他丢弃策略(随机丢弃、丢弃低归因位置、不丢弃)相比,丢弃高归因分数的位置能显著降低模型的拟合速度,更有利于缓解过拟合;
    • 随机丢弃策略仅能轻微减少过拟合,效果远不及丢弃高归因位置的策略。

2.3 Attribution-Driven Dropout

1. 设计动机与核心目标

2.2节预实验证实,自注意力位置对防止过拟合的重要性不同——丢弃低归因分数位置会加速过拟合,丢弃高归因分数位置可减少过拟合。基于此,AD-DROP的设计动机是减少模型对特定(高归因)特征的过度依赖,进而缓解预训练语言模型(PrLMs)在下游任务微调时的过拟合问题;其核心目标是通过针对性丢弃高归因注意力位置,迫使模型更多依赖低归因位置进行预测,提升模型泛化能力。同时明确,AD-DROP与传统dropout一致,仅在训练阶段应用。

2. AD-DROP的四步执行流程

AD-DROP的操作围绕“前向计算→归因矩阵生成→掩码矩阵生成→二次前向与反向传播”展开,具体步骤结合公式与逻辑如下(流程可参考文中图3):

  • 步骤1:初始前向计算,获取伪标签与注意力图
    给定训练集D={(xi,yi)}i=1ND=\{(x_{i}, y_{i})\}_{i=1}^{N}D={(xi,yi)}i=1Nxix_ixi为第iii个样本,yiy_iyi为其标签),对输入xix_ixi(含nnn个token)执行模型前向计算(不丢弃任何注意力位置)。一方面,根据模型输出的类别概率,选取概率最高的类别作为伪标签c~\tilde{c}c~,计算公式为:
    c~=argmax⁡c(PF(c∣xi))\tilde {c}=\mathop {arg \operatorname* {max}}_{c}\left( P_{F}(c|x_{i})\right)c~=argmaxc(PF(cxi))
    其中PF(c∣xi)P_{F}(c | x_{i})PF(cxi)是模型F(⋅)F(\cdot)F()对样本xix_ixi属于类别ccc的预测概率;另一方面,根据2.1节自注意力计算公式(公式1),得到每一层HHH个注意力头的注意力图集合A=[A1,A2,⋯ ,AH]A=[A_{1}, A_{2}, \cdots, A_{H}]A=[A1,A2,,AH]

  • 步骤2:计算归因矩阵
    基于步骤1得到的注意力图AAA与伪标签c~\tilde{c}c~,采用2.1节的梯度归因方法(公式2),计算每个注意力头的归因矩阵B=[B1,B2,⋯ ,BH]B=[B_{1}, B_{2}, \cdots, B_{H}]B=[B1,B2,,BH]。其中,第hhh个注意力头的归因矩阵BhB_hBh计算公式为:
    Bh=∂Fc‾(A)∂AhB_{h}=\frac{\partial F_{\overline{c}}(A)}{\partial A_{h}}Bh=AhFc(A)
    这里Fcˉ(A)F_{\bar{c}}(A)Fcˉ(A)是伪标签c~\tilde{c}c~对应的、softmax激活前的对数输出(logit);对于回归任务与token级任务,会采用负损失进行计算(细节见附录A)。

  • 步骤3:生成掩码矩阵
    基于归因矩阵BhB_hBh筛选高归因位置并生成掩码,分两步执行:

    1. 定义“候选丢弃区域”:将BhB_hBh的每行元素按升序排序,得到排序后的归因矩阵B^h\widehat{B}_hBh;设定超参数p∈(0,1)p \in(0,1)p(0,1)(控制候选区域大小),若BhB_hBh中元素bi,jb_{i,j}bi,j小于B^h\widehat{B}_hBh中第int(n(1−p))int(n(1-p))int(n(1p))个元素(int(⋅)int(\cdot)int()为取整函数),则该元素所在位置属于“候选丢弃区域”ShS_hSh(标记为1,否则为0),公式为:
      KaTeX parse error: Expected '}', got '&' at position 40: …array} {ll}{1, &̲ b_{i, j}<\hat{…
    2. 生成掩码矩阵MhM_hMh:设定dropout率qqq,引入服从伯努利分布的矩阵UhU_hUh(元素ui,j∼Bernoulli(1−q)u_{i,j} \sim Bernoulli(1-q)ui,jBernoulli(1q));若si,j+ui,j=0s_{i,j}+u_{i,j}=0si,j+ui,j=0(即位置在候选丢弃区域且被随机选中丢弃),则MhM_hMh对应位置设为−∞-\infty,否则设为0,公式为:
      KaTeX parse error: Expected '}', got '&' at position 46: …{cc}{-\infty , &̲ \left(s_{i, j}…
  • 步骤4:二次前向计算与反向传播
    将步骤3生成的掩码矩阵MhM_hMh代入2.1节自注意力计算公式(公式1),执行第二次前向计算,得到模型最终预测结果;基于该结果计算损失,并通过反向传播更新模型参数WWW

3. 采用伪标签而非真实标签进行归因的原因

文中明确AD-DROP选择伪标签(步骤1生成)而非真实标签yiy_iyi计算归因,核心原因有两点:

  • 避免训练与推理的不一致:若使用真实标签,会提前泄露训练数据的标签信息,而推理阶段模型无法获取真实标签,导致训练与推理的归因逻辑脱节,影响模型泛化;
  • 修正错误预测:对于第一次前向计算中被误分类的样本,若用真实标签计算高归因位置,这些位置可能与伪标签对应的低归因区域重叠,丢弃此类位置无法帮助模型修正错误;而用伪标签归因,可促使模型关注当前预测中未被充分利用的特征(低归因位置),进而可能修正错误预测。

2.4 Cross-Tuning Algorithm

1. 设计背景与目标

AD-DROP的核心逻辑是丢弃高归因注意力位置以缓解过拟合,但过度丢弃高归因位置会导致训练过程中有效信息不足,进而影响模型正常收敛。基于此,交叉调优策略的设计目标是避免对高归因位置的过度丢弃,通过交替执行不同训练模式,平衡正则化效果与训练稳定性,确保模型在减少过拟合的同时能正常学习。

2. 策略核心逻辑与执行流程

交叉调优策略的核心是“交替执行原始微调与AD-DROP”,具体规则为:在奇数轮次(epoch)采用原始微调方式,在偶数轮次采用AD-DROP方式。文中通过“算法1(Algorithm 1 Cross-tuning)”明确了其执行流程,关键步骤拆解如下:

  • 初始化:输入打乱后的训练样本集D={(xi,yi)}i=1ND = \{(x_i, y_i)\}_{i=1}^{N}D={(xi,yi)}i=1N、预训练语言模型FFF及其初始参数WWW,将模型参数初始化为WWW,设置初始轮次epoch=1epoch = 1epoch=1
  • 循环训练(直至收敛)
    1. 奇数轮次(原始微调):执行常规前向计算,得到样本预测概率PF(yi∣xi)P_F(y_i|x_i)PF(yixi)与损失;通过反向传播损失更新模型参数WWW,此过程不引入AD-DROP的掩码操作,保留全部注意力位置信息;
    2. 偶数轮次(AD-DROP):按照2.3节AD-DROP的四步流程(公式4-7)生成掩码矩阵M=[M1,M2,⋯ ,MH]M = [M_1, M_2, \cdots, M_H]M=[M1,M2,,MH];将掩码矩阵代入自注意力计算(公式1),执行前向计算得到新的预测概率与损失;通过反向传播新损失更新模型参数WWW
  • 终止与输出:当模型训练收敛后,输出最终更新后的模型参数WWW

3. 策略的核心作用

该策略通过“原始微调→AD-DROP”的交替模式,在奇数轮次保障模型对核心特征(高归因位置相关)的有效学习,避免关键信息因持续丢弃而流失;在偶数轮次通过AD-DROP实现正则化,减少模型对高归因位置的过度依赖。这种平衡机制有效解决了单纯使用AD-DROP可能导致的“过度丢弃”问题,为后续实验中模型训练稳定性的提升提供了关键支撑(后续3.4节消融实验进一步验证,移除交叉调优会导致性能显著下降)。

3 Experiments

该部分通过系统性实验验证AD-DROP的有效性,从数据集选择、实现细节、整体性能、关键组件消融四个维度展开,具体内容如下:

3.1 Datasets(数据集)

实验覆盖多类任务与场景,以全面验证AD-DROP的通用性,具体包括:

  • 核心基准任务:采用GLUE基准的8个自然语言理解任务,包括SST-2(情感分类)、MNLI(自然语言推理)、QNLI(问答推理)、QQP(问题对语义匹配)、CoLA(语言可接受性)、STS-B(语义相似度)、MRPC(复述识别)、RTE(文本蕴含),评估指标根据任务特性区分——CoLA用Matthew相关系数(Mcc)、STS-B用Pearson相关系数(Pcc),其余用准确率(Acc);
  • Token级任务:为验证AD-DROP对非分类任务的适配性,在命名实体识别(CoNLL-2003)和机器翻译(WMT 2016 EN-RO、TR-EN)任务上开展实验,结果在附录A.2呈现;
  • 分布外(OOD)泛化任务:为验证AD-DROP缓解过拟合、提升泛化能力的效果,采用HANS(NLI启发式测试集)和PAWS-X(跨语言复述识别对抗数据集),评估模型对分布外数据的适配性。
    文中同时提及数据集细节(如样本量、任务定义)在附录C.1补充。

3.2 Implementation Details(实现细节)

明确实验的技术配置与超参数设置,确保可复现性,关键信息包括:

  • 技术框架与硬件:基于PyTorch和Transformers库实现,使用GeForce RTX 3090 GPU训练;
  • 核心超参数搜索:学习率在{1e-5, 2e-5, 3e-5}中搜索,批大小在{16, 32, 64}中搜索;采用早停(early stopping)策略确定训练轮次;AD-DROP的两个关键超参数(候选丢弃区域比例(p)、dropout率(q))在[0.1, 0.9]内以0.1为步长搜索;
  • 归因方法配置:集成梯度(公式3)的步数(m)设为20(遵循Hao等人[23]的设置);AD-DROP的应用层根据任务调整——SST-2、MNLI等训练稳定、过拟合风险低的任务仅在第一层应用,其余任务在所有层应用;
  • 代码开源:实验代码可在https://github.com/TaoYang225/AD-DROP获取,附录C.2提供各数据集的具体超参数配置。

3.3 Overall Results(整体性能)

对比AD-DROP与现有正则化方法在GLUE基准上的性能,验证其有效性:

  • 对比基准:包括原始微调(无正则化)、SCAL[17]、SuperT[48]、R-Drop[18]、HiddenCut[15]等主流正则化方法;
  • 核心结果:AD-DROP在开发集和测试集上均显著优于基准方法——在开发集上,BERT_base+AD-DROP平均提升1.98个百分点,RoBERTa_base+AD-DROP平均提升1.29个百分点;在测试集上,两者分别平均提升0.87、0.62个百分点;
  • 关键发现:AD-DROP在小数据集上的性能提升更明显(小数据集过拟合风险更高),进一步印证其针对性缓解过拟合的作用。

3.4 Ablation Study(消融实验)

针对AD-DROP的关键组件(归因方法、标签类型、交叉调优策略)开展消融实验,探究各组件的必要性,实验在4个小数据集(CoLA、STS-B、MRPC、RTE)的开发集上进行:

  • 归因方法对比:测试梯度归因(GA)、集成梯度(IGA)、注意力权重归因(AA)、随机丢弃区域(RD)四种方式,结果显示:梯度基归因(GA、IGA)优于AA和RD,能更精准定位易导致过拟合的特征;IGA虽理论更优,但计算成本远高于GA(后续4.7节效率分析显示IGA成本为GA的数十倍),故GA是更优选择;
  • 伪标签vs真实标签:用真实标签替换伪标签进行归因后,模型性能下降,验证了“伪标签可避免训练-推理不一致、帮助修正错误预测”的设计合理性;
  • 交叉调优策略的作用:移除交叉调优后,模型在多数数据集上性能显著下降(如RTE任务RoBERTa准确率降3.6个百分点);参数敏感性实验(图4)显示,无交叉调优时部分参数组合下模型无法正常训练,而有交叉调优时多数参数组合均能稳定生效,证明交叉调优对提升训练稳定性的关键作用。
http://www.dtcms.com/a/410537.html

相关文章:

  • Redis从零讲解
  • 天津平台网站建设哪里好太原免费网络推广哪里朿
  • 量子机器学习深度探索:从原理到实践的全面指南
  • 济南网站建设(选聚搜网络)有域名 有主机 怎么建设网站
  • 网站建设找汉狮阿里云域名申请注册
  • linux入门4.5(NFS服务器和iSCSI服务器)
  • 微服务k8s集群架构
  • 做网站图片大小不合适怎么调丁的老头seo博客
  • 建设家居网站江门模板建站哪家好
  • 360浏览器如何查看记住的账号密码——筑梦之路
  • 正则化技术详解:从L1到L2,如何有效提升模型泛化能力
  • 专业网站建设哪家更好产品营销软文
  • Gli appunti di scienza dei dati[1]
  • 衡水做网站推广找谁免费网站设计定制
  • Inno Setup v6.5.3 安装包制作和打包工具免安装汉化版
  • 设计用哪些网站有哪些江阴网站优化公司
  • 网站对企业的重要性网络网页设计制作公司
  • 在 CentOS 7.6 上安装 Oracle WebLogic Server 12c 详细教程
  • Android,jetpack,compose,简单模仿水果消消乐
  • 小迪安全v2023学习笔记(八十八讲)—— 安卓逆向篇JEB反编译断点动态调试加密算法还原逻辑会员绕过
  • 无人机作业分析平台的实际应用怎么样?
  • 网站开发准备统计wordpress
  • 用trea导入keil的工程文件
  • GitOps:一种实现云原生的持续交付模型
  • 可以做调查的网站wordpress修改后台
  • 废品回收小程序:从 “扔垃圾“ 到 “变资源“ 的体验革命
  • 快手小程序踩坑——首屏数据预取踩坑记录
  • 乔拓云门店小程序快速搭建攻略
  • IP新定义下的商业新范式:基于定制开发开源AI智能名片S2B2C商城小程序的IP价值变现研究
  • 个人游戏网站备案wordpress获取tag