当前位置：首页 > news >正文

AD-DROP：Attribution-Driven Dropout for Robust Language Model Fine-Tuning

news 2025/9/27 7:19:32

1 Introduction

该部分围绕大规模预训练语言模型（PrLMs）微调的核心问题、现有解决方案的不足展开，最终引出本文研究目标与核心方法，具体内容如下：

预训练-微调范式与核心挑战
基于大规模无标注语料预训练语言模型，再在下游任务上进行微调，已成为自然语言处理领域的主流范式，其成功在一定程度上归功于自注意力机制。但自注意力网络存在冗余性，且由于模型参数过多与下游任务标注数据有限之间的不匹配，微调时极易出现过拟合问题。
现有正则化方法的局限
为解决微调过拟合问题，研究者已提出多种正则化技术，如数据增强、对抗训练及基于dropout的方法。其中，以dropout为核心的方法因简单有效被广泛应用，且已衍生出Concrete Dropout、DropBlock、AutoDropout等变体，但这些变体均延续了传统dropout“随机丢弃单元”的思路，未关注dropout操作对自注意力机制的具体影响，这一研究空白成为本文的切入点。
自注意力归因的关键发现
归因（Attribution）是一种模型可解释性方法，通过梯度等显著性度量将模型预测结果与输入特征关联，近年也被用于解释自注意力的影响模式。本文通过自注意力归因实验发现：自注意力位置对防止过拟合的重要性存在差异——丢弃低归因分数的注意力位置，比丢弃高归因分数的位置更易导致过拟合，这表明在dropout操作中，不能将所有自注意力位置等同对待。
本文研究目标与核心方法预告
基于上述发现，本文旨在从自注意力归因视角填补现有dropout研究的空白，减少PrLMs微调时的过拟合。为此，提出核心方法“归因驱动的dropout（AD-DROP）”，并预告将设计交叉调优策略以优化该方法，为后续方法论部分做铺垫。

2 Methodology

2.1 Preliminaries

该部分作为方法论的基础铺垫，主要回顾了Transformer中的自注意力机制（PrLMs的核心架构），以及用于量化注意力位置重要性的自注意力归因方法，具体内容如下：

Transformer自注意力机制回顾
由于Transformer是预训练语言模型（PrLMs）的核心架构，首先明确自注意力模块的输入与计算逻辑：设Transformer某一层的输入为 $\in \mathbb{R}^{n \times d}$ （其中 $n$ 为序列长度， $d$ 为嵌入维度），对于该层的第 $h$ 个注意力头，输入 $X$ 会通过线性投影分别转化为查询矩阵 $Q_{h}$ 、键矩阵 $K_{h}$ 和值矩阵 $V_{h}$ 。
该注意力头的输出通过以下公式计算：
$\left(Q_{h}, K_{h}, V_{h}\right)=A_{h} V_{h}=softmax\left( \frac {Q_{h} K_{h}^{T}}{\sqrt {d_{k}}}+M_{h}\right) V_{h}$
其中， $dk\sqrt{d_{k}}$ 是用于缓解梯度消失的缩放因子； $M_{h}$ 为掩码矩阵，用于在自注意力中实现dropout——若某一注意力位置需被屏蔽， $M_{h}$ 对应位置元素设为 $−∞-\infty$ ，否则设为0。
自注意力归因方法介绍
归因（Attribution）是一种模型可解释性技术，通过显著性度量（如梯度）将模型预测结果与输入特征关联，本文中用于量化自注意力位置对预测的影响。基于 $H$ 个注意力头的注意力图 $,AH]A=[A_{1}, A_{2}, \cdots, A_{H}]$ ，介绍了两种核心归因方法：

梯度归因（Gradient Attribution）：直接通过计算预测对数输出对注意力图的偏导数生成归因矩阵 $B_{h}$ ，公式为：
$Bh=∂Fc(A)∂AhB_{h}=\frac{\partial F_{c}(A)}{\partial A_{h}}$
其中 $Fc(⋅)F_{c}(\cdot)$ 表示模型对类别 $c$ 的预测对数输出（logit）。
集成梯度（Integrated Gradient）：为解决梯度归因在模型饱和区域梯度为0的问题，提出的理论更严谨的归因方法，由Sundararajan等人提出并被Hao等人用于自注意力归因。其归因矩阵 $B_{h}$ 计算方式为：
$Bh=Ahm⊙∑k=1m∂Fc(kmA)∂AhB_{h}=\frac{A_{h}}{m} \odot \sum_{k=1}^{m} \frac{\partial F_{c}\left(\frac{k}{m} A\right)}{\partial A_{h}}$
其中 $m$ 是用于近似积分的步数， $⊙\odot$ 表示元素-wise乘法。但文中同时指出，集成梯度需额外进行 $m$ 次计算，计算成本显著高于梯度归因，后续实验也验证梯度归因在性能与效率间更具优势。

2.2 A Prior Attribution Experiment

实验设置
- 基础模型与数据集：以RoBERTa_base为基础模型，在MRPC（微软研究复述语料库）数据集上开展实验；
- 核心操作流程：首先对训练样本批次进行模型前向计算，得到每个样本对应真实标签的预测对数输出（logit）；接着通过梯度归因（基于2.1节公式(2)）计算第一层自注意力位置的归因矩阵(B_h)，并对矩阵每行元素排序；随后分别采样归因分数高或低的位置生成掩码矩阵(M_h)，代入自注意力计算公式（公式(1)）得到最终预测；每个训练轮次后，在开发集上评估模型性能；
- 对比基准：设置两种基准丢弃策略——随机采样丢弃位置、不丢弃任何位置，以对比不同策略的效果。
实验结果与关键观察
实验通过绘制训练损失与验证损失曲线（图2），得出三点核心结论：
- 丢弃低归因分数的位置会使模型快速拟合训练数据，但在开发集上性能表现较差，说明该操作无法有效训练模型，反而可能导致模型学习到训练数据中的噪声；
- 与其他丢弃策略（随机丢弃、丢弃低归因位置、不丢弃）相比，丢弃高归因分数的位置能显著降低模型的拟合速度，更有利于缓解过拟合；
- 随机丢弃策略仅能轻微减少过拟合，效果远不及丢弃高归因位置的策略。

2.3 Attribution-Driven Dropout

1. 设计动机与核心目标

2.2节预实验证实，自注意力位置对防止过拟合的重要性不同——丢弃低归因分数位置会加速过拟合，丢弃高归因分数位置可减少过拟合。基于此，AD-DROP的设计动机是减少模型对特定（高归因）特征的过度依赖，进而缓解预训练语言模型（PrLMs）在下游任务微调时的过拟合问题；其核心目标是通过针对性丢弃高归因注意力位置，迫使模型更多依赖低归因位置进行预测，提升模型泛化能力。同时明确，AD-DROP与传统dropout一致，仅在训练阶段应用。

2. AD-DROP的四步执行流程

AD-DROP的操作围绕“前向计算→归因矩阵生成→掩码矩阵生成→二次前向与反向传播”展开，具体步骤结合公式与逻辑如下（流程可参考文中图3）：

步骤1：初始前向计算，获取伪标签与注意力图
给定训练集 $D=\{(x_{i}, y_{i})\}_{i=1}^{N}$ （ $x_i$ 为第 $i$ 个样本， $y_i$ 为其标签），对输入 $x_i$ （含 $n$ 个token）执行模型前向计算（不丢弃任何注意力位置）。一方面，根据模型输出的类别概率，选取概率最高的类别作为伪标签 $c~\tilde{c}$ ，计算公式为：
$c~=argmax⁡c(PF(c∣xi))\tilde {c}=\mathop {arg \operatorname* {max}}_{c}\left( P_{F}(c|x_{i})\right)$
其中 $P_{F}(c | x_{i})$ 是模型 $F(⋅)F(\cdot)$ 对样本 $x_i$ 属于类别 $c$ 的预测概率；另一方面，根据2.1节自注意力计算公式（公式1），得到每一层 $H$ 个注意力头的注意力图集合 $,AH]A=[A_{1}, A_{2}, \cdots, A_{H}]$ 。
步骤2：计算归因矩阵
基于步骤1得到的注意力图 $A$ 与伪标签 $c~\tilde{c}$ ，采用2.1节的梯度归因方法（公式2），计算每个注意力头的归因矩阵 $,BH]B=[B_{1}, B_{2}, \cdots, B_{H}]$ 。其中，第 $h$ 个注意力头的归因矩阵 $B_h$ 计算公式为：
$Bh=∂Fc‾(A)∂AhB_{h}=\frac{\partial F_{\overline{c}}(A)}{\partial A_{h}}$
这里 $Fcˉ(A)F_{\bar{c}}(A)$ 是伪标签 $c~\tilde{c}$ 对应的、softmax激活前的对数输出（logit）；对于回归任务与token级任务，会采用负损失进行计算（细节见附录A）。
步骤3：生成掩码矩阵
基于归因矩阵 $B_h$ 筛选高归因位置并生成掩码，分两步执行：
1. 定义“候选丢弃区域”：将 $B_h$ 的每行元素按升序排序，得到排序后的归因矩阵 $B^h\widehat{B}_h$ ；设定超参数 $\in(0,1)$ （控制候选区域大小），若 $B_h$ 中元素 $b_{i,j}$ 小于 $B^h\widehat{B}_h$ 中第 $in t (n (1 - p))$ 个元素（ $int(⋅)int(\cdot)$ 为取整函数），则该元素所在位置属于“候选丢弃区域” $S_h$ （标记为1，否则为0），公式为：
  $KaTeX parse error: Expected '}', got '&' at position 40: …array} {ll}{1, &̲ b_{i, j}<\hat{…$
2. 生成掩码矩阵 $M_h$ ：设定dropout率 $q$ ，引入服从伯努利分布的矩阵 $U_h$ （元素 $ui,j∼Bernoulli(1−q)u_{i,j} \sim Bernoulli(1-q)$ ）；若 $s_{i,j}+u_{i,j}=0$ （即位置在候选丢弃区域且被随机选中丢弃），则 $M_h$ 对应位置设为 $−∞-\infty$ ，否则设为0，公式为：
  $KaTeX parse error: Expected '}', got '&' at position 46: …{cc}{-\infty , &̲ \left(s_{i, j}…$
步骤4：二次前向计算与反向传播
将步骤3生成的掩码矩阵 $M_h$ 代入2.1节自注意力计算公式（公式1），执行第二次前向计算，得到模型最终预测结果；基于该结果计算损失，并通过反向传播更新模型参数 $W$ 。

3. 采用伪标签而非真实标签进行归因的原因

文中明确AD-DROP选择伪标签（步骤1生成）而非真实标签 $y_i$ 计算归因，核心原因有两点：

避免训练与推理的不一致：若使用真实标签，会提前泄露训练数据的标签信息，而推理阶段模型无法获取真实标签，导致训练与推理的归因逻辑脱节，影响模型泛化；
修正错误预测：对于第一次前向计算中被误分类的样本，若用真实标签计算高归因位置，这些位置可能与伪标签对应的低归因区域重叠，丢弃此类位置无法帮助模型修正错误；而用伪标签归因，可促使模型关注当前预测中未被充分利用的特征（低归因位置），进而可能修正错误预测。

2.4 Cross-Tuning Algorithm

1. 设计背景与目标

AD-DROP的核心逻辑是丢弃高归因注意力位置以缓解过拟合，但过度丢弃高归因位置会导致训练过程中有效信息不足，进而影响模型正常收敛。基于此，交叉调优策略的设计目标是避免对高归因位置的过度丢弃，通过交替执行不同训练模式，平衡正则化效果与训练稳定性，确保模型在减少过拟合的同时能正常学习。

2. 策略核心逻辑与执行流程

交叉调优策略的核心是“交替执行原始微调与AD-DROP”，具体规则为：在奇数轮次（epoch）采用原始微调方式，在偶数轮次采用AD-DROP方式。文中通过“算法1（Algorithm 1 Cross-tuning）”明确了其执行流程，关键步骤拆解如下：

初始化：输入打乱后的训练样本集 $D = \{(x_i, y_i)\}_{i=1}^{N}$ 、预训练语言模型 $F$ 及其初始参数 $W$ ，将模型参数初始化为 $W$ ，设置初始轮次 $e p oc h = 1$ ；
循环训练（直至收敛）：
1. 奇数轮次（原始微调）：执行常规前向计算，得到样本预测概率 $P_F(y_i|x_i)$ 与损失；通过反向传播损失更新模型参数 $W$ ，此过程不引入AD-DROP的掩码操作，保留全部注意力位置信息；
2. 偶数轮次（AD-DROP）：按照2.3节AD-DROP的四步流程（公式4-7）生成掩码矩阵 $[M_1, M_2, \cdots, M_H]$ ；将掩码矩阵代入自注意力计算（公式1），执行前向计算得到新的预测概率与损失；通过反向传播新损失更新模型参数 $W$ ；
终止与输出：当模型训练收敛后，输出最终更新后的模型参数 $W$ 。

3. 策略的核心作用

该策略通过“原始微调→AD-DROP”的交替模式，在奇数轮次保障模型对核心特征（高归因位置相关）的有效学习，避免关键信息因持续丢弃而流失；在偶数轮次通过AD-DROP实现正则化，减少模型对高归因位置的过度依赖。这种平衡机制有效解决了单纯使用AD-DROP可能导致的“过度丢弃”问题，为后续实验中模型训练稳定性的提升提供了关键支撑（后续3.4节消融实验进一步验证，移除交叉调优会导致性能显著下降）。

3 Experiments

该部分通过系统性实验验证AD-DROP的有效性，从数据集选择、实现细节、整体性能、关键组件消融四个维度展开，具体内容如下：

3.1 Datasets（数据集）

实验覆盖多类任务与场景，以全面验证AD-DROP的通用性，具体包括：

核心基准任务：采用GLUE基准的8个自然语言理解任务，包括SST-2（情感分类）、MNLI（自然语言推理）、QNLI（问答推理）、QQP（问题对语义匹配）、CoLA（语言可接受性）、STS-B（语义相似度）、MRPC（复述识别）、RTE（文本蕴含），评估指标根据任务特性区分——CoLA用Matthew相关系数（Mcc）、STS-B用Pearson相关系数（Pcc），其余用准确率（Acc）；
Token级任务：为验证AD-DROP对非分类任务的适配性，在命名实体识别（CoNLL-2003）和机器翻译（WMT 2016 EN-RO、TR-EN）任务上开展实验，结果在附录A.2呈现；
分布外（OOD）泛化任务：为验证AD-DROP缓解过拟合、提升泛化能力的效果，采用HANS（NLI启发式测试集）和PAWS-X（跨语言复述识别对抗数据集），评估模型对分布外数据的适配性。
文中同时提及数据集细节（如样本量、任务定义）在附录C.1补充。

3.2 Implementation Details（实现细节）

明确实验的技术配置与超参数设置，确保可复现性，关键信息包括：

技术框架与硬件：基于PyTorch和Transformers库实现，使用GeForce RTX 3090 GPU训练；
核心超参数搜索：学习率在{1e-5, 2e-5, 3e-5}中搜索，批大小在{16, 32, 64}中搜索；采用早停（early stopping）策略确定训练轮次；AD-DROP的两个关键超参数（候选丢弃区域比例(p)、dropout率(q)）在[0.1, 0.9]内以0.1为步长搜索；
归因方法配置：集成梯度（公式3）的步数(m)设为20（遵循Hao等人[23]的设置）；AD-DROP的应用层根据任务调整——SST-2、MNLI等训练稳定、过拟合风险低的任务仅在第一层应用，其余任务在所有层应用；
代码开源：实验代码可在https://github.com/TaoYang225/AD-DROP获取，附录C.2提供各数据集的具体超参数配置。

3.3 Overall Results（整体性能）

对比AD-DROP与现有正则化方法在GLUE基准上的性能，验证其有效性：

对比基准：包括原始微调（无正则化）、SCAL[17]、SuperT[48]、R-Drop[18]、HiddenCut[15]等主流正则化方法；
核心结果：AD-DROP在开发集和测试集上均显著优于基准方法——在开发集上，BERT_base+AD-DROP平均提升1.98个百分点，RoBERTa_base+AD-DROP平均提升1.29个百分点；在测试集上，两者分别平均提升0.87、0.62个百分点；
关键发现：AD-DROP在小数据集上的性能提升更明显（小数据集过拟合风险更高），进一步印证其针对性缓解过拟合的作用。

3.4 Ablation Study（消融实验）

针对AD-DROP的关键组件（归因方法、标签类型、交叉调优策略）开展消融实验，探究各组件的必要性，实验在4个小数据集（CoLA、STS-B、MRPC、RTE）的开发集上进行：

归因方法对比：测试梯度归因（GA）、集成梯度（IGA）、注意力权重归因（AA）、随机丢弃区域（RD）四种方式，结果显示：梯度基归因（GA、IGA）优于AA和RD，能更精准定位易导致过拟合的特征；IGA虽理论更优，但计算成本远高于GA（后续4.7节效率分析显示IGA成本为GA的数十倍），故GA是更优选择；
伪标签vs真实标签：用真实标签替换伪标签进行归因后，模型性能下降，验证了“伪标签可避免训练-推理不一致、帮助修正错误预测”的设计合理性；
交叉调优策略的作用：移除交叉调优后，模型在多数数据集上性能显著下降（如RTE任务RoBERTa准确率降3.6个百分点）；参数敏感性实验（图4）显示，无交叉调优时部分参数组合下模型无法正常训练，而有交叉调优时多数参数组合均能稳定生效，证明交叉调优对提升训练稳定性的关键作用。

查看全文

http://www.dtcms.com/a/410537.html