论文略读; AdapterFusion:Non-Destructive Task Composition for Transfer Learning
EACL 2021
- 在 Adapter 的基础上进行优化
- 将学习过程分为两阶段来提升下游任务表现
- 知识提取阶段:
- 在不同任务下引入各自的Adapter模块,用于学习特定任务的信息。
- 有两种训练方式
- Single-Task Adapters(ST-A)
- 对于N个任务,模型都分别独立进行优化,各个任务之间互不干扰,互不影响。
- Multi-Task Adapters(MT-A)
-
N个任务通过多任务学习的方式,进行联合优化。
-
- Single-Task Adapters(ST-A)
-
实验说明,第一阶段采用ST-A+第二阶段AdapterFusion是最有效的方法
-
第一阶段采用MT-A+第二阶段AdapterFusion没有取得最佳的效果,在于第一阶段其实已经联合了多个任务的信息了,所以AdapterFusion的作用没有那么明显
-
- 知识组合阶段
- 将预训练模型参数与特定任务的Adapter参数固定
- 引入新参数(AdapterFusion)来学习组合多个Adapter中的知识,以提高模型在目标任务中的表现
- 本质上也是一个attention
- query是transformer每个子模块的输出结果
- key跟value则是N个任务的adapter的输出
- 为不同的任务对应的adapter分配不同的权重,聚合N个任务的信息,从而为特定任务输出更合适的结果
- 知识提取阶段:
- 将学习过程分为两阶段来提升下游任务表现