【DLF】基于语言的多模态情感分析
作者提出的不足
模态平等处理导致冗余与冲突
- 问题:现有MSA方法对所有模态(语言、视觉、音频)平等处理,忽略模态间贡献差异(如语言为主导模态)。
- 后果:跨模态交互引入冗余信息(如视觉和音频中与情感无关的噪声),甚至模态对间双向信息传递(如蒸馏策略)导致冲突,降低模型性能。
传统蒸馏策略的局限性
- 问题:现有跨模态蒸馏(如语言→视觉/音频)或图蒸馏(全模态双向传递)存在信息冗余(重复传递相似信息)和不对称性(反向传递无效)。
- 后果:无法有效利用语言模态的主导优势,且多模态融合后难以区分关键特征。
解纠缠方法的统一性缺陷
- 问题:现有解纠缠方法(如MISA、DMD)对所有模态采用统一优化策略,未针对语言模态进行增强。
- 后果:共享特征空间与私有特征空间的分离不够彻底,无法充分挖掘语言模态的情感线索。
作者提出的创新
以语言为中心的DLF框架
- 创新点:提出解纠缠语言聚焦(Disentangled Language-focused, DLF)框架,优先增强语言模态,减少冗余与冲突。
- 实现:
- 特征解纠缠模块:分离模态的共享特征(跨模态共性)和私有特征(模态特异性)。
- 语言聚焦吸引子(LFA):通过语言引导的交叉注意力机制,从其他模态(视觉、音频)中提取互补信息,定向增强语言表征。
- 分层预测:融合前(私有特征)与融合后(共享特征)的联合预测,提升鲁棒性。
几何度量改进解纠缠
- 创新点:引入四种几何度量(如类内紧凑性、类间可分性、模态对齐度、正交性约束)作为正则化项,优化共享与私有特征空间。
- 作用:
- 减少共享空间中的冗余信息(如跨模态噪声)。
- 增强私有空间中的模态特异性(如语言的情感关键词、视觉的微表情)。
语言引导的交叉注意力机制
- 创新点:在LFA中设计语言查询的多模态交叉注意力,动态筛选视觉和音频中对语言表征有益的信息。
- 优势:
- 避免盲目融合所有模态信息(如仅保留与语言情感相关的视觉/音频片段)。
- 抑制其他模态的干扰(如背景噪声对情感判断的影响)。
分层预测策略
- 创新点:联合利用解纠缠后的私有特征(单模态特异性)和融合后的共享特征(跨模态共性)进行分层预测。
- 优势:兼顾单模态的细粒度线索与多模态的全局一致性,提升情感分类精度。
abstract
多模态情感分析(MSA)利用语言、视觉和音频等异构模式来增强对人类情感的理解。虽然现有模型通常侧重于跨模态提取共享信息或直接融合异构模态,但由于对所有模态的平等处理以及模态对之间信息的相互传递,这些方法可能会引入冗余和冲突。为了解决这些问题,我们提出了一个非纠缠语言(disentangded - language - focused&#