【ULMD】基于单峰标签生成和模态分解的多模态情感分析
不足1:现有方法的信息冗余与模态异质性
- 问题:传统多模态融合方法(如早期、晚期、混合融合)在特征融合时存在信息冗余,且不同模态的表示差异大(模态异质性),导致模型学习效率低。
- 改进:
- 模态表示分离器:将每个模态的表示分解为模态不变表示(跨模态共有信息)和模态特定表示(单模态独有信息),减少冗余并保留模态独特性。
- 多任务框架:在多模态任务中融合不变表示,在单模态任务中利用特定表示,兼顾共性与特性。
不足2:数据集缺乏单峰标签
- 问题:现有多模态数据集仅提供多模态标签,缺乏单模态标签,限制了模型对单模态信息的有效学习。
- 改进:
- 单模态标签生成:通过联合多模态特征、多模态标签和单模态特征,生成单模态监督标签作为辅助任务,辅助模型学习各模态的独立情感信息。
不足3:共享网络导致模态信息丢失
- 问题:传统方法在共享网络中处理多模态数据时,单模态的独特信息可能被稀释。
- 改进:
- 模态分解与独立任务:通过分解模态表示,并在单模态任务中独立处理特定表示,避免信息丢失。
abstract
多模态情感分析的目的是将来自不同模态的信息进行组合,以增强对情感的理解,实现准确的预测。然而,现有方法在融合过程中存在信息冗余和模态异质性问题,常见的多模态情感分析数据集缺乏单峰标签。文中提出一种基于单模态标签生成和模态分解的多模态情感分析方法(ULMD)。该方法采用多任务学习框架,将多模态情感分析任务划分为一个多模态任务和三个单模态任务.此外,引入模态表示分离器,将模态表示分解为模态不变表示和模态特定表示。该方法探索了模态间的融合并生成单峰标签,以提高多模态情感分析任务的性能。在两个公开的标准数据集上的实验结果表明,该方法是有效的。
intro
随着大数据时代的到来和深度学习技术的不断进步,众多的深度学习方法都取得了长足的发展。例如,IU-Net显著提高了红外图像中小目标的检测[1],DC-Net有效地整合了高光谱和多光谱图像的固有特征[2],CCR-Net以更紧凑的方式合并了通过CNNs提取的不同模态特征[3]。根据这一趋势,情感分析任务也已扩展到文本数据之外,以涵盖多模态数据源,包括文本、图像和音频模态。多模态情感分析(MSA)利用来自图像和音频模态的信息来辅助基于文本的预测。文本模态提供语音的语义含义,图像模态提取说话者的面部特征(诸如面部表情和手势),并且音频模态反映语音的强调和强度(经由例如,音调和音量)。包含多个模态的多模态情感分析系统始终优于最好的单峰情感分析系统[4]。通过分析图像、音频和文本表达,可以更好地理解人类的情感交流,并为更像人类的人工智能铺平道路。最近的方法,如RustQNet,分析多模态遥感图像用于小麦条锈病指数的定量反演[7],以及HighDAN,利用多模态遥感数据集(C2 Seg)来增强跨城市环境中的模型泛化和分