【SDRS】面向多模态情感分析的情感感知解纠缠表征转移
abstract
多模态情感分析(MSA)旨在利用多模态的互补信息对用户生成的视频进行情感理解。现有的方法主要集中在设计复杂的特征融合策略来整合单独提取的多模态表示,忽略了与情感无关的信息的干扰。在本文中,我们提出将单模表征分解为情感特定特征和情感独立特征,并将前者融合到MSA任务中。具体来说,我们设计了一个新的情感感知解纠缠表示转换框架,称为SDRS,由两个部分组成。交互式情感感知表征解纠缠旨在利用新开发的交叉注意自编码器,通过考虑其他模态的语境影响,提取每个非语言模态的情感特异性特征表征。注意跨模态表征转移试图利用投射后的非语言情感特异性表征在潜在表征空间中转移文本表征。最后利用变换后的表示对预训练的语言模型进行微调,用于多模态情感分析。在CMU-MOSI、CMU-MOSEI和CH-SIMS三个公共基准数据集上进行了大量实验。结果表明,所提出的SDRS框架不仅可以获得仅基于多模态标签的最新结果,而且优于额外需要每个模态标签的方法。
intro
随着移动设备和社交网络的快速发展和广泛使用,人们开始对多模式交互特征进行建模[4,6]。近年来,基于模型的融合技术得到了发展[2 - 4,7],如张量融合[8]、记忆融合[9]和多模态自适应门融合[10]。为了减轻异质性问题,研究人员试图独立学习模态不变表征和模态特定表征[11 - 16]。这些方法主要学习如何利用各种模态的互补性和冗余性来表示多模态数据。
然而,在现有的MSA方法中,不同模态的特征通常是独立提取的,或者作为模态不变和模态特定的特征,这两种方法都没有考虑到与情感无关的信息可能产生的干扰。此外,单模态情绪可能受到来自其他模态的信息的影响,如图1所示。为了有效区分情感特定特征和情感独立特征,从本质上有必要探索来自不同模态的交互信息[17-21]。尽管有些方法考虑了每个模态内部的差异,但模态之间的解耦特征是孤立地完成的[11,14,22]。这些方法往往只考虑特征融合过程中多模态信息的相互影响,而忽略了特征解耦过程中多模态信息的相互影响,即忽略了多模态交互在去除与情感无关的信息干扰中的作用。
基于这些观察结果,我们建议通过考虑其他模态的影响,将单模态表征分解为情感特定特征和情感独立特征。具体而言,我们设计了一种新的情感感知解纠缠表征转移框架(SDRS),该框架由两个主要部分组成:交互式情感感知表征解纠缠(ISRD)和注意跨模态表征转移(ACRS)。
ISRD的目标是通过交叉注意自动编码器(CAAE)来学习特定于情感的特征表示。CAAE使用由堆叠的交叉注意层组成的转换器式编码器和解码器,在提取情感特定特征时考虑其他模态的信息,从而在多模态环境中捕获单个模态的真实表达情感。
我们设计了一种新的对比损失来区分情感特定和情感独立的特征,有助于减轻模式的异质性。在ISRD的实现过程中,我们采用一种从粗到细的策略来训练CAAE,即首先训练粗粒度CAAE来学习特定极性的表征,然后使用这些表征来指导细粒度CAAE学习特定情感的表征。
基于文本语义对情感分析的重要影响,ACRS旨在利用非语言情感特定表征来转移原始文本表征,这些非语言情感特定表征首先被投射到文本表征空间中。通过这种转换操作,可以最大限度地减少原始语义的变化,并可以探索非语言模式对情感的影响。这也使得下游语言模型更容易对融合词嵌入进行微调。我们在三个公共基准数据集上进行了广泛的实验: