当前位置: 首页 > news >正文

【NIPS 2024】Towards Robust Multimodal Sentiment Analysis with Incomplete Data

Towards Robust Multimodal Sentiment Analysis with Incomplete Data(面向不完整数据的鲁棒多模态情感分析研究)

在这里插入图片描述

文章目录

  • Towards Robust Multimodal Sentiment Analysis with Incomplete Data(面向不完整数据的鲁棒多模态情感分析研究)
    • 摘要
    • 关键词
    • 作者及团队介绍
    • 源码地址
    • 01 在论文所属的研究领域,有哪些待解决的问题或者现有的研究工作仍有哪些不足?
    • 02 这篇论文主要解决了什么问题?
    • 03 这篇论文解决问题采用的关键解决方案是什么?
    • 04 这篇论文的主要贡献是什么?
    • 05 这篇论文有哪些相关的研究工作?
    • 06 这篇论文的解决方案具体是如何实现的?
      • 1. 输入构造与模态嵌入
      • 2. 主导模态纠正(DMC)模块
      • 3. 多模态融合与重构
      • 4. 整体损失函数
    • 07 这篇论文中的实验是如何设计的?
      • 1. 数据集与缺失协议
      • 2. 评估指标
      • 3. 实施细节
    • 08 这篇论文的实验结果和对比效果分别是怎么样的?
      • 1. 整体性能对比
      • 2. 高缺失率场景表现
      • 3. 模态缺失场景泛化
    • 09 这篇论文中的消融研究(Ablation Study)告诉了我们什么?
      • 1. 组件必要性验证
      • 2. 正则化影响
      • 3. 模态贡献分析
    • 10 这篇论文工作后续还可以如何优化?
      • 1. 复杂噪声场景扩展
      • 2. 跨模态迁移与泛化
      • 3. 模型轻量化与实时部署
      • 4. 伦理与隐私保护

摘要

多模态情感分析(MSA)在实际应用中常面临数据不完整问题,如传感器故障或自动语音识别错误。现有方法多依赖完整数据学习联合表示,在严重缺失场景下性能显著下降,且评估框架缺乏统一性。本文提出语言主导抗噪声学习网络(LNLN),通过主导模态纠正(DMC)模块利用对抗学习增强语言模态特征完整性,结合基于主导模态的多模态学习(DMML)模块实现动态特征融合,并引入重构器恢复缺失信息。在MOSI、MOSEI和SIMS数据集上的实验表明,LNLN在随机缺失场景下显著优于现有基线方法,尤其在高缺失率条件下展现更强鲁棒性。

关键词

Multimodal sentiment analysis; Incomplete data; Robustness; Dominant modality; Noise-resistant learning

作者及团队介绍

本文作者为Haoyu Zhang(香港中文大学(深圳)数据科学学院、伦敦大学学院计算机科学系)、Wenbin Wang(武汉大学计算机学院)、Tianshu Yu(香港中文大学(深圳)数据科学学院,通讯作者)。团队研究方向聚焦于多模态机器学习、情感计算及鲁棒性建模,致力于解决不完整数据场景下的智能分析问题,结合对抗学习与动态融合机制提升模型在真实噪声环境中的表现。

源码地址

https://github.com/Haoyu-ha/LNLN

01 在论文所属的研究领域,有哪些待解决的问题或者现有的研究工作仍有哪些不足?

现有多模态情感分析(MSA)在不完整数据场景下存在三大核心挑战:

  1. 依赖完整模态假设:传统方法(如MCTN、MMIM)假设训练和测试时模态完整,当出现随机缺失(如缺失率≥50%)时,跨模态交互机制失效,导致性能骤降。例如,MISA在MOSI数据集缺失率 r = 0.9 r=0.9 r=0.9时Acc-7仅17.78%,显著低于LNLN的22.98%(Table 9)。
  2. 主导模态保护不足:语言模态通常包含密集情感信息,但现有方法未显式强化其抗噪能力。例如,当语言模态缺失时,多数模型(如Self-MM)预测严重偏向单一类别,而LNLN通过DMC模块在语言缺失场景下仍能保持Acc-2达52.18%(Table 13)。
  3. 评估框架碎片化:现有研究采用不同缺失协议,缺乏统一对比基准。本文首次在三个数据集上系统性评估0-90%缺失率下的性能,并引入模态缺失场景(如仅保留单模态),发现现有方法在高缺失率下普遍出现“懒惰预测”现象,即固定预测优势类别(如MOSI中弱负类),而LNLN的预测分布更均衡(Figure 5-7)。

02 这篇论文主要解决了什么问题?

论文聚焦于不完整多模态数据下的情感分析鲁棒性问题,具体包括:

  • 随机数据缺失:模拟传感器故障、隐私保护等场景,通过随机擦除模态信息(缺失率 r ∈ { 0 , 0.1 , . . . , 0.9 } r \in \{0, 0.1, ..., 0.9\} r{0,0.1,...,0.9}),测试模型在不同噪声强度下的泛化能力。
  • 主导模态脆弱性:语言模态作为情感信息的主要载体,在缺失或噪声干扰时易导致整体表示偏差。例如,当语言模态缺失率 r = 0.5 r=0.5 r=0.5时,ALMT的F1分数下降至65.89%,而LNLN通过DMC模块维持F1=72.73%(Table 2)。
  • 评估标准化:建立统一的缺失协议和多指标评估体系(如Acc-2、F1、MAE、Corr),覆盖分类与回归任务,解决现有研究评估不一致问题。

03 这篇论文解决问题采用的关键解决方案是什么?

在这里插入图片描述

核心方案为语言主导的抗噪声学习框架(LNLN),包含三大创新模块:

  1. 主导模态纠正(DMC)模块
    • 通过完整性检查(公式(5)-(6))预测语言模态的缺失程度,使用L2损失约束预测值与真实缺失率的一致性:
      L c c = 1 N b ∑ k = 0 N b ∥ w k − w ^ k ∥ 2 2 \mathcal{L}_{cc} = \frac{1}{N_b} \sum_{k=0}^{N_b} \| w^{k} - \hat{w}^{k} \|_{2}^{2} Lcc=Nb1k=0Nbwkw^k22
    • 基于对抗学习(公式(9)-(10))生成代理主导特征 H p 1 H_p^1 Hp1,通过梯度反转层(GRL)迫使代理特征与视觉/音频模态区分,确保其携带独特的语言语义信息。最终纠正特征 H d 1 H_d^1 Hd1由代理特征与原始语言特征加权融合(公式(8)):
      H d 1 = ( 1 − w ) ⋅ H p 1 + w ⋅ H l 1 H_d^1 = (1 - w) \cdot H_p^1 + w \cdot H_l^1 Hd1=(1w)Hp1+wHl1
      其中权重 w w w由完整性预测值动态调节。
  2. 基于主导模态的多模态学习(DMML)模块
    • 通过自适应超模态学习(公式(2)-(3)),以纠正后的语言特征 H d i H_d^i Hdi为查询向量,从视觉/音频特征中提取互补情感线索:
      H h y p e r i = H h y p e r i − 1 + MHA ( H d i , H a 1 ) + MHA ( H d i , H v 1 ) H_{hyper}^{i} = H_{hyper}^{i-1} + \text{MHA}(H_d^{i}, H_a^{1}) + \text{MHA}(H_d^{i}, H_v^{1}) Hhyperi=Hhyperi1+MHA(Hdi,Ha1)+MHA(Hdi,Hv1)
    • 采用Transformer编码器(公式(4))进行模态融合,结合分类头实现情感预测。
  3. 缺失信息重构器
    • 通过两层Transformer编码器(公式(11)-(12))重建原始特征 U ^ m 0 \hat{U}_m^0 U^m0,利用L2损失约束重构精度:
      L r e c = 1 N b ∑ h = 0 N b ∑ m ∥ U m 0 k − U ^ m 0 k ∥ 2 2 \mathcal{L}_{rec} = \frac{1}{N_b} \sum_{h=0}^{N_b} \sum_{m} \| U_m^{0k} - \hat{U}_m^{0k} \|_{2}^{2} Lrec=Nb1h=0NbmUm0kU^m0k22

04 这篇论文的主要贡献是什么?

  1. 新型抗噪框架LNLN
    • 首次提出以语言模态为核心的抗噪声机制,通过DMC模块增强其鲁棒性,在MOSI数据集 r = 0.9 r=0.9 r=0.9时,LNLN的Acc-7(22.98%)比MISA(17.78%)提升29.2%(Table 9)。
    • 动态融合策略(DMML)实现模态间互补,在MOSEI数据集 r = 0.5 r=0.5 r=0.5时,F1分数达79.95%,超越ALMT的78.03%(Table 2)。
  2. 全面的评估基准
    • 在三个基准数据集上系统性测试0-90%缺失率,覆盖单模态缺失、双模态缺失及随机擦除场景,提供标准化评估协议(Table 4-6)。
    • 发现现有方法在高缺失率下的“懒惰预测”现象(如Self-MM在 r = 0.9 r=0.9 r=0.9时固定预测弱负类),为后续研究提供关键参照(Figure 5-7)。
  3. 可解释的主导模态机制
    • 通过可视化纠正特征 H d 1 H_d^1 Hd1与原始语言特征 H l 1 H_l^1 Hl1的分布(Figure 8),证明DMC模块在缺失率 r = 0.8 r=0.8 r=0.8时仍能保持特征分布一致性,而随机初始化模型(w/o DMC)则显著偏离。

05 这篇论文有哪些相关的研究工作?

相关研究可分为两类:

  1. 基于上下文的多模态学习
    • 聚焦模态间依赖建模,如Tensor Fusion Network(TFN)通过笛卡尔积计算模态交互,Multimodal Transformer(MMT)利用成对Transformer捕捉长程依赖。然而,这类方法在缺失率 r > 0.5 r>0.5 r>0.5时性能下降显著,因跨模态信息不足导致联合表示崩塌(Table 2中TFR-Net在 r = 0.9 r=0.9 r=0.9时MAE=1.563)。
  2. 抗噪声多模态学习
    • 包括特征重构(如TFR-Net)、对抗训练(如NIAT)和自蒸馏(如UMDF)。例如,ALMT通过语言引导机制学习超模态表示,但未显式保护主导模态,导致语言缺失时性能骤降(ALMT在语言缺失时Acc-2=54.88%,而LNLN=52.18%,Table 13)。
    • 本文与ALMT的关键区别在于:LNLN通过对抗学习生成独立于辅助模态的代理特征,避免主导模态被噪声污染,而ALMT直接依赖原始语言特征,抗噪能力有限。

06 这篇论文的解决方案具体是如何实现的?

1. 输入构造与模态嵌入

  • 对语言、视觉、音频模态分别使用BERT、OpenFace、Librosa提取特征 U m 0 U_m^0 Um0,并随机擦除生成带噪声输入 U m 1 U_m^1 Um1(Section 3.2)。
  • 通过两层Transformer编码器 E m 1 E_m^1 Em1嵌入模态特征,生成统一维度的表示 H m 1 H_m^1 Hm1(公式(1)):
    H m 1 = E m 1 ( concat ( H m 0 , U m 1 ) ) H_m^1 = E_m^1(\text{concat}(H_m^0, U_m^1)) Hm1=Em1(concat(Hm0,Um1))
    其中 H m 0 H_m^0 Hm0为可学习的低维令牌,用于捕捉模态特异性。

2. 主导模态纠正(DMC)模块

  • 完整性检查:通过编码器 E c c E_{cc} Ecc预测语言模态完整性 w w w(公式(5)),输出经Softmax归一化后与真实缺失率 w ^ \hat{w} w^比较。
  • 代理特征生成:利用编码器 E D F G E_{DFG} EDFG融合视觉/音频特征生成代理特征 H p 1 H_p^1 Hp1(公式(7)),通过对抗判别器 D D D区分 H p 1 H_p^1 Hp1与真实语言特征 H l 1 H_l^1 Hl1(公式(9)),损失函数为交叉熵:
    L a d v = − 1 N b ∑ k = 0 N b y p k ⋅ log ⁡ y ^ p k \mathcal{L}_{adv} = -\frac{1}{N_b} \sum_{k=0}^{N_b} y_p^{k} \cdot \log \hat{y}_p^{k} Ladv=Nb1k=0Nbypklogy^pk
  • 特征纠正:通过加权融合生成最终纠正特征 H d 1 H_d^1 Hd1,权重由完整性预测值 w w w动态调节(公式(8))。

3. 多模态融合与重构

  • 超模态学习:以 H d i H_d^i Hdi为查询向量,通过多头注意力机制从视觉/音频特征中提取互补信息,生成超模态表示 H h y p e r i H_{hyper}^i Hhyperi(公式(3)),逐步聚合跨模态情感线索。
  • 重构器:使用两层Transformer编码器重建原始特征 U ^ m 0 \hat{U}_m^0 U^m0,通过最小化重构损失提升特征质量(公式(12))。

4. 整体损失函数

L = α L c c + β L a d v + γ L r e c + δ L s p \mathcal{L} = \alpha \mathcal{L}_{cc} + \beta \mathcal{L}_{adv} + \gamma \mathcal{L}_{rec} + \delta \mathcal{L}_{sp} L=αLcc+βLadv+γLrec+δLsp
其中 L s p \mathcal{L}_{sp} Lsp为情感预测损失(分类任务用交叉熵,回归任务用均方误差),超参数 α , β , γ , δ \alpha, \beta, \gamma, \delta α,β,γ,δ根据数据集调整(如MOSI设为0.9, 0.8, 0.1, 1.0,Table 1)。

07 这篇论文中的实验是如何设计的?

1. 数据集与缺失协议

  • MOSI:2199样本,三模态(语言、视觉、音频),标签范围 [ − 3 , 3 ] [-3, 3] [3,3],划分为1284/229/686(训练/验证/测试)。
  • MOSEI:22856样本,标签范围 [ − 3 , 3 ] [-3, 3] [3,3],划分为16326/1871/4659。
  • SIMS:2281中文样本,标签范围 [ − 1 , 1 ] [-1, 1] [1,1],划分为1368/456/457。
  • 缺失协议:对每个模态随机擦除 r ∈ { 0 , 0.1 , . . . , 0.9 } r \in \{0, 0.1, ..., 0.9\} r{0,0.1,...,0.9}的信息,语言模态用[UNK]填充,音视频用0填充(Section 3.2)。

2. 评估指标

  • 分类:Acc-2(正负分类)、Acc-3(三分类)、Acc-5(五分类)、Acc-7(七分类)、F1分数。
  • 回归:MAE(平均绝对误差)、Corr(预测与真实标签的相关性)。

3. 实施细节

  • 模型配置:Transformer层数=2,维度 d = 128 d=128 d=128,头数=4,优化器AdamW,学习率 1 e − 4 1e-4 1e4,采用余弦退火学习率衰减(Section 4.3)。
  • 基线方法:MISA、Self-MM、MMIM、CENET、TETFN、TFR-Net、ALMT,均使用MMSA框架复现(Table 1)。
  • 实验设置:每个实验运行10次,取平均结果,缺失率 r = 0.9 r=0.9 r=0.9时排除完全擦除情况(无有效信息)。

08 这篇论文的实验结果和对比效果分别是怎么样的?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1. 整体性能对比

  • MOSI:LNLN在Acc-7(34.26%)、Acc-5(38.27%)、F1(72.73%)均优于基线,较次优方法ALMT分别提升13.0%、14.5%、0.2%(Table 2)。
  • MOSEI:在 r = 0.5 r=0.5 r=0.5时,LNLN的F1达79.95%,超越ALMT的78.03%,且MAE(0.692)低于CENET(0.685),显示更强回归鲁棒性(Table 2)。
  • SIMS:LNLN的F1=79.43%,较ALMT(72.76%)提升9.17%,验证其在中文场景的有效性(Table 3)。

2. 高缺失率场景表现

  • r = 0.9 r=0.9 r=0.9时,多数基线方法Acc-7低于20%(如MISA=17.78%),而LNLN达22.98%,且预测分布更分散(Figure 5),证明其抗“懒惰预测”能力。
  • 在语言模态缺失场景,LNLN的Acc-2=52.18%,显著高于Self-MM的42.31%,表明DMC模块有效利用辅助模态重建语言语义(Table 13)。

3. 模态缺失场景泛化

  • 在仅保留单模态时(如视觉缺失),LNLN在MOSI的Acc-2=84.86%,接近完整模态性能(85.12%),而TFR-Net下降至80.52%,显示其单模态鲁棒性(Table 13)。

在这里插入图片描述

09 这篇论文中的消融研究(Ablation Study)告诉了我们什么?

在这里插入图片描述

1. 组件必要性验证

  • DMC模块:移除后MOSI的Acc-7从34.26%降至33.94%,MAE从1.046升至1.049,表明主导模态保护对分类和回归均关键(Table 4)。
  • 重构器:移除后SIMS的F1从79.43%降至78.71%,说明缺失信息恢复可间接提升特征质量(Table 4)。
  • DMML模块:替换为简单拼接后,MOSI的Acc-2降至69.55%,证明自适应融合策略的重要性(Table 4)。

在这里插入图片描述

2. 正则化影响

  • 移除完整性损失 L c c \mathcal{L}_{cc} Lcc后,MOSI的Acc-7降至33.61%,表明准确估计缺失率对动态融合至关重要(Table 5)。
  • 对抗损失 L a d v \mathcal{L}_{adv} Ladv的移除导致代理特征与辅助模态区分度下降,MOSI的F1降至72.55%,验证对抗学习的必要性(Table 5)。

在这里插入图片描述

3. 模态贡献分析

  • 语言模态缺失时,LNLN性能骤降(Acc-7=18.80%),而移除音频/视觉模态对性能影响较小(Acc-7=33.51%/33.53%),证明语言模态的核心地位(Table 6)。

10 这篇论文工作后续还可以如何优化?

1. 复杂噪声场景扩展

  • 现有模型仅处理随机擦除噪声,未来可引入真实场景噪声(如语音识别错误、图像模糊),通过生成对抗网络模拟更复杂退化过程。
  • 探索层次化缺失模式,如连续时间序列中的模态丢失(如视频帧缺失),结合时序模型(如LSTM、Transformer)提升动态场景鲁棒性。

2. 跨模态迁移与泛化

  • 针对低资源语言(如小语种),可引入跨语言预训练模型(如mBERT)增强语言模态的泛化能力,结合对比学习对齐跨语言情感空间。
  • 研究领域自适应场景,通过域对抗训练(Domain Adversarial Training)减少不同数据集(如MOSI与SIMS)间的分布差异。

3. 模型轻量化与实时部署

  • 当前LNLN使用三个独立Transformer,参数规模较大。可引入参数共享机制动态专家网络(如MoE),在保持性能的同时降低计算成本。
  • 优化重构器结构,采用轻量级解码器(如卷积神经网络)替代Transformer,提升实时推理速度。

4. 伦理与隐私保护

  • 在医疗等敏感场景应用时,需引入联邦学习机制,避免原始数据泄露。例如,在DMC模块中使用安全多方计算(MPC)保护用户隐私。

相关文章:

  • quill 富文本多张图片排序
  • 大语言模型的完整训练周期从0到1的体系化拆解
  • CS学习网站-geeksforgeeks介绍
  • 历年安徽大学保研上机真题
  • 原生php单元测试
  • Kafka 的日志清理策略:delete 和 compact
  • 决策引擎与规则引擎在交易所业务风控中的建设思路、架构设
  • 历年北京理工大学保研上机真题
  • 使用 Hyperlane 实现 WebSocket广播
  • MIT 6.S081 2020Lab5 lazy page allocation 个人全流程
  • 《技术择时,价值择股》速读笔记
  • [论文品鉴] DeepSeek V3 最新论文 之 MTP
  • 历年北京邮电大学保研上机真题
  • 嵌入式硬件篇---Ne555定时器
  • 私有知识库 Coco AI 实战(七):摄入本地 PDF 文件
  • WORD 转 PDF 工具:排版 / 图片 / 表格批量转换提升办公效率
  • 分布式缓存:ZSET → MGET 跨槽(cross‐slot)/ 并发 GET解决思路
  • Android自定义View学习总结
  • C51单片机学习笔记——矩阵按键
  • #RabbitMQ# 消息队列入门
  • 乐山网站建设/百度云在线登录
  • 网站开发有哪些软件/郑州seo线上推广技术
  • 招聘网站建设计划书/电商网站建设制作
  • 如何自己动手做网站/长沙专业做网站公司
  • 网站二级目录做优化/手机营销软件
  • 做微电网的公司网站/在线培训app