HiCMAE 论文复现:基于 RAVDESS 数据集的音视频情感识别
HiCMAE 论文复现:基于 RAVDESS 数据集的音视频情感识别
1. 项目背景与论文概述
1.1 多模态情感识别背景
多模态情感识别是人工智能领域的重要研究方向,旨在通过结合多种感知模态(如音频、视频、文本等)来更准确地识别人类情感状态。与传统单模态方法相比,多模态方法能够利用不同模态间的互补信息,提高情感识别的鲁棒性和准确性。
RAVDESS(Ryerson Audio-Visual Database of Emotional Speech and Song)是一个常用的多模态情感识别数据集,包含24位专业演员(12名男性,12名女性)表达的8种情感状态(中性、平静、快乐、悲伤、愤怒、恐惧、厌恶和惊讶)的音视频数据。
1.2 HiCMAE 论文核心思想
HiCMAE(Hierarchical Cross-Modal Masked Autoencoder)是一种新颖的多模态自监督学习框架,其主要贡献包括:
- 跨模态掩码自编码器:通过随机掩码一种模态的部分输入,训练模型从另一种模态重建被掩码的内容
- 分层表示学习:在不同层次上学习模态内和模态间的表示
- 对比学习机制:通过对比学习对齐不同模态的表示空间
这种方法能够有效学习音频和视频模态之间的对应关系,提高下游情感识别任务的性能。<