CVPR2024 | 构建时序动作检测模型对时序干扰的鲁棒性基准
文章目录
- 摘要
- 研究方法
👏恭喜《Benchmarking the Robustness of Temporal Action Detection Models Against Temporal Corruptions》被CVPR2024录用
👬欢迎各位感兴趣的小伙伴关注和复现我们的工作
🤖github仓库地址:https://github.com/Alvin-Zeng/temporal-robustness-benchmark
📖arxiv论文网址:https://arxiv.org/abs/2403.20254
摘要
时序动作定位(TAD)任务旨在对给定视频中的动作进行定位和分类。尽管目前许多方法取得了不错的性能,但在鲁棒性分析方面仍少有研究。我们观察到在现实的视频中可能会突然地出现一些噪声,比如掉帧或拍摄失焦。有趣的是,如果只对动作中一帧图片加这样的噪声,现有的模型通常会有大幅度性能降低。
为了验证面对这类噪声的鲁棒性,我们提出了两个时序鲁棒性测试基准数据集,命名为THUMOS14-C和ActivityNet-v1.3-C,对应该任务最常用的两个评测数据集。在这篇论文中,我们分析了七篇前沿时序动作定位(TAD)模型的时序鲁棒性,并且得出以下结论:1) 现有模型通常都面对时序噪声不够鲁棒,并且通常End-to-End训练的模型会比预训练特征提取器的模型表现更差;2) 模型性能下降是由于动作定位错误导致的,而不是动作分类错误;3) 当时序噪声越靠近动作片段的中心时刻时,TAD模型的性能下降幅度越大。
除了构建数据集,我们还提出了一种简单并且能够显著提高模型时序鲁棒性的训练方法。值得注意的是,我们的训练方法不仅能提高模型的鲁棒性,还能提高模型在干净测试集上的性能。
研究方法
我们的研究聚焦于突然出现,又突然消失的时序噪声。与目前已有的鲁棒性基准数据集不同,我们构建的数据集不对视频中的所有帧添加噪声,而是仅对某些特定的帧添加噪声,目的在于使该数据集能够反映模型的时序鲁棒性而非空间鲁棒性。
我们提出的数据集引入了5种现实场景中经常出现的噪声,包括:黑屏,动作模糊,过曝,遮挡和花屏。为了模拟实际场景不同时长的噪声,我们提出的数据集还包括三个等级,每个等级添加的噪声长度是不一样的,分别是在每个动作中心处的按照动作1%,5%和10%的长度加噪。
使用我们构建的数据集对当前已有的TAD模型进行测试,可以发现不管是THUMOS14还是ActivityNet-v1.3数据集,模型都有非常显著的模型性能下降现象。用三个等级的噪声数据集测试模型并取tIoU=0.5时mAP的平均值,THUMOS14数据集模型下降了9.62%-25.86%,ActivityNet-v1.3数据集下降了1.77%-21.48%,说明不论是哪个数据集都能反映模型对时序噪声不够鲁棒的现象。
接着我们使用了TAD任务中常用的DETAD工具对模型预测的结果进行分析,发现该数据集更多影响模型的动作定位性能而不是动作分类性能。
为了提高模型的时序鲁棒性,我们提出了一种简单高效的训练方法,取名为时序鲁棒性一致loss(TRC loss)。首先我们提出了“FrameDrop”的数据处理方法,即将背景-动作单元随机的一帧图片替换为黑色帧。简单来说,我们的训练方法将“FrameDrop”处理的训练集和不做处理的训练集同时输入模型,要求模型对两种输入得到的预测的时序分布相互逼近。
我们的方法不仅能够显著地提升模型的时序鲁棒性,在大部分情况下还能提高模型在干净的测试集上的性能,结果如图 7、8所示。