论文内可解释性分析
目录
- 3 TEPM(Text-Enhanced Prototype Module)
-
- 3.1 为什么要进行文本增强?(动机)
- 3.2 为什么要使用 Concat(Fv, T) 和 Repeat(T) + Fv?
- 3.3 为什么 Q=F_C,K=V=F_R ?(第一层注意力)
- 3.4 为什么要进行两层注意力?
- 3.5 为什么最终结果会更好?
- **3.6 面试官可能问的挑战性问题**
3 TEPM(Text-Enhanced Prototype Module)
3.1 为什么要进行文本增强?(动机)
TEPM(Text-Enhanced Prototype Module) 通过 跨模态融合 提高了类别原型的质量。
少样本学习(Few-Shot Learning, FSL)中,类别原型(Prototype)是关键。
- CLIP 的视觉特征 Fv 可能不够区分性,特别是对于细粒度的动作类别(例如“挥手”和“鼓掌”)。
- 文本特征 T 蕴含了类别的语义信息,可以提供额外的上下文,让类别原型更加稳健。
- 直接使用 CLIP 处理后的 Fv 作为类别原型可能丢失了语义关联,因此需要引入文本增强。
3.2 为什么要使用 Concat(Fv, T) 和 Repeat(T) + Fv?
Concat(Fv, T) 提供了 显式的模态拼接,Repeat(T) + Fv 通过广播让文本影响整个时序信息。两者结合,使得文本特征能够更深入地影响视频表征,而不是简单地拼接。
-
拼接 (Concat):
- 直接拼接
F_C = cat(Fv, T)
- 直接拼接