当前位置：首页 > news >正文

论文内可解释性分析

news 2025/10/20 14:41:15

目录

3 TEPM(Text-Enhanced Prototype Module)
- 3.1 为什么要进行文本增强？（动机）
- 3.2 为什么要使用 Concat(Fv, T) 和 Repeat(T) + Fv？
- 3.3 为什么 Q=F_C，K=V=F_R ？（第一层注意力）
- 3.4 为什么要进行两层注意力？
- 3.5 为什么最终结果会更好？
- **3.6 面试官可能问的挑战性问题**

3 TEPM(Text-Enhanced Prototype Module)

3.1 为什么要进行文本增强？（动机）

TEPM（Text-Enhanced Prototype Module）通过跨模态融合提高了类别原型的质量。

少样本学习（Few-Shot Learning, FSL）中，类别原型（Prototype）是关键。

CLIP 的视觉特征 Fv 可能不够区分性，特别是对于细粒度的动作类别（例如“挥手”和“鼓掌”）。

文本特征 T 蕴含了类别的语义信息，可以提供额外的上下文，让类别原型更加稳健。

直接使用 CLIP 处理后的 Fv 作为类别原型可能丢失了语义关联，因此需要引入文本增强。

3.2 为什么要使用 Concat(Fv, T) 和 Repeat(T) + Fv？

Concat(Fv, T) 提供了 显式的模态拼接，Repeat(T) + Fv 通过广播让文本影响整个时序信息。两者结合，使得文本特征能够更深入地影响视频表征，而不是简单地拼接。

拼接 (Concat):
- 直接拼接 F_C = cat(Fv, T)

http://www.dtcms.com/a/98471.html

相关文章：

《ZooKeeper Zab协议深度剖析：构建高可用分布式系统的基石》

0101-vite创建react_ts-环境准备-仿低代码平台项目

latex笔记

复现文献中的三维重建图像生成，包括训练、推理和可视化

StarRocks 存算分离在京东物流的落地实践

GOC L2 第四课模运算和周期

软件工程之需求工程（需求获取、分析、验证）

Unity顶点优化：UV Splits与Smoothing Splits消除技巧

基于 Python 深度学习 lstm 算法的电影评论情感分析可视化系统（2.0 系统全新升级，已获高分通过）

CUDA专题3：为什么GPU能改变计算？深度剖析架构、CUDA®与可扩展编程

软件信息安全性测试工具有哪些?安全性测试报告如何获取?

C++ 类型转换

java基础以及内存图

presto任务优化参数

RAG、大模型与智能体的关系

Binlog、Redo log、Undo log的区别

【从零实现Json-Rpc框架】- 项目实现 - Dispatcher模块实现篇

Eigen 3

Jenkins 持续集成：Linux 系统两台机器互相免密登录

27_promise

基于Selenium的IEEE Xplore论文数据爬取实战指南

通信协议之串口

Java面试黄金宝典22

【Basys3】外设-灯和数码管

使用ANTLR4解析Yaml,JSON和Latex

SpringSecurity配置(自定义退出登录)

CubeMx——串口与 printf 打印

Python每日一题(9)

MyBatis的第一天笔记

标书工具私有部署技术方案