当前位置: 首页 > news >正文

论文内可解释性分析

目录

  • 3 TEPM(Text-Enhanced Prototype Module)
    • 3.1 为什么要进行文本增强?(动机)
    • 3.2 为什么要使用 Concat(Fv, T) 和 Repeat(T) + Fv?
    • 3.3 为什么 Q=F_C,K=V=F_R ?(第一层注意力)
    • 3.4 为什么要进行两层注意力?
    • 3.5 为什么最终结果会更好?
    • **3.6 面试官可能问的挑战性问题**

3 TEPM(Text-Enhanced Prototype Module)

3.1 为什么要进行文本增强?(动机)

TEPM(Text-Enhanced Prototype Module) 通过 跨模态融合 提高了类别原型的质量。

少样本学习(Few-Shot Learning, FSL)中,类别原型(Prototype)是关键。

  • CLIP 的视觉特征 Fv 可能不够区分性,特别是对于细粒度的动作类别(例如“挥手”和“鼓掌”)。
  • 文本特征 T 蕴含了类别的语义信息,可以提供额外的上下文,让类别原型更加稳健。
  • 直接使用 CLIP 处理后的 Fv 作为类别原型可能丢失了语义关联,因此需要引入文本增强。

3.2 为什么要使用 Concat(Fv, T) 和 Repeat(T) + Fv?

Concat(Fv, T) 提供了 显式的模态拼接,Repeat(T) + Fv 通过广播让文本影响整个时序信息。两者结合,使得文本特征能够更深入地影响视频表征,而不是简单地拼接。

  1. 拼接 (Concat):

    • 直接拼接 F_C = cat(Fv, T)
http://www.dtcms.com/a/98471.html

相关文章:

  • 《ZooKeeper Zab协议深度剖析:构建高可用分布式系统的基石》
  • 0101-vite创建react_ts-环境准备-仿低代码平台项目
  • latex笔记
  • 复现文献中的三维重建图像生成,包括训练、推理和可视化
  • StarRocks 存算分离在京东物流的落地实践
  • GOC L2 第四课模运算和周期
  • 软件工程之需求工程(需求获取、分析、验证)
  • Unity顶点优化:UV Splits与Smoothing Splits消除技巧
  • 基于 Python 深度学习 lstm 算法的电影评论情感分析可视化系统(2.0 系统全新升级,已获高分通过)
  • CUDA专题3:为什么GPU能改变计算?深度剖析架构、CUDA®与可扩展编程
  • 软件信息安全性测试工具有哪些?安全性测试报告如何获取?
  • C++ 类型转换
  • java基础以及内存图
  • presto任务优化参数
  • RAG、大模型与智能体的关系
  • Binlog、Redo log、Undo log的区别
  • 【从零实现Json-Rpc框架】- 项目实现 - Dispatcher模块实现篇
  • Eigen 3
  • Jenkins 持续集成:Linux 系统 两台机器互相免密登录
  • 27_promise
  • 基于Selenium的IEEE Xplore论文数据爬取实战指南
  • 通信协议之串口
  • Java面试黄金宝典22
  • 【Basys3】外设-灯和数码管
  • 使用ANTLR4解析Yaml,JSON和Latex
  • SpringSecurity配置(自定义退出登录)
  • CubeMx——串口与 printf 打印
  • Python每日一题(9)
  • MyBatis的第一天笔记
  • 标书工具私有部署技术方案