当前位置: 首页 > news >正文

FastV: An Image is Worth 1/2 Tokens After Layer 2

论文的发现:Half of the tokens of large vision language models are kind of redundant, so we can compress the flops of 13 billion parameter model to achieve a lower budget that of a 7 billion parameter model while still maintaining superior performance.
请添加图片描述
如下图所示,我们需要在第K层后添加一个filter层,将不重要的tokens去掉,然后再接着下一层。
How should we filter them out?
We do it based on those attention scores α\alphaα. We compute them for each tokens so we have some score that says how much each of these tokens are attending to the previous tokens. And if they do not attend a lot meaning that they are not very important so I can select like 50% of them and filter them out.
如下图所面所示的结果,我们可以看到如果选择在第2层filter out 50%的image tokens,我们就减少了52%的flops,而模型的输出完全一致;如果选择在第5层filter out 75%的image tokens,我们就减少到38%的flops,模型的输出还是一样;如果选择在第2层filter out 75%的image tokens,模型的输出就会受到影响了
请添加图片描述
更详细的数据对比如下表所示
请添加图片描述
请添加图片描述
请添加图片描述

http://www.dtcms.com/a/336229.html

相关文章:

  • 2025年如何选择建站公司制作网站?
  • 服务器管理与配置学习总结
  • 【R语言】R 语言中打印含有双引号的字符串时会出现 “\” 的原因解析
  • C++---C++11
  • SpringCloud 02 服务治理 Nacos
  • (二)Python + 地球信息科学与技术 (GeoICT)=?
  • 机器学习--数据清洗
  • Python知识点汇总
  • 人工智能训练师复习题目实操题1.2.1 - 1.2.5
  • 4.Ansible自动化之-部署文件到主机
  • Mac(五)自定义鼠标滚轮方向 LinearMouse
  • 【网络通信】TCP/IP 协议全方位解析​
  • 计算机网络 TCP、UDP 区别
  • 云原生俱乐部-RH134知识点总结(2)
  • mediamtx v1.14.0版本全面解析:RTP流接收、IPv6支持与性能监控体系升级​
  • 如何做HTTP优化
  • Python 项目里的数据清理工作(数据清洗步骤应用)
  • 芯片行业主要厂商
  • Java 大视界 -- 基于 Java 的大数据分布式计算在气象灾害预警与应急响应中的应用
  • LeetCode 837.新 21 点:动态规划+滑动窗口
  • 动态规划法 - 53. 最大子数组和
  • MySQL数据库基础操作指南:从创建到管理的完整流程
  • Linux系统中6种替代top的工具
  • SparkSQL性能优化实践指南
  • ubuntu 24.04 安装
  • RAC环境redo在各节点本地导致数据库故障恢复---惜分飞
  • 云智智慧停充一体云-allnew全新体验-路内停车源码+路外停车源码+充电桩源码解决方案
  • 从零配置YOLOv8环境:RTX 3060显卡完整指南
  • 43.安卓逆向2-补环境-使用unidbg(使用Smali语法调用方法和使用方法地址调用方法)
  • n2n局域网搭建