当前位置: 首页 > news >正文

VoCo-LLaMA: Towards Vision Compression with Large Language Models 译读笔记

VoCo-LLaMA: Towards Vision Compression with Large Language Models

摘要

视觉语言模型(VLMs)在各类多模态任务中取得了显著成功,但其性能常常受限于处理高分辨率图像和视频时有限的上下文窗口以及高昂的计算成本。Vision compression 可以通过减少视觉 token 的数量来缓解这一问题。以往的方法通常使用 external modules 对视觉 token 进行压缩,并强制大语言模型(LLM)去理解这些压缩后的表示,从而导致视觉信息的损失。然而,在压缩学习过程中,并未充分利用 LLM 本身理解视觉 token 的paradigm。本文提出了 VoCo-LLaMA,首个利用大语言模型自身能力进行视觉 token 压缩的方法。在视觉指令微调阶段引入视觉压缩(Vision Compression, VoCo)token,并结合注意力蒸馏(attention distillation)技术,将 LLM 理解视觉 token 的方式distill到对 VoCo tokens 的处理过程中。VoCo-LLaMA 能够实现高效的视觉压缩,并显著提升推理阶段的计算效率。具体而言,本文的方法可在实现 576 倍压缩率的同时,保留原始性能的 83.7%。此外,通过对视频帧的时间序列压缩 token 进行持续训练,VoCo-LLaMA 展现出理解时序关联的能力,在主流视频问答基准上优于以往方法。本文的方法为充分释放 VLMs 上下文窗口的潜力、实现更具可扩展性的多模态应用提供了一条有前景的路径。

1 引言

视觉-语言模型(Visual-Language Models, VLMs)的出现〔25_BLIP2, 30_LLaVA, 60_MiniGPT4, 13_GLM, 3_Qwen-VL, 59_InternLM-XComposer, 29_Instruction_Tuning, 5_Fuyu-8B, 32_World_Model, 47_Gemini1.5〕极大地推动了视觉理解领域的发展。特别是高分辨率图像编码〔29_Instruction_Tuning, 5_Fuyu-8B〕以及引入更多视频帧〔32_World_Model, 47_Gemini1.5〕的方法,已被证明分别能够显著增强大型视觉-语言模型和大型视频-语言模型的能力。然而,大量的视觉token会占据大语言模型宝贵上下文窗口的很大一部分,从而导致高昂的计算开销。例如,在 LLaVA-1.6〔29_Instruction_Tuning〕中使用高分辨率图像输入时,一张 672×672 分辨率的图像会被划分为多个小块,每个小块以 336×336 分辨率进行编码。这一过程会产生由2880个视觉token组成的图像表示,占用了超过一半的上下文长度。随着输入图像数量的增加,用于文本的上下文窗口将进一步受到限制。文献〔32_World_Model, 47_Gemini1.5〕研究了将上下文长度扩展至百万级别以缓解该问题的有效性,但这种方法需要昂贵的计算资源(例如,〔32_World_Model〕需要超过 1000 个 v4 TPU)以及在数据和框架开发方面的大量工程投入。

为了解决这一问题,以往的方法〔25_BLIP2](https://arxiv.org/abs/2301.12597), 60_MiniGPT4, 13_GLM, 59_InternLM-XComposer, 28_LLaMA-VID, 11_InstructBLIP〕采用了 Q-Former〔25_BLIP2〕](https://arxiv.org/abs/2301.12597)或 Re-sampler〔1_Flamingo〕来对编码后的视觉 token 进行compress。

鉴于大语言模型(LLM)能够有效理解未压缩的视觉 token〔31_Instruction_Tuning〕,它本身就具备独立执行 token 压缩的巨大潜力。

http://www.dtcms.com/a/524648.html

相关文章:

  • 国网北京电力建设研究院网站惠州网站建设电话
  • 鹤壁市住房和城乡建设局网站上线了建站教程
  • centos8.5运行ai00-server报错`GLIBC_2.39‘ not found,解决方法
  • 冷换仓的隐性代价:从安全策略到地址信誉体系的重新思考
  • 如何用Vue CLI 创建 Vue 项目
  • 网站开发专业前景完整php网站开发
  • 企业建网站110平米三室一厅简装图片
  • CAS汽车固件签名:从“完成签名”到“安全治理”的演进之路
  • 免费手机网站模板sem竞价推广怎么做
  • 企业数字化转型的关键一步:打通研发全流程
  • Unity 资源导出的问题,依赖关系过多。
  • 网站开发公司内部数据字典深圳网站建设设计公司
  • 网站建设维护公司地址如何做好网站内容
  • STM32_bug总结-运行函数在SystemInit之后就卡死
  • 基于高光谱成像技术的烟叶含水率检测研究进展
  • 聊城网站推广网站可以换域名吗
  • 一个网站 两个域名淄博公司网站建设价格
  • VBA数据结构终极对决:性能实测与行业应用指南
  • 解码Linux文件IO之JPEG图像原理与应用
  • “短小精悍”的边缘AI算力利器:超微SYS-E403-14B-FRN2T服务器评测
  • Gradio全解14——使用Gradio构建MCP的服务器与客户端(4)——Python包命令:uv与uvx实战
  • php是网站开发的语言吗怎么做好市场宣传和推广
  • 做cms网站步骤广东手机网站建设哪家好
  • GreatSQL 配置 SSL 访问:单机与 MGR 集群指南
  • 网站开发进度把握网站备案需要拍照
  • LC104 二叉树的最大深度
  • 如何构建企业级数据分析助手:Data Agent 开发实践
  • 网站内容 优化网站维护做啥的
  • Diffusion-TS:一种基于季节性-趋势分解与重构引导的可解释时间序列扩散模型​
  • LabVIEW连接本地部署大模型