当前位置: 首页 > news >正文

EdgeInfinite: 用3B模型处理无限长的上下文

论文标题

EdgeInfinite: A Memory-Efficient Infinite-Context Transformer for Edge Devices

论文地址

https://arxiv.org/pdf/2503.22196

作者背景

vivo,浙江大学

代码

The code will be released after the official audit.

动机

self-attention的二次时间复杂度带来了老生常谈的效率问题,这在资源受限的边缘设备(例如手机、小型机器人)上的情况尤为严峻,许多主流提效方案都无法满足端侧场景的严苛需求

在这里插入图片描述

对此,作者希望在保持现有Transformer架构优势的同时,实现对长序列的高效支持。

本文方法

作者提出EdgeInfinite,面向边缘计算这样资源极度受限的场景,并且能够处理“无限长”的上下文(这样说是因为本方法处理长文本时并没有主动舍弃任何信息,但在迭代的过程中肯定还是会有信息精度的损失),具体结构如下:

在这里插入图片描述

一、分段注意力

EdgeInfinite把输入上下文分割成长度为L的段,每个段中的token只在内部执行注意力分数计算,从而把复杂度控制在段长范围内,极大地降低了单次计算长上下文注意力的成本;同时也加入全局的位置编码信息(ROPE),避免切分后丢失跨段位置信息;

二、记忆压缩-解压模块

新增一个历史信息记忆模块,每段长度为L的文本处理完毕后都会被压缩存储到这个模块中(不包括划分后剩下的残段),以供下一段文本的注意力计算。存储的对象是K和V,记忆更新方式为:

在这里插入图片描述

读取记忆时,拿当前段的每个query与记忆模块相乘,得到类似于自注意力的计算结果:

在这里插入图片描述

上述M可看作是所有历史信息的压缩(全都塞到一组参数里面)。此外还可以让一些重要的token不进行这样的压缩,对此本文做了一些简单的探索:对于上下文的开头部分(sink token)和最邻近的上文(window token),像kv-cache一样保留它们的原始信息

在这里插入图片描述

三、自适应记忆门控

与Infini-Transformer需要训练整个模型不同,EdgeInfinite仅需微调记忆门控模块。该模块通过一个多层感知机(MLP)和一个门控向量,将基于记忆的注意力与基于局部段的注意力结合起来,动态平衡当前上下文和历史上下文的重要性,甚至支持在在短文本任务上退化回原始模型进行推理。

实验结果

一、性能测试

作者在LongBench上进行了全面的评估,测试对象是一个适用于边缘设备的3B模型(BlueLM-3B),EdgeInfinite的段长L设为2048,实验结果如下表所示:

在这里插入图片描述

可见除了单文档问答任务,EdgeInfinite具有良好的性能优势,在许多任务上好于全量的KV-Cache(全量缓存超长上下文时信息过载造成能力下降,而EdgeInfinite能够通过压缩只保留重点)
单文档问答任务的效果略差,是因为此类任务大多需要对上下文细节进行分析,而EdgeInfinite压缩了上下文导致其更擅于长篇总结,细节问答是弱点

二、效率测试

EdgeInfinite非常高效,只使用了常数级别的存储开销,这也是作者称其为“Infinite”的原因

在这里插入图片描述

三、消融实验

对于保留两种特殊token的原始kv这一行为,消融结果表明其正向作用

在这里插入图片描述

总结

本文提出了一种常数级存储开销的长上下文处理方法,对于像边缘计算这种资源限制严苛的场景很有帮助,并且只在模型层面上增加了少量模块,改动很小,兼容性强;此外自适应门控的存在也极为重要:确保在兼顾长上下文的同时不损害短文本效果;

但EdgeInfinite更擅长总结,而不擅长细节处理的特点是当前的硬伤,原因可能在于重要token的挑选逻辑过于简单

相关文章:

  • vue3+ts解决钩子函数里面传过来的值,外面拿不到的问题
  • Python Cookbook-5.6 以随机顺序处理列表的元素
  • 配环境的经验
  • 盈亏平衡IRR
  • LLM Agents的历史、现状与未来趋势
  • 【Netty4核心原理④】【简单实现 Tomcat 和 RPC框架功能】
  • GaussDB回调机制深度实践:从事件驱动到系统集成
  • 36.[前端开发-JavaScript高级]Day01-this和箭头函数的使用
  • java的文件输入输出流(FileInputStream、FileOutputStream、FileReader、FileWriter)
  • redis中的set
  • pikachu靶场搭建教程,csfr实操
  • AI日报 - 2025年4月8日
  • 关于动态规划
  • 解决 Lettuce 在 Redis 集群模式下的故障转移问题
  • 基于人工智能的医学影像关联分析:利用潜在空间几何混杂因素校正法|文献速递-深度学习医疗AI最新文献
  • WEB安全--内网渗透--利用Net-NTLMv2 Hash
  • 使用Scade实现神经网络算法
  • CMake 字段使用
  • 蓝桥杯真题--最长子序列 and 2023
  • SQL:Primary Key(主键)和Foreign Key(外键)
  • 做微电网的公司网站/在线培训app
  • wordpress大前端2.0/搜索引擎优化网站
  • 漳州市网站建设/微信引流推广怎么找平台
  • 正能量网站ip/新乡搜索引擎优化
  • 郴州网站优化公司/无锡seo公司哪家好
  • 大连专业app开发设计/网站优化排名提升