当前位置：首页 > news >正文

[论文阅读]人工智能 | CoMemo：给大视觉语言模型装个“图像记忆”

news 2025/9/29 5:55:19

【论文速览】CoMemo：给大视觉语言模型装个“图像记忆”

论文信息

Liu, S., Su, W., Zhu, X., Wang, W., & Dai, J. (2025). CoMemo: LVLMs Need Image Context with Image Memory. arXiv preprint arXiv:2506.06279.

一、研究背景：当LVLMs遇到“视觉健忘症”

想象一下，你在阅读一本图文并茂的小说时，随着文字篇幅越来越长，你可能会逐渐忘记前面图片里的关键细节——比如主角的外貌特征或场景中的重要道具。这就是当前大型视觉语言模型（LVLMs）面临的真实困境：

1. “中间信息消失之谜”

传统LVLMs采用类似语言模型的因果自注意力机制，导致**“中间信息丢失”现象**。就像排队买奶茶时，收银员更容易注意到队首和队尾的顾客，模型在处理长序列时，中间位置的视觉信息会被逐渐忽视。例如，在分析包含多段文字和图片的报告时，模型可能漏掉中间图片中的关键数据图表。

2. “高清图像变形记”

当处理高清图像时，传统位置编码（如RoPE）会将每个图像块视为独立 token，导致：

远程衰减：图像块之间的空间关系被一维序列破坏，如同将高清地图拆成碎片后打乱顺序；
二维信息坍塌：无法保留图像的宽高比例和布局，类似用马赛克拼贴蒙娜丽莎，细节虽在但整体结构模糊。

这些问题使得LVLMs在长文档分析、医学影像诊断等需要持续关注视觉细节的任务中表现不佳。

二、创新点：给模型装个“双脑记忆系统”

1. 双路径架构：一边看一边记

上下文路径（Context Path）：将图像 tokens 与文本 tokens 串联，作为自回归处理的主路径，类似边阅读边做笔记，确保视觉信息参与整体语义理解；
记忆路径（Memory Path）：通过交叉注意力机制单独处理图像 tokens，相当于在旁边放了一本“视觉备忘录”，随时检索关键图像细节，避免自注意力的“遗忘偏倚”。

2. RoPE-DHR：让位置编码“看得更立体”

分层编码策略：将图像分为缩略图（Thumbnail）和高分辨率图块（Tiles）：
- 缩略图使用传统RoPE编码，作为全局参考坐标；
- 图块通过二维映射关联到缩略图位置，保留“左上-右下”等空间关系，如同在地图上标记“第3行第5列”的精确位置；
位置压缩技术：通过共享位置ID减少长序列中的稀疏编码问题，类似用“章节-段落”结构组织书籍，而非连续页码。

三、研究方法：像搭积木一样拆解创新

1. 双路径的“平衡术”

门控机制：在记忆路径中引入可学习的注意力门（Attn Gate），动态调节视觉信息的参与度。就像调节耳机音量，避免图像信息“太吵”或“太轻”；
三阶段训练：
1. 先训练投影仪和记忆层，让模型学会“看”图像；
2. 冻结门控参数，强制模型依赖上下文路径“理解”整体；
3. 全参数微调，适应具体任务如问答、生成。

2. 实验验证：用数据说话

七大类基准测试：涵盖长文本理解（MileBench）、多图推理（MMT）、视觉问答（MMBench）等场景；
关键结果：
- 在长生成任务中，比基线模型LVLM-S提升7.0%；
- 在多图任务中，比LVLM-X提升5.6%；
- 在“中间信息检索”任务（MM-NIAH）中，显著缓解“丢失”问题，准确率提升17.2%。

四、主要贡献：给LVLMs的“升级补丁”

1. 架构层面

首次提出双路径视觉处理框架，分离“上下文理解”与“视觉记忆”功能，为LVLMs提供了新的设计范式；
证明通过注意力门控和训练策略，可以有效平衡两条路径的协作，避免“依赖记忆路径”的偷懒行为。

2. 技术层面

RoPE-DHR解决了高分辨率图像的位置编码难题，在不增加计算量的前提下保留二维空间信息，适用于医学切片、工程图纸等专业场景；
三阶段训练策略为多模态模型的参数优化提供了新思路，尤其适合需要处理长序列的任务。

3. 应用层面

在公开数据集上的全面超越表明，CoMemo可直接应用于文档分析、教育课件生成、跨模态检索等场景，提升多模态交互的可靠性。

五、总结：通向更“聪明”的多模态模型

CoMemo的核心是通过**“分离视觉处理路径+强化空间记忆”**，让LVLMs既能“通读全文”，又能“回看插图”。其双路径架构和RoPE-DHR编码为解决长上下文和高分辨率视觉任务提供了有效方案，尤其在需要持续关注细节的专业领域具有重要价值。未来，结合更大规模的预训练数据和动态分辨率调整，可能进一步推动多模态模型向通用视觉推理迈进。

查看全文

http://www.dtcms.com/a/240110.html