当前位置：首页 > news >正文

【MLLM】具有长期记忆的多模态智能体框架M3-Agent

news 2025/9/1 7:08:59

note

通过强化学习训练的M3-Agent在多个基准测试中表现均显著优于基线模型（包括基于商业模型如Gemini-1.5-Pro和GPT-4o的智能体）
记忆以实体为中心的结构进行组织，例如与同一个人相关的信息（例如他们的脸、声音和相关知识）会以图的格式连接起来，随着智能体不断提取和整合语义记忆，这些关联关系会逐步建立完善。

文章目录

note
一、m3-agent智能体框架
二、M3-Bench基准
其他思考
Reference

一、m3-agent智能体框架

论文：Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
参考链接：https://x.com/omarsar0/status/1956773240623235076
论文：https://www.arxiv.org/abs/2508.09736
代码：https://github.com/bytedance-seed/m3-agent

在这里插入图片描述
图 1 M3-Agent 的架构，包括一个多模态大型语言模型 (MLLM) 和一个多模态长期记忆。该系统由两个并行过程组成：记忆和控制。在记忆过程中，M3-Agent在线处理视频和音频流，生成情景记忆和语义记忆。在控制过程中，它通过迭代地推理和从长期记忆中检索来执行指令。长期记忆被结构化为多模态图。

在记忆过程中，M3-Agent会实时处理输入的视频流，通过生成两种记忆类型来同时捕获细粒度细节和高级抽象信息，类似于人类认知系统：

事件记忆：记录视频中观察到的具体事件。例如，“爱丽丝拿起咖啡说，‘早上没有这个我无法离开’”，以及“爱丽丝将空瓶子扔进绿色的垃圾桶”。
语义记忆：从片段中推导出一般知识。例如，“爱丽丝喜欢早上喝咖啡”和“绿色的垃圾桶用于回收”。

记忆以实体为中心的结构进行组织，例如与同一个人相关的信息（例如他们的脸、声音和相关知识）会以图的格式连接起来，随着智能体不断提取和整合语义记忆，这些关联关系会逐步建立完善。

M3-Agent并非使用单轮检索增强生成（RAG）将记忆加载到上下文中，而是采用强化学习来实现多轮推理和迭代记忆检索，能自主从不同维度（如事件或角色）的长期记忆中检索相关信息，从而提高任务成功率。
在这里插入图片描述

二、M3-Bench基准

问题痛点：传统的长视频理解方法（例如在多模态模型中扩展上下文窗口或压缩视觉标记以增加时间覆盖范围）对于无限长的视频流来说，并不具备有效的扩展性。为了提高可扩展性，基于记忆的方法引入了记忆模块来存储编码的视觉特征以供未来检索。这些架构适合在线视频处理，但它们面临一个基本限制：难以保持长期一致性。由于它们只存储视觉特征，这些方法难以在长时间内保持对人类身份或演变事件等实体的连贯跟踪。

研究团队提出了M3-Bench，一个用于评估多模态智能体长期记忆推理能力的 LVQA 数据集。M3-Bench中的每个实例包含一个模拟智能体感知输入的长视频，以及一系列开放式问答对。

为了全面评估智能体回忆过去观察结果和基于记忆进行推理的能力，研究团队整理了五种不同类型的问答题，如下图所示。
在这里插入图片描述

其他思考

另一个是记忆Graph化用于多模态智能体框架M3-Agent，接着说记忆Graph化，核心还是通过Graph 的方式，对交互信息进行关联，关于这块，我们在《经典问题之Graph可以如何与Agent结合？从单点到全面归纳》(https://mp.weixin.qq.com/s/bRThRFc7TdLP5S7R1-2f4w) 中已经介绍了不少将知识图谱用于Agent记忆管理的工作，例如Graphti等。其中，《Graphs Meet AI Agents: Taxonomy, Progress, and Future Opportunities》，https://arxiv.org/pdf/2506.18019，https://github.com/YuanchenBei/Awesome-Graphs-Meet-Agents，里面更是详细的进行了归类。那么，如果这个工作放入到多模态领域呢？会如何？所以，看一个工作，字节发布的多模态智能体框架M3-Agent，即：记忆Graph化用于多模态智能体框架M3-Agent，即上面介绍的工作。

Reference

[1] 经典问题之Graph可以如何与Agent结合？从单点到全面归纳.老刘NLP
[2] 字节Seed开源长线记忆多模态Agent，像人一样能听会看
[3] 论文：Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
参考链接：https://x.com/omarsar0/status/1956773240623235076
论文：https://www.arxiv.org/abs/2508.09736
代码：https://github.com/bytedance-seed/m3-agent

查看全文

http://www.dtcms.com/a/359821.html