当前位置: 首页 > news >正文

【MLLM】具有长期记忆的多模态智能体框架M3-Agent

note

  • 通过强化学习训练的M3-Agent在多个基准测试中表现均显著优于基线模型(包括基于商业模型如Gemini-1.5-Pro和GPT-4o的智能体)
  • 记忆以实体为中心的结构进行组织,例如与同一个人相关的信息(例如他们的脸、声音和相关知识)会以图的格式连接起来,随着智能体不断提取和整合语义记忆,这些关联关系会逐步建立完善。

文章目录

  • note
  • 一、m3-agent智能体框架
  • 二、M3-Bench基准
  • 其他思考
  • Reference

一、m3-agent智能体框架

论文:Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
参考链接:https://x.com/omarsar0/status/1956773240623235076
论文:https://www.arxiv.org/abs/2508.09736
代码:https://github.com/bytedance-seed/m3-agent

在这里插入图片描述
图 1 M3-Agent 的架构,包括一个多模态大型语言模型 (MLLM) 和一个多模态长期记忆。该系统由两个并行过程组成:记忆和控制。在记忆过程中,M3-Agent在线处理视频和音频流,生成情景记忆和语义记忆。在控制过程中,它通过迭代地推理和从长期记忆中检索来执行指令。长期记忆被结构化为多模态图。

在记忆过程中,M3-Agent会实时处理输入的视频流,通过生成两种记忆类型来同时捕获细粒度细节和高级抽象信息,类似于人类认知系统:

  • 事件记忆:记录视频中观察到的具体事件。例如,“爱丽丝拿起咖啡说,‘早上没有这个我无法离开’”,以及“爱丽丝将空瓶子扔进绿色的垃圾桶”。
  • 语义记忆:从片段中推导出一般知识。例如,“爱丽丝喜欢早上喝咖啡”和“绿色的垃圾桶用于回收”。

记忆以实体为中心的结构进行组织,例如与同一个人相关的信息(例如他们的脸、声音和相关知识)会以图的格式连接起来,随着智能体不断提取和整合语义记忆,这些关联关系会逐步建立完善。

M3-Agent并非使用单轮检索增强生成(RAG)将记忆加载到上下文中,而是采用强化学习来实现多轮推理和迭代记忆检索,能自主从不同维度(如事件或角色)的长期记忆中检索相关信息,从而提高任务成功率。
在这里插入图片描述

二、M3-Bench基准

问题痛点:传统的长视频理解方法(例如在多模态模型中扩展上下文窗口或压缩视觉标记以增加时间覆盖范围)对于无限长的视频流来说,并不具备有效的扩展性。为了提高可扩展性,基于记忆的方法引入了记忆模块来存储编码的视觉特征以供未来检索。这些架构适合在线视频处理,但它们面临一个基本限制:难以保持长期一致性。由于它们只存储视觉特征,这些方法难以在长时间内保持对人类身份或演变事件等实体的连贯跟踪。

研究团队提出了M3-Bench,一个用于评估多模态智能体长期记忆推理能力的 LVQA 数据集。M3-Bench中的每个实例包含一个模拟智能体感知输入的长视频,以及一系列开放式问答对。

为了全面评估智能体回忆过去观察结果和基于记忆进行推理的能力,研究团队整理了五种不同类型的问答题,如下图所示。
在这里插入图片描述

其他思考

另一个是记忆Graph化用于多模态智能体框架M3-Agent,接着说记忆Graph化,核心还是通过Graph 的方式,对交互信息进行关联,关于这块,我们在《经典问题之Graph可以如何与Agent结合?从单点到全面归纳》(https://mp.weixin.qq.com/s/bRThRFc7TdLP5S7R1-2f4w) 中已经介绍了不少将知识图谱用于Agent记忆管理的工作,例如Graphti等。其中,《Graphs Meet AI Agents: Taxonomy, Progress, and Future Opportunities》,https://arxiv.org/pdf/2506.18019,https://github.com/YuanchenBei/Awesome-Graphs-Meet-Agents,里面更是详细的进行了归类。那么,如果这个工作放入到多模态领域呢?会如何?所以,看一个工作,字节发布的多模态智能体框架M3-Agent,即:记忆Graph化用于多模态智能体框架M3-Agent,即上面介绍的工作。

Reference

[1] 经典问题之Graph可以如何与Agent结合?从单点到全面归纳.老刘NLP
[2] 字节Seed开源长线记忆多模态Agent,像人一样能听会看
[3] 论文:Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
参考链接:https://x.com/omarsar0/status/1956773240623235076
论文:https://www.arxiv.org/abs/2508.09736
代码:https://github.com/bytedance-seed/m3-agent

http://www.dtcms.com/a/359821.html

相关文章:

  • Uniapp 项目创建与目录结构解析
  • LangChain实战(七):Text Embedding Models与Vector Stores
  • 嵌入式ARM程序高级调试技能:19.qumu arm elf无法生成coredump
  • 829作业
  • DAY17-新世纪DL(DeepLearning/深度学习)战士:Q(机器学习策略)2
  • Claude Code干翻Cursor后,轮到AI浏览器了
  • 组件通信终极指南:从Props Drilling到Context API
  • MPI-NCCL-TEST 训练自检,基础通信和可用的机器
  • NM:微生物组数据分析的规划与描述
  • GDPU操作系统实验:生产者消费者问题
  • Matplotlib:让数据在Python中跳舞的魔法画笔![特殊字符]
  • 5.【C++进阶】红黑树
  • C++从入门到实战(二十)详细讲解C++List的使用及模拟实现
  • Qt中解析XML文件
  • 基于muduo库的图床云共享存储项目(四)
  • Luma 视频生成 API 对接说明
  • 编写一个用scala写的spark程序从本地读取数据,写到本地
  • 基于Matlab元胞自动机的强场电离过程模拟与ADK模型分析
  • 【Linux】模拟实现Shell(上)
  • 分享一个实用的B站工具箱(支持音视频下载等功能)
  • 【Canvas技法】绘制横向多色旗和竖向多色旗
  • 008.LangChain 输出解析器
  • 备份压缩存储优化方案:提升效率与节省空间的完整指南
  • 新手首次操作SEO核心要点
  • 线程池常见面试问答
  • 【Java实战⑩】Java 集合框架实战:Set与Map的奇妙之旅
  • 基于三维反投影矫正拼接视频
  • 数据结构(04)—— 栈和队列
  • 使用node-red+opencv+mqtt实现相机图像云端查看
  • 零基础入门AutoSar中的ARXML文件