当前位置: 首页 > news >正文

字节开源了一款具备长期记忆能力的多模态智能体:M3-Agent

猫头虎AI分享|字节开源了一款具备长期记忆能力的多模态智能体:M3-Agent

近年来,多模态大模型的发展迅猛,但如何赋予智能体类似人类的长期记忆能力,一直是研究中的核心挑战。字节跳动开源的 M3-Agent,正是面向这一问题提出的创新解决方案。本文将从系统原理、技术特点、基准测试结果以及本地运行方式等方面,为大家详细解读。

猫头虎开源 fork GitHub: https://github.com/MaoTouHU/byte-m3-agent


文章目录

  • 猫头虎AI分享|字节开源了一款具备长期记忆能力的多模态智能体:M3-Agent
    • 一、M3-Agent 简介
    • 二、系统原理
    • 三、M3-Bench:长视频问答基准
    • 四、实验与结果
    • 五、本地运行指南
      • 环境配置
      • 视频切分(示例)
      • 生成记忆图谱
      • 可视化
    • 六、总结

一、M3-Agent 简介

M3-Agent 是一款具备长期记忆能力的多模态智能体,能够实时处理视觉与听觉输入,并将其转化为长期记忆。它不仅可以存储情景记忆,还能进一步抽取和积累语义记忆,从而逐步形成世界知识。

其核心创新在于:记忆系统以实体为中心。这意味着与某个实体相关的多模态信息(例如一个人的面部、声音、相关知识)会被统一组织成图谱结构,帮助模型实现更深入和一致的环境理解。

主要能力包括:

  • 实时多模态输入:处理视频、音频等流数据。
  • 长期记忆:支持情景记忆与语义记忆的积累。
  • 跨模态推理:利用实体中心图谱进行多轮迭代推理。
  • 任务执行:从长期记忆中检索相关信息,辅助完成复杂任务。

二、系统原理

M3-Agent 的系统由两个并行过程组成:

  1. Memorization(记忆生成)

    • 实时处理视频与音频流,生成情景记忆。
    • 在此基础上提炼出语义记忆,构建长期图谱。
  2. Control(推理与执行)

    • 接收指令后,迭代思考并从长期记忆中检索信息。
    • 基于记忆与推理结果,生成最终行动或回答。

M3-Agent Architecture

这种 多模态图谱化的记忆结构,让 M3-Agent 更接近人类的认知模式。


三、M3-Bench:长视频问答基准

为评估多模态智能体的记忆与推理能力,M3-Agent 团队构建了 M3-Bench 基准数据集,包括两个子集:

  • M3-Bench-robot:100 个真实机器人视角的长视频。
  • M3-Bench-web:920 个来自网络的多样化视频。

这些数据配套有开放式问答标注,用于考察智能体的人类理解、知识抽取、跨模态推理等关键能力。

M3-Bench

实验表明,M3-Agent 在 M3-Bench 和 VideoMME-long 等任务上显著优于基线模型,尤其在需要长期记忆的场景中表现突出。

Benchmark Results


四、实验与结果

在与强基线模型(Gemini-1.5-pro 和 GPT-4o 提示式代理)对比中,M3-Agent 在多个测试集上均取得领先:

  • M3-Bench-robot:+8.2%
  • M3-Bench-web:+7.7%
  • VideoMME-long:+5.3%

这些结果证明了长期记忆与跨模态图谱推理的有效性。


五、本地运行指南

M3-Agent 提供了完整的开源代码,研究者可在本地运行。以下是主要步骤:

环境配置

bash setup.sh
pip install git+https://github.com/huggingface/transformers@f742a644ca32e65758c3adb36225aef1731bd2a8
pip install qwen-omni-utils==0.0.4

视频切分(示例)

#!/bin/bash
video="robot/bedroom_01"
input="data/videos/$video.mp4"
mkdir -p "data/clips/$video"
duration=$(ffprobe -v error -show_entries format=duration -of default=noprint_wrappers=1:nokey=1 "$input")
duration_seconds=$(echo "$duration" | awk '{print int($1)}')segments=$((duration_seconds / 30 + 1))
for ((i=0; i<segments; i++)); dostart=$((i * 30))output="data/clips/$video/$i.mp4"ffmpeg -ss $start -i "$input" -t 30 -c copy "${output}"
done

生成记忆图谱

python data_preparation/generate_memory_qwen.py \--data_file data/data.jsonl

可视化

python visualization.py \--mem_path data/memory_graphs/robot/bedroom_01.pkl \--clip_id 1

更多运行与训练说明,请参考 官方仓库。


六、总结

M3-Agent 展示了具备长期记忆的多模态智能体的可行路径。其核心亮点在于:

  • 实体为中心的多模态记忆图谱,保证了理解的一致性与深度。
  • 支持情景与语义记忆,逐步积累长期知识。
  • 基于记忆的迭代推理,在跨模态任务中表现卓越。

这一框架不仅推动了多模态智能体研究,更为未来人机交互和智能助手的发展提供了重要参考。

猫头虎开源 fork GitHub: https://github.com/MaoTouHU/byte-m3-agent


http://www.dtcms.com/a/339378.html

相关文章:

  • RabbitMQ:SpringBoot+RabbitMQ Direct Exchange(直连型交换机)
  • 第7章 React性能优化核心
  • [langgraph]创建第一个agent
  • 如何在 Git Commit Message 中正确提及共同贡献者(Co-authored-by 实践指南)
  • 图解快速排序C语言实现
  • 数据结构----八大排序算法
  • 【报文构造】构造一个异常的IPV6报文,测试设备可靠性
  • 集成电路学习:什么是Object Tracking目标跟踪
  • 浙江电信IPTV天邑TY1613_高安版_晶晨S905L3SB_安卓9_原厂固件自改_线刷包
  • Arthas 全面使用指南:离线安装 + Docker/K8s 集成 + 集中管理
  • WRC大会精彩回顾 | NanoLoong机器人足球首秀青龙机械臂咖啡服务双线出击
  • 释永信,领先10年的AI心法!
  • sqllabs(2)
  • 机器学习之数据模型训练(三)
  • 嵌入式第三十二天(信号,共享内存)
  • 装修水电全改的避坑指南有哪些?
  • [激光原理与应用-304]:光学设计 - 光学设计报告的主要内容、格式与示例:系统记录了从需求分析到最终设计的完整过程
  • windows环境,安装kafka
  • PMP项目管理:PMBOK 第六版 与 第七版 有啥区别 / 如何备考
  • Spring Boot应用实现图片资源服务
  • WSL2环境下的Claude Code与lanyuncodingui安装与配置
  • 差速转向机器人研发:创新驱动的未来移动技术探索
  • 子网掩码(拓)
  • 汇编语言学习2---GNU Debugger (GDB)
  • bypass webshell--Trait
  • canopen 初体验
  • 【qml-4】qml与c++交互(类型多例)
  • 配置nginx以支持http3
  • rabbitmq发送的延迟消息时间过长就立即消费了
  • Maven的三种项目打包方式——pom,jar,war的区别