当前位置: 首页 > news >正文

智源研究院发布悟界 Emu3.5,开启多模态世界大模型新纪元

2025 年 10 月 30 日,智源研究院在北京举办“悟界 · Emu 系列技术交流会”,智源研究院院长王仲远、多模态大模型负责人王鑫龙,发布了 Emu3.5 多模态世界大模型。这项工作的发布开启了人工智能从语言学习向多模态世界学习演进的新纪元,率先指明了多模态 Scaling 的新范式。而 Emu 作为“悟界”系列模型的重要组成部分,标志着 AI 正加速从数字世界迈向物理世界的关键一步。

2024 年 10 月,智源研究院发布了全球首个原生多模态世界模型 Emu3,该模型只基于下一个 token 预测,无需扩散模型或组合方法,实现图像、文本、视频的大一统。模型一经上线便在技术社区引发了热议。

一年后,智源发布 Emu3.5,在“Next-Token Prediction”范式的基础上,模拟人类自然学习方式,以自回归架构实现了对多模态序列的“Next-State Prediction (NSP)”,获得了可泛化的世界建模能力。

王仲远表示:“通过 Emu3 我们验证了自回归架构实现多模态理解与生成大一统的可行性,Emu3.5 则开启了多模态 Scaling 的新时代。更重要的是,它为通往更通用的、能够理解并与物理世界交互的通用人工智能,提供了一条坚实的、可度量的实践路径。”

Emu3.5 在超过 10 万亿 token 的大规模多模态数据基础上展开训练,其视频数据训练量时长实现从 15 年到 790 年的跃升,参数量从 8B 上升至 34B,揭示了原生多模态 Scaling 范式。其推理时,创新性地提出“离散扩散自适应”(Discrete Diffusion Adaptation,DiDA)技术,这一高效的混合推理预测方法,可以在不牺牲性能的前提下,将每张图片的推理速度提升了近 20 倍,首次使自回归模型的生成效率媲美顶尖的闭源扩散模型。

王鑫龙介绍:“EMU3.5 突破了原生多模态的大规模预训练、大规模强化学习和高效推理,指出了多模态世界模型的一种简单易扩展的 Scaling 范式。”

EMU3.5 模型开始具备学习现实世界物理动态与因果的能力,为探索通用世界模型奠定了坚实的基础。它具备三大重要特点。一是从意图到规划,模型能够理解高层级的人类意图(如“如何制作一艘宇宙飞船”“如何做咖啡拉花”),并自主生成详细、连贯的多步骤行动路径。二是动态世界模拟,模型在统一框架内无缝融合了对世界的理解、规划与模拟,能够预测物理动态、时空演化和长时程因果关系。三是可成为泛化交互基础:其涌现出的因果推理和规划能力,为 AI 与人类及物理环境进行泛化交互(如具身操控)提供了关键的认知基础。

这些特点这让新一代世界模型具备从“理解”到“行动”的全面智能能力,可生成行动指南、进行图文编辑,并且同时具备物理直觉可开展多场景的探索。

Emu3.5 能以精准可控的方式完成文图生成

展现出基于视觉理解的图像生成能力

Emu3.5 的多模态指导能力:输入“如何做芹菜饺子”,模型输出有步骤的图文指导

Emu3.5 在多模态指导中展现出卓越的时序一致性与步骤推理能力,让复杂任务的执行过程一目了然。多模态叙事能力上,Emu 3.5 能围绕任意主题生成沉浸式的故事体验,释放无限想象力。此外模型可实现跨场景的具身操作,具备泛化的动作规划与复杂交互能力,并能在世界探索中保持长距离一致性与可控交互,兼顾真实与虚拟的动态环境,实现自由探索与精准控制。

Emu 3.5 能围绕任意主题生成沉浸式的体验,上面是宇航员在探索中遇到皮卡丘的故事

只需一句“叠衣服”的简单指令,Emu3.5 便能自主规划、拆解任务,并精确生成机器人完成一整套复杂的折叠动作

Emu3.5 能够完成复杂的图文编辑任务:进行时空变换后,依旧保持物体与场景的高度一致

同时,图文编辑方面,它既能通过自然语言实现任意指令的图片编辑与时空变换,也能以精准、智能、可控且富有创意的方式完成文图生成,让文字与视觉内容的融合更加自然与高保真。在基准测试中,Emu3.5 的表现超越了众多知名的闭源模型。

王仲远总结,以第一性原理看大模型未来,我们相信 AI 的下一次跃迁,将来自模型对现实世界的深层表征与可泛化行动指导的能力。我们期待与更多科研机构与产业伙伴一起,开创多模态世界大模型新范式,探索通往 AGI 的演进之路。

了解更多智源悟界·Emu3.5 可访问:https://zh.emu.world/

http://www.dtcms.com/a/550767.html

相关文章:

  • RAG_向量
  • 如何做网站收录求个a站
  • 南山建网站公司公司网站建站模板模板
  • 光伏项目如何高效施工?
  • 万年历网站做移动互联网网站建设
  • ROS2使用pixi在win10中的安装
  • 没后台的网站怎么做优化专业网站优化哪家好
  • 绍兴建设网站深圳市城乡和建设局网站首页
  • 做网站月薪10万温州网页制作
  • RTNETLINK answers: File exists问题分析
  • 网站建设 前沿文章iis 网站没有上传权限
  • 怎么用服务器做局域网网站网站推广排名收费
  • 镇江久一信息技术有限公司天津seo网站排名优化公司
  • Origin绘制美观的极坐标面积图
  • 自适应网站价格农产品网站开发技术方案与设施
  • 网站程序员网站建设多少钱鞋
  • 牡丹江市建设行业协会网站屯昌第三方建站哪家好
  • 做市场调查分析的网站下载软件大全
  • 申请一个网站天河网站建设推广
  • 【深度学习3】线性回归的简洁实现
  • 招商网站建设哪家好济南中桥信息做的小语种网站怎么样
  • 可视化建网站网站关键词和描述
  • 无人机巡护青海湖,AI如何守护西部生态与能源安全?
  • wordpress短代码可视化常州seo网络推广
  • 网站免费做app专门做萝莉视频网站
  • 呼和浩特网站建设SEO优化做网站的目的是什么
  • python进阶教程3:内存池、内存分配优化
  • 网站流程图容桂品牌网站建设优惠
  • 程序与工业:从附庸到共生,在AI浪潮下的高维重构
  • 免费的制作手机网站平台wordpress dux主题设置首页