当前位置: 首页 > news >正文

UC Berkeley 开源大世界模型(LWM):多模态大模型领域世界模型技术新进展

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

文章目录

  • GPT多模态大模型与AI Agent智能体系列一百三十五
    • UC Berkeley 开源大世界模型(LWM):多模态大模型领域世界模型技术新进展
      • 更多技术内容
  • 总结

GPT多模态大模型与AI Agent智能体系列一百三十五

UC Berkeley 开源大世界模型(LWM):多模态大模型领域世界模型技术新进展

8.6.4世界模型
世界模型是人工智能领域内一个重要的研究方向,旨在通过建立对环境的精确表征和预测机制,让智能体能够理解和适应复杂多变的现实世界。这一概念由深度学习领域的先驱Yann LeCun提出,作为通往通用人工智能的路径之一。与OpenAI等机构所倡导的基于Transformer架构和大规模语言模型的自回归学习方式不同,世界模型学派主张智能体应能通过观察、交互及无监督学习来构建关于世界的常识性知识,进而实现对未知环境的适应和任务完成。世界模型通常包含以下关键模块:
(1)配置器(Configurator):负责协调和配置其他模块,扮演智能体中央指挥官角色。
(2)感知(Perception):处理外界信息,提取任务相关的环境状态。
(3)世界模型(World Model):估计感知未能捕捉到的环境状态信息,并预测未来状态,特别是基于智能体行动后的状态变化。
(4)角色(Actor):决定最佳行动方案。
(5)成本(Cost):计算智能体的不适值,以最小化未来成本为目标。
(6)短期记忆(Short Term Memory):追踪当前和预测的环境状态及其相关成本。
最初,世界模型的概念在机器人学和强化学习领域得到了广泛应用,特别是在Jurgen Schmidhuber等人于2018年发表的论文中,阐述了循环神经网络在促进策略演进中的作用。世界模型不仅仅是状态表征和状态转移模型的组合,它还涉及到对环境的动态预测,尤其是考虑到智能体的行动对其产生的影响。随着研究的深入,世界模型被分为多个类别,如视频生成、自动驾驶、通用智能体和机器人等领域。在视频生成领域,扩散模型逐渐成为主流技术,而Sora正是基于扩散模型的代表性成果。自动驾驶和机器人领域则更加侧重于利用世界模型进行实时环境感知和决策制定。世界模型对决策至关重要,因为它支持反事实推理,即在没有实际经验的情况下预测行动后果,这对于优化策略和减少现实世界中的试错成本尤为重要。Sora是OpenAI发布的一款视频生成模型,尽管它利用了Diffusion和Transformer模型来生成视频,但其生成能力受限于数据和物理规律的准确捕捉。Sora更多被视为一个视频生成工具,而非精确的世界模拟器,后者能够准确回答“如果……会怎样?”的问题。
Meta推出的V-JEPA(视频联合嵌入预测架构)是基于世界模型理论的一个重要进展。V-JEPA采用自监督学习,通过预测视频的缺失部分来学习抽象表示,展示了在视频理解上的高效性和灵活性。未来的研究将着眼于将V-JEPA扩展至视听结合,增强长期预测能力,并探索如何利用世界模型进行规划和决策,最终实现自主智能体(AMI)的目标。
世界模型的研究正处于快速发展阶段,面临着诸如因果推理、物理定律模拟、泛化能力、计算效率等挑战。克服这些挑战将推动世界模型成为构建更强大、更通用的人工智能系统的关键技术。接下来介绍两个优秀的世界模型开源项目:LWM和3D-VLA。
1.LWM
2024年2月,UC Berkeley开源了大世界模型(Large World Model,LWM),这是一个支持1M Token、1小时视频问答及视频图片生成的多模态自回归模型,相当于开源版的Gemini 1.5 Pro。LWM在paperswithcode网站研究趋势榜单中排名第一,显示出其在学术界和工业界的广泛关注和影响力。LWM具备与图像聊天、跨1M上下文检索事实、在1小时YouTube视频上回答问题以及从文本生成视频和图像的能力。这些功能使其在图像问答、长上下文处理和视频生成等方面与商用产品如谷歌Gemini相媲美,并且以开源形式提供。LWM开源地址是https://github.com/LargeWorldModel/LWM。
1)模型架构
LWM采用基于LLaMA-7B和RingAttention的自回归Transformer模型架构,支持高达1M Tokens的上下文序列。图像和视频帧通过VQGAN编码为视觉Tokens,与经过BPE编码的文本Tokens结合,统一送入LWM进行自回归Token预测,以支持理解和生成任务。
LWM采用Any-To-Any多模态任务训练,输入和输出Tokens的顺序反映了不同的训练数据格式,包括图像-文本、文本-图像、视频问答、文本-视频和纯文本问答等。特殊的分隔符用于区分图像和文本标记,并进行解码。在图像视频生成方面,LWM使用CFG(Classifier-Free Guidance)进行自回归采样,这是一种在文生图扩散模型中广泛使用的技术,可以进一步提升生成质量。
2)核心技术
LWM的核心技术之一是环注意力机制(RingAttention),这是一种窗口扩增方式,用于增强模型的长文本处理能力。RingAttention通过将长文本分成多个块,并在多个计算设备上进行序列并行处理,理论上允许模型扩展到无限长的上下文。RingAttention与FlashAttention结合使用,并通过Pallas框架进行优化,从而提高性能。这种机制使得每个设备的内存需求与块大小成线性关系,而与原始输入序列长度无关,消除了内存限制。
3)训练过程
LWM的训练分为两个阶段:渐进式的纯文本训练和多模态训练。第一阶段目标是建立一个能够处理长文本序列的语言模型,使用总计33B Token的Books3数据集进行训练,逐步将窗口扩增至1M。第二阶段是将视觉信息整合到模型中,使用VQGAN将图像和视频帧转换为Token,并与文本结合进行训练。在训练过程中,模型还会随机交换文本和视觉数据的顺序,以学习文本-图像生成、图像理解、文本-视频生成和视频理解等多种任务。
4)效果与性能
LWM在多模态相关能力方面表现出一定的优势,如在1小时时长视频问答中能够准确回答自己制作的视频和问题,而在图像视频生成方面也有一定的效果。然而,在图像通用问答(VQA)和富文本图像问答(Text-rich VQA)等基准测试中,LWM的表现并不突出,与SOTA模型相比存在较大差距。这可能归因于有限的文本图像和文本视频对齐训练,以及VQGAN Tokens在文本-图像对齐和OCR任务上的局限性。尽管如此,LWM作为一个开源模型,提供了一个有前途的方向,即基于VQ的视觉语言模型架构。通过更严格的训练和学习更好的Tokenizers,有望在未来提升其表现。
LWM的出现标志着在多模态人工智能领域的一大进步,尤其是其在视频理解和生成方面的突破,为未来智能系统提供了新的发展方向。然而,它也揭示了在处理复杂图像理解任务时的挑战,这需要更深入的研究和技术创新。

更多技术内容

更多技术内容可参见
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】。
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏

实战驱动,掌握大模型开发全流程

智能涌现与 AGI 前瞻,抢占技术高地

上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄


文章转载自:

http://qlcjtGEB.jsphr.cn
http://3NhjvVyz.jsphr.cn
http://39yT9MXG.jsphr.cn
http://XJM4WQmV.jsphr.cn
http://9n8p4bXq.jsphr.cn
http://jW26dgdm.jsphr.cn
http://bzmsWrF6.jsphr.cn
http://J2OX58qc.jsphr.cn
http://D48hkwy1.jsphr.cn
http://e5NPW9ec.jsphr.cn
http://7y2COaAX.jsphr.cn
http://qG69xS3E.jsphr.cn
http://5ZAnon6D.jsphr.cn
http://I5SUrB7o.jsphr.cn
http://5fDXqX8C.jsphr.cn
http://07SSgG44.jsphr.cn
http://r6DWcRuu.jsphr.cn
http://ls2ER0sz.jsphr.cn
http://1tPJ00bi.jsphr.cn
http://xqNSU7D0.jsphr.cn
http://OO7NvYLv.jsphr.cn
http://Meh95tl4.jsphr.cn
http://chBqItqY.jsphr.cn
http://URG21F2f.jsphr.cn
http://HCR8bNWd.jsphr.cn
http://FJRxCU6X.jsphr.cn
http://v22DBWUG.jsphr.cn
http://PLPTR3Fx.jsphr.cn
http://NiszsuUt.jsphr.cn
http://sAz9Flo1.jsphr.cn
http://www.dtcms.com/a/368286.html

相关文章:

  • 一次由CellStyle.hashCode值不一致引发的HashMap.get返回null问题排查
  • 【Java鱼皮】智能协同云图库项目梳理
  • 固定资产报废在BPM或OA中审批,再通过接口传到SAP
  • Redis-持久化
  • 寻找AI——初识3D建模AI
  • Playwright MCP Server - FAQ
  • Linux系统TCP/IP网络参数优化
  • 多模联邦查询网关:ABP + Trino/Presto 聚合跨源数据
  • 基于单片机智能家居环境检测系统/室内环境检测设计
  • 23种设计模式-模板方法模式
  • 容器学习day05_k8s(二)
  • ES04-批量写入
  • 大数据毕业设计推荐:基于Spark的零售时尚精品店销售数据分析系统【Hadoop+python+spark】
  • 企业数字安全双保险:终端安全与数据防泄漏如何构筑全方位防护体系
  • 信息系统安全保护措施文件方案
  • 【C++】 list 容器模拟实现解析
  • 鹿客发布旗舰新品AI智能锁V6 Max,打造AI家庭安全领域新标杆
  • 【GEOS-Chem 输入数据】使用 AWS CLI 访问 GEOS-Chem 数据
  • 23种设计模式——原型模式 (Prototype Pattern)详解
  • 《Cocos Creator的2D、3D渲染使用记录》
  • Conda 使用py环境隔离
  • 数据结构:栈和队列力扣算法题
  • 深度学习之第八课迁移学习(残差网络ResNet)
  • 数据一致性、AI样本可追溯性与数据治理
  • 基于MATLAB的CNN大气散射传播率计算与图像去雾实现
  • 【Redis】初识 Redis 与基础数据结构
  • 分布式常见面试题整理
  • “卧槽,系统又崩了!”——别慌,这也许是你看过最通俗易懂的分布式入门
  • 数字时代的 “安全刚需”:为什么销售管理企业都在做手机号码脱敏
  • 乐观并发: TCP 与编程实践