AI的下一个竞争焦点——世界模型
当前,AI 领域的竞争焦点正从单一模态的大模型转向能够综合理解和预测物理世界的世界模型(World Model)。这一技术被视为实现通用人工智能(AGI)的关键路径,其核心目标是让 AI 系统构建对现实世界的抽象表征,从而支持长时序推理、多模态交互和复杂决策。
一、技术突破:从静态模拟到动态交互
1. 多模态场景生成能力的飞跃
-
昆仑万维 Matrix-3D:作为中国首款全自研世界模型,Matrix-3D 实现了 “一图生万境” 的突破。仅需单张图片即可生成360° 自由探索的 3D 场景,支持实时互动视频生成,场景范围比李飞飞 World Labs 扩大 3 倍以上。其核心技术包括:
- 全景视频中间表达:采用全景图像(覆盖 360° 水平视角)作为生成基础,解决传统透视图的边界效应问题。
- 双框架优化:前馈重建框架(10 秒快速生成)与 3DGS 优化框架(高精度渲染)结合,兼顾速度与质量。
- Matrix-Pano 数据集:包含 11.6 万条全景视频、2200 万帧画面,覆盖 504 个室内外场景,为模型训练提供高质量数据支撑。
-
谷歌 Genie 3:全球首个支持实时交互的世界模型,可生成每秒 24 帧的 720p 动态场景,持续数分钟保持一致