当前位置：首页 > news >正文

李飞飞 world labs最新文章 RTFM: A Real-Time Frame Model 翻译及思考

news 2025/10/18 12:59:07

2025年10月16日，李飞飞的world labs团队新发了一篇关于世界模型的文章，我们一起来读一下。

首先是原文链接：https://www.worldlabs.ai/blog/rtfm

在大模型帮助下的翻译内容：

RTFM：实时帧模型（Real-Time Frame Model）

2025 年 10 月 16 日

RTFM A Real-Time Frame Model

今日，我们正式发布 RTFM—— 一款全新的实时生成式世界模型（real-time generative World Model）。RTFM（全称 Real-Time Frame Model，实时帧模型）可在你与之交互的过程中实时生成视频，可用于探索生成的 3D 世界和现实世界场景。目前 RTFM 已作为研究预览版开放。

RTFM 的设计围绕三大核心原则展开：

高效性（Efficiency）：仅需单块 H100 GPU，RTFM 就能以交互式帧率进行推理。
可扩展性（Scalability）：RTFM 具备随数据量和计算资源增加而扩展的能力。它无需依赖显式 3D 表示就能对 3D 世界进行建模，并采用通用的端到端架构，从大规模视频数据中学习。
持久性（Persistence）：你可以与 RTFM 进行不间断交互，其构建的世界永远不会被遗忘。它能建模出一个持久的 3D 世界，即便你转过身去，这个世界也不会消失。

你可点击此处https://rtfm.worldlabs.ai/，在浏览器中体验 RTFM 的演示版本。

RTFM 能基于单张图像渲染生成 3D 场景。单个模型就能处理多种场景类型、视觉风格及特效，包括反射、光泽表面、阴影和镜头眩光。

【csdn上传视频太麻烦了，所以视频还请移步原文链接，下同】

世界模型对计算资源需求极高

我们对未来充满期待：届时强大的世界模型能够实时重建、生成并模拟出持久、可交互且物理精确的世界。这类模型将改变从媒体到机器人技术等多个行业，其影响还将延伸至更多领域。过去一年，这项新兴技术迎来了蓬勃发展期，生成式视频建模的技术进展已被应用于生成式世界建模领域。

随着该技术的发展，有一点愈发明确：生成式世界模型对计算资源的需求极高，远超如今的大型语言模型（LLMs）。若我们直接将现代视频架构应用于该问题，生成 60 帧 / 秒的交互式 4K 视频流，每秒需生成超过 10 万个 token（约相当于《弗兰肯斯坦》或《哈利・波特》第一部的文本长度）；若要在长达一小时甚至更久的交互过程中保持生成内容的持久性，则需要处理超过 1 亿个 token 的上下文。以目前的计算基础设施来看，这既不现实，在经济上也不可行。

我们深信 “惨痛教训”（The Bitter Lesson）的理念：在人工智能领域，那些能随计算资源增加而平稳扩展的简单方法往往会占据主导地位，因为它们能受益于计算成本的指数级下降 —— 而正是这种下降趋势，在数十年间推动了整个科技领域的发展。对于未来计算成本持续下降的趋势，生成式世界模型完全能够从中受益。

这就引出一个很自然的问题：生成式世界模型是否受限于当前的硬件条件？还是说，如今已有办法预览这项技术？

高效性：拉近未来的距离

我们着手设定了一个简单目标：设计一款生成式世界模型，它要足够高效，能在当下部署，同时又能随计算资源的增加而持续扩展。我们的宏伟目标是打造这样一款模型：仅需单块 H100 GPU 即可部署，既能保持交互式帧率，又能确保无论交互多久，所构建的世界都能持久存在。实现这些约束条件，就能让我们 “拉近未来”—— 在当下提供一种体验，让人们得以窥见这类模型未来可能实现的成就。

这一目标影响了我们整个系统的设计，从任务设定到模型架构均涵盖在内。我们对推理栈的各个部分都进行了精心优化，应用了架构设计、模型蒸馏和推理优化领域的最新进展，旨在让运行于当下硬件的模型，能以最高保真度预览未来模型的效果。

可扩展性：作为习得式渲染器的世界模型

传统 3D 图形管线采用显式 3D 表示（如三角形网格、高斯喷溅）对世界进行建模，随后通过渲染生成 2D 图像。它们借助手工设计的数据结构和算法，对 3D 几何结构、材质、光照、阴影、反射等进行建模。数十年来，这些方法一直是计算机图形学领域可靠的主力技术，但它们无法轻松扩展以应对更多数据和计算资源。

RTFM 采用了一种不同的方法。它基于生成式视频建模的最新进展，训练出一个单一神经网络：该网络输入场景的一张或多张 2D 图像，无需构建任何显式的世界 3D 表示，就能从新视角生成该场景的 2D 图像。RTFM 的实现形式是自回归扩散 Transformer（autoregressive diffusion transformer），可对帧序列进行操作；它在大规模视频数据上进行端到端训练，能够以先前帧为条件预测下一帧。

RTFM 可被视为一款习得式渲染器（learned renderer）。它的输入帧会被转换为神经网络激活值（即 KV 缓存，KV cache），这些激活值能隐式表示世界；在生成新帧时，网络会（通过注意力机制）读取这种表示，生成与输入视角一致的世界新视角。将输入视角转换为世界表示，再从这些表示中渲染新帧的机制，均是从数据中通过端到端方式习得，而非手工设计。RTFM 只需在训练过程中观察反射、阴影等复杂特效，就能学会对它们进行建模。

通过将 RTFM 与 Marble 技术相结合，我们可基于单张图像创建 3D 世界。

RTFM 能渲染光照、反射等复杂特效，这些能力均通过数据端到端习得。

在计算机视觉领域，重建（在现有视角间进行插值）与生成（生成输入视角中未呈现的新内容）历来被视为两个独立问题，而 RTFM 模糊了二者之间的界限。当为 RTFM 提供大量输入视角时，由于任务约束性更强，它会倾向于进行重建；当输入视角较少时，它则不得不超出这些视角进行外推。

我们可利用 RTFM，基于短视频渲染现实世界场景。

（RTFM 对钢琴的光泽表面进行了建模）

持久性：作为空间记忆的带位姿帧

现实世界的一个关键属性是持久性：当你移开视线时，世界不会消失或发生彻底变化；无论你离开多久，总能回到此前去过的位置。

这对自回归帧模型而言一直是个挑战。这类模型仅通过 2D 图像帧隐式表示世界，因此要实现持久性，就需要模型在用户探索世界的过程中，对不断增加的帧集合进行推理。这意味着生成每一新帧的成本都比前一帧更高，因此模型对世界的记忆实际上受限于其计算预算。

RTFM 通过将每一帧建模为在 3D 空间中具有位姿（位置和朝向，pose）的形式，规避了这一问题。我们通过向模型输入待生成帧的位姿来查询模型，从而生成新帧。因此，模型对世界的记忆（包含在帧中）具有空间结构；它将带有位姿的帧用作空间记忆（spatial memory）。这为模型赋予了一个弱先验假设 —— 即它所建模的世界是三维欧几里得空间 —— 同时又不强制它显式预测该世界中物体的 3D 几何结构。

具备上下文切换（context juggling）功能的 RTFM，能够在大型场景中持久保留几何结构，同时保持高效性。

（使用 RTFM 渲染的、带有光泽反射效果的大厅场景）

RTFM 的空间记忆使其具备无界持久性（unbounded persistence）。生成新帧时，我们会从带有位姿的帧的空间记忆中检索附近的帧，为模型形成定制化上下文（custom context）。我们将这种技术称为 “上下文切换”（context juggling）：模型在空间的不同区域生成内容时，会使用不同的上下文帧。这使得 RTFM 能够在长时间交互过程中持久保留大型世界，而无需对不断增加的帧集合进行推理。

展望未来

RTFM “拉近了未来”，让人们得以窥见未来世界模型在当下硬件上的部署效果；同时，它还确立了一种技术思路 —— 将世界模型视为通过数据端到端习得的渲染器。

RTFM 的扩展存在许多令人振奋的方向。我们可以增强它，使其能够建模动态世界，并允许用户与生成的世界进行交互。它也非常适合扩展 —— 我们当前的模型以单块 H100 GPU 上的实时推理为目标，但我们预计，针对更大推理预算设计的更大规模模型将持续改进。

如果尚未尝试，不妨现在就体验 RTFM。

以下是体验和思考部分：

以下是基于官网提供的链接，官方固定的几个场景之一，把目标内容移出镜头再移回来之后的场景，可以看到，画面的细节还是有一些变化的，比如说第一组的地板花纹，毛绒地毯的细节，第二组到时保持的还蛮好。

整体有点类似，一个记忆力很强的人可以记住空间里边所有细节，但是特别细节的部分，难免会产生些许的误差，但同时，对于物理环境中金属应该有什么表现，镜子有什么物理特性，透视的原理等有比较好的认知。

（但怎么感觉还是有点类似高斯建模后通过生成模型来还原细节...）

这篇文章核心理念是打破生成式 3D 世界模型的 “高门槛僵局”，让普通人也能在现有硬件上体验 “能持久交互的虚拟世界”，根据目前技术的发展，h100的算力再过三四年普通高端电脑跑的动也是很有机会的。

之前想生成实时 3D 场景，要么得一堆高端 GPU 撑算力，要么交互久了 “世界就消失”，还得手工搭建复杂 3D 模型。而 RTFM 靠三个关键突破解决了这些问题：

一是效率高，单块 H100 GPU 就能让 3D 场景实时跑起来，不用依赖天价算力（虽然h100也挺贵的）；

二是能 “记牢” 世界，给每帧标上 3D 位置和方向，就算离开再回来，之前探索的场景也不会丢，不用反复计算所有画面；

三是不用手工做 3D 模型，靠学大量视频就能自己掌握光影、反射这些效果，甚至从单张 2D 图就能生成可探索的 3D 世界，还能灵活补全没见过的视角。

这不仅让 “实时 3D 交互” 离普通人更近，还能给游戏、媒体、机器人导航等行业提供新工具，比如游戏能快速做开放世界，机器人能更好感知 3D 空间，算是把未来的 3D 技术 “拉到了现在能用的水平”。

对了，前一段时间腾讯混元也发了一个“世界模型”，一张图片就可以进去探索，当时我还申请了试用，然后看了下，效果的确还差点意思。

从技术层面上来看，两者至少从理念上差异还挺大。

对比维度	RTFM（李飞飞团队）	腾讯混元 3D 模型（含 Voyager / 工业级 / 轻量化系列）
技术路径核心	隐式 3D 建模：无显式几何结构，基于自回归扩散 Transformer，通过 KV 缓存隐式表征世界	显式 + 混合建模：采用 “Transformer+3D CNN” 架构，通过几何 - 纹理解耦生成、深度预测输出 3D 点云 / 网格，支持物理引擎对接
核心能力侧重	1. 单 H100 GPU 实现交互式帧率实时渲染 2. 空间记忆机制（带位姿帧 + 上下文切换）实现无界持久性3. 模糊重建与生成边界	1. 工业级高精度建模（Chamfer Distance 提升 30%，三角面片误差＜0.01mm） 2. 长距离漫游一致性（支持 800 米 + 无限扩展） 3. 轻量化部署（手机端 8GB 内存可运行）
硬件适配范围	聚焦高端单卡：仅支持单块 H100 GPU（交互级帧率需求）	全场景覆盖： - 工业级：A100/H100 集群（48GB + 显存） - 消费级：RTX 3060/4080（8GB + 显存） - 移动端：骁龙 8 Gen3/M1 Pro（6GB + 内存）
输入输出形态	输入：单张 2D 图 / 短视频输出：实时交互视频流（无固定 3D 文件，随视角动态生成）	输入：文 / 图 / 草图 / 多视图输出：可编辑 3D 资产（GLB/OBJ/USDZ）、3D 点云、物理仿真文件，兼容 Unity/Blender
核心定位与目标	前沿技术验证：以 “当前硬件预览未来世界模型” 为目标，探索 AI 对 3D 空间的持久感知能力	产业落地工具：降低 3D 生产门槛，覆盖工业建模（《流浪地球 3》道具）、游戏资产（《王者荣耀》角色）、AR 教育等场景，将建模周期从 5-10 天压缩至分钟级
关键技术创新点	上下文切换（context juggling）：通过空间邻近帧检索优化计算，平衡持久性与效率	1. 原生 3D 重建闭环（视频直接导出点云，无需后处理） 2. 动态 FP8 量化（显存占用降低 35%） 3. 物理引擎集成（支持布料 / 流体仿真）

如果文章介绍的视频录屏确实如此实现，那么 RTFM 对‘世界模型’的探索更显纯粹 —— 无需显式定义‘物体对象’，却能通过帧序列的空间关联，间接呈现世界中物体的坐标关系，还能复现水的反射折射等物理规律的视觉表现（虽暂未看到对动态物体的建模），基本可视为世界模型的雏形。只是当前对 H100 算力的依赖、场景精度的保真度，仍有较大提升空间。

这一思路甚至能启发 3D 游戏引擎的 AI 变革：未来或许会出现‘AI 生成可探索世界’的新游戏生态，改变内容生产形态。当然，这一切的前提是，RTFM 的技术路径被验证可靠，能吸引更多人才参与探索，推动技术落地与优化。

查看全文

http://www.dtcms.com/a/496502.html