World Labs 的核心技术介绍:生成持久、可导航的 3D 世界
World Labs 在其 2025 年 9 月 16 日发布的博客文章《Generating Bigger and Better Worlds》中,分享了其在空间智能(spatial intelligence)领域的最新进展。该公司专注于推动生成式 AI 在 3D 世界构建上的前沿应用,核心技术是通过一个先进的生成模型,从图像或文本提示生成持久、可导航且可控的 3D 环境。该模型强调一致性、规模化和风格多样性,标志着从静态 2D 生成向动态 3D 世界构建的跃进。下面我将分析并介绍其核心技术要点,包括模型架构、关键创新、输出格式及应用生态。
1. 核心生成模型:从提示到持久 3D 世界的端到端生成
- 输入与输出机制:模型接受图像或文本提示作为输入,输出一个完整的 3D 世界。该过程强调“持久性”(persistence),即生成的 3D 环境不会随时间变化、变形或出现不一致(如光影或几何错误)。用户可以无限期探索世界,无时间限制。
- 技术基础:虽然文章未透露底层架构细节(如扩散模型或 NeRF 变体),但从输出质量推测,它可能结合了生成对抗网络(GAN)和神经辐射场(NeRF)或其高效变体(如 Gaussian Splatting),以实现高效的 3D 几何重建。模型专注于环境生成(environments),而非孤立物体(如人物或宠物),这避免了复杂的人体建模挑战,转而优化大规模场景的几何一致性。
- 创新点:
- 几何优化:相较前代,生成的 3D 几何更“干净”(cleaner),支持自由视点导航(free viewpoint navigation)。它超越了传统深度图(depth maps)或点云(point clouds)的局限,提供更丰富的几何复杂度和完整性,用户可在浏览器中“看穿”输入视图背后的内容,实现零成本交互。
- 规模扩展:单个生成的世界已达“房间规模”(room-sized),通过风格和几何一致性,支持无缝组合多个生成片段构建更大场景。这解决了“持久 3D 几何大规模生成”的难题,适用于需要拼接、编辑或堆叠的流程。
2. 风格多样性与迭代能力
- 风格提升:模型能将各种输入“提升”到 3D,包括平面卡通、动漫或高保真现实主义图像。用户可自由迭代外观和感觉(look and feel),探索从超现实到抽象的创意范围。
- 技术实现:这可能依赖于条件生成(conditional generation)机制,如 CLIP-like 嵌入来捕捉风格提示,确保输出在保持输入本质的同时扩展到 3D 空间。文章强调,这种多样性开启了从视觉创作到游戏开发的广泛可能性。
3. 输出与集成生态:Gaussian Splats 与 Spark 渲染库
- 导出格式:生成的 3D 世界可导出为 Gaussian Splats(高斯溅射),这是一种高效的 3D 表示方法,使用高斯分布模拟点云,支持实时渲染和编辑。Gaussian Splats 比传统网格(meshes)更轻量,适合下游项目如游戏或交互内容。
- Spark 渲染库:World Labs 开源的 Spark 库是核心生态组成部分,它将 Gaussian Splats 无缝集成到 Three.js(WebGL 框架)中,支持桌面、笔记本、移动设备和 VR 头显的高效渲染。这降低了 3D 开发的门槛,用户无需专业硬件即可构建 Web-based 3D 体验。
- Marble 平台:作为有限访问的 Beta 预览(marble.worldlabs.ai),Marble 提供模型的即时访问,用户可查看、创建并导出世界。它不仅是测试床,还展示了技术在实际工作流中的应用,如电影布景规划、VR 故事讲述或商业场景模拟。
4. 优势与潜在影响
- 一致性与可控性:模型的几何和风格一致性是最大亮点,解决了生成式 AI 在 3D 中的常见痛点(如不稳定变形),使之适用于专业工作流。例如,用户反馈显示,它将“数周的建模”缩短至“数分钟”,并提供全 3D 空间控制。
- 局限性:当前聚焦环境而非物体,适合建筑、景观或抽象场景;未来可能扩展到更复杂交互。
- 更广泛影响:该技术预示着生成式 AI 在元宇宙、游戏和影视中的革命潜力。通过组合生成,它支持“大型记忆”场景构建,激发从创意迭代到商业应用的创新(如 VR 电影或交互广告)。
总体而言,World Labs 的核心技术代表了 3D 生成的“下一站”:从零散视图到可控世界的转变。它通过 Gaussian Splats 和 Spark 等工具构建了一个开放生态,邀请开发者参与迭代。文章结尾呼吁用户加入 Marble 探索,并招聘人才,显示该项目仍处于早期快速发展阶段。