当前位置：首页 > news >正文

World Labs 的核心技术介绍：生成持久、可导航的 3D 世界

news 2025/9/18 10:06:22

World Labs 在其 2025 年 9 月 16 日发布的博客文章《Generating Bigger and Better Worlds》中，分享了其在空间智能（spatial intelligence）领域的最新进展。该公司专注于推动生成式 AI 在 3D 世界构建上的前沿应用，核心技术是通过一个先进的生成模型，从图像或文本提示生成持久、可导航且可控的 3D 环境。该模型强调一致性、规模化和风格多样性，标志着从静态 2D 生成向动态 3D 世界构建的跃进。下面我将分析并介绍其核心技术要点，包括模型架构、关键创新、输出格式及应用生态。

1. 核心生成模型：从提示到持久 3D 世界的端到端生成

输入与输出机制：模型接受图像或文本提示作为输入，输出一个完整的 3D 世界。该过程强调“持久性”（persistence），即生成的 3D 环境不会随时间变化、变形或出现不一致（如光影或几何错误）。用户可以无限期探索世界，无时间限制。
技术基础：虽然文章未透露底层架构细节（如扩散模型或 NeRF 变体），但从输出质量推测，它可能结合了生成对抗网络（GAN）和神经辐射场（NeRF）或其高效变体（如 Gaussian Splatting），以实现高效的 3D 几何重建。模型专注于环境生成（environments），而非孤立物体（如人物或宠物），这避免了复杂的人体建模挑战，转而优化大规模场景的几何一致性。
创新点：
- 几何优化：相较前代，生成的 3D 几何更“干净”（cleaner），支持自由视点导航（free viewpoint navigation）。它超越了传统深度图（depth maps）或点云（point clouds）的局限，提供更丰富的几何复杂度和完整性，用户可在浏览器中“看穿”输入视图背后的内容，实现零成本交互。
- 规模扩展：单个生成的世界已达“房间规模”（room-sized），通过风格和几何一致性，支持无缝组合多个生成片段构建更大场景。这解决了“持久 3D 几何大规模生成”的难题，适用于需要拼接、编辑或堆叠的流程。

2. 风格多样性与迭代能力

风格提升：模型能将各种输入“提升”到 3D，包括平面卡通、动漫或高保真现实主义图像。用户可自由迭代外观和感觉（look and feel），探索从超现实到抽象的创意范围。
技术实现：这可能依赖于条件生成（conditional generation）机制，如 CLIP-like 嵌入来捕捉风格提示，确保输出在保持输入本质的同时扩展到 3D 空间。文章强调，这种多样性开启了从视觉创作到游戏开发的广泛可能性。

3. 输出与集成生态：Gaussian Splats 与 Spark 渲染库

导出格式：生成的 3D 世界可导出为 Gaussian Splats（高斯溅射），这是一种高效的 3D 表示方法，使用高斯分布模拟点云，支持实时渲染和编辑。Gaussian Splats 比传统网格（meshes）更轻量，适合下游项目如游戏或交互内容。
Spark 渲染库：World Labs 开源的 Spark 库是核心生态组成部分，它将 Gaussian Splats 无缝集成到 Three.js（WebGL 框架）中，支持桌面、笔记本、移动设备和 VR 头显的高效渲染。这降低了 3D 开发的门槛，用户无需专业硬件即可构建 Web-based 3D 体验。
Marble 平台：作为有限访问的 Beta 预览（marble.worldlabs.ai），Marble 提供模型的即时访问，用户可查看、创建并导出世界。它不仅是测试床，还展示了技术在实际工作流中的应用，如电影布景规划、VR 故事讲述或商业场景模拟。

4. 优势与潜在影响

一致性与可控性：模型的几何和风格一致性是最大亮点，解决了生成式 AI 在 3D 中的常见痛点（如不稳定变形），使之适用于专业工作流。例如，用户反馈显示，它将“数周的建模”缩短至“数分钟”，并提供全 3D 空间控制。
局限性：当前聚焦环境而非物体，适合建筑、景观或抽象场景；未来可能扩展到更复杂交互。
更广泛影响：该技术预示着生成式 AI 在元宇宙、游戏和影视中的革命潜力。通过组合生成，它支持“大型记忆”场景构建，激发从创意迭代到商业应用的创新（如 VR 电影或交互广告）。

总体而言，World Labs 的核心技术代表了 3D 生成的“下一站”：从零散视图到可控世界的转变。它通过 Gaussian Splats 和 Spark 等工具构建了一个开放生态，邀请开发者参与迭代。文章结尾呼吁用户加入 Marble 探索，并招聘人才，显示该项目仍处于早期快速发展阶段。