当前位置: 首页 > news >正文

World Labs 的核心技术介绍:生成持久、可导航的 3D 世界

World Labs 在其 2025 年 9 月 16 日发布的博客文章《Generating Bigger and Better Worlds》中,分享了其在空间智能(spatial intelligence)领域的最新进展。该公司专注于推动生成式 AI 在 3D 世界构建上的前沿应用,核心技术是通过一个先进的生成模型,从图像或文本提示生成持久、可导航且可控的 3D 环境。该模型强调一致性、规模化和风格多样性,标志着从静态 2D 生成向动态 3D 世界构建的跃进。下面我将分析并介绍其核心技术要点,包括模型架构、关键创新、输出格式及应用生态。

1. 核心生成模型:从提示到持久 3D 世界的端到端生成
  • 输入与输出机制:模型接受图像或文本提示作为输入,输出一个完整的 3D 世界。该过程强调“持久性”(persistence),即生成的 3D 环境不会随时间变化、变形或出现不一致(如光影或几何错误)。用户可以无限期探索世界,无时间限制。
  • 技术基础:虽然文章未透露底层架构细节(如扩散模型或 NeRF 变体),但从输出质量推测,它可能结合了生成对抗网络(GAN)和神经辐射场(NeRF)或其高效变体(如 Gaussian Splatting),以实现高效的 3D 几何重建。模型专注于环境生成(environments),而非孤立物体(如人物或宠物),这避免了复杂的人体建模挑战,转而优化大规模场景的几何一致性。
  • 创新点
    • 几何优化:相较前代,生成的 3D 几何更“干净”(cleaner),支持自由视点导航(free viewpoint navigation)。它超越了传统深度图(depth maps)或点云(point clouds)的局限,提供更丰富的几何复杂度和完整性,用户可在浏览器中“看穿”输入视图背后的内容,实现零成本交互。
    • 规模扩展:单个生成的世界已达“房间规模”(room-sized),通过风格和几何一致性,支持无缝组合多个生成片段构建更大场景。这解决了“持久 3D 几何大规模生成”的难题,适用于需要拼接、编辑或堆叠的流程。
2. 风格多样性与迭代能力
  • 风格提升:模型能将各种输入“提升”到 3D,包括平面卡通、动漫或高保真现实主义图像。用户可自由迭代外观和感觉(look and feel),探索从超现实到抽象的创意范围。
  • 技术实现:这可能依赖于条件生成(conditional generation)机制,如 CLIP-like 嵌入来捕捉风格提示,确保输出在保持输入本质的同时扩展到 3D 空间。文章强调,这种多样性开启了从视觉创作到游戏开发的广泛可能性。
3. 输出与集成生态:Gaussian Splats 与 Spark 渲染库
  • 导出格式:生成的 3D 世界可导出为 Gaussian Splats(高斯溅射),这是一种高效的 3D 表示方法,使用高斯分布模拟点云,支持实时渲染和编辑。Gaussian Splats 比传统网格(meshes)更轻量,适合下游项目如游戏或交互内容。
  • Spark 渲染库:World Labs 开源的 Spark 库是核心生态组成部分,它将 Gaussian Splats 无缝集成到 Three.js(WebGL 框架)中,支持桌面、笔记本、移动设备和 VR 头显的高效渲染。这降低了 3D 开发的门槛,用户无需专业硬件即可构建 Web-based 3D 体验。
  • Marble 平台:作为有限访问的 Beta 预览(marble.worldlabs.ai),Marble 提供模型的即时访问,用户可查看、创建并导出世界。它不仅是测试床,还展示了技术在实际工作流中的应用,如电影布景规划、VR 故事讲述或商业场景模拟。
4. 优势与潜在影响
  • 一致性与可控性:模型的几何和风格一致性是最大亮点,解决了生成式 AI 在 3D 中的常见痛点(如不稳定变形),使之适用于专业工作流。例如,用户反馈显示,它将“数周的建模”缩短至“数分钟”,并提供全 3D 空间控制。
  • 局限性:当前聚焦环境而非物体,适合建筑、景观或抽象场景;未来可能扩展到更复杂交互。
  • 更广泛影响:该技术预示着生成式 AI 在元宇宙、游戏和影视中的革命潜力。通过组合生成,它支持“大型记忆”场景构建,激发从创意迭代到商业应用的创新(如 VR 电影或交互广告)。

总体而言,World Labs 的核心技术代表了 3D 生成的“下一站”:从零散视图到可控世界的转变。它通过 Gaussian Splats 和 Spark 等工具构建了一个开放生态,邀请开发者参与迭代。文章结尾呼吁用户加入 Marble 探索,并招聘人才,显示该项目仍处于早期快速发展阶段。


文章转载自:

http://JhZkY7TB.kngqd.cn
http://RuxxrRAv.kngqd.cn
http://WmkBZrDQ.kngqd.cn
http://qn7rBe01.kngqd.cn
http://yFHUMv2j.kngqd.cn
http://YPrajPQ2.kngqd.cn
http://njmA6xV5.kngqd.cn
http://8Qd5NhVi.kngqd.cn
http://b1cN7opl.kngqd.cn
http://nhxhrKRF.kngqd.cn
http://meDPS19T.kngqd.cn
http://dgzuTOyQ.kngqd.cn
http://ICjtsftw.kngqd.cn
http://tIOrB3TY.kngqd.cn
http://g7SyljU7.kngqd.cn
http://I5KUtoBO.kngqd.cn
http://nUSLhZcJ.kngqd.cn
http://o5x64g21.kngqd.cn
http://JuM6q5Ms.kngqd.cn
http://DWR596hG.kngqd.cn
http://J4x6QLAs.kngqd.cn
http://gzXKGLAN.kngqd.cn
http://XFT0Pl91.kngqd.cn
http://VX6dpdT8.kngqd.cn
http://pEg4GQm5.kngqd.cn
http://9b4Sw6u3.kngqd.cn
http://gMPYGL5F.kngqd.cn
http://0JLP0uNs.kngqd.cn
http://VMBxyVdx.kngqd.cn
http://VGyrm4uv.kngqd.cn
http://www.dtcms.com/a/388273.html

相关文章:

  • websocket如何推送最新日志
  • 使用Docker部署bewCloud轻量级Web云存储服务
  • web Service介绍
  • Web 架构中的共享存储:NFS 部署与用户压缩
  • RuoYi整合ZLM4j+WVP
  • @CrossOrigin的作用
  • Tree-shaking【前端优化】
  • Scikit-learn Python机器学习 - 分类算法 - 随机森林
  • 深入浅出Java中的Happens-Before原则!
  • centos7更换yum源
  • [特殊字符] 认识用户手册用户手册(也称用户指南、产品手册)是通过对产品功能的清
  • Codex 在 VS Code/Cursor 的插件基础配置
  • 前端Web案例-登录退出
  • Redis学习------------缓存优化
  • openfeigin 跨服务调用流程 源码阅读
  • 运动手环心率监测:原理、可靠性与市场顶尖之选全解析​​
  • 端到端智驾测试技术论文阅读
  • Frank-Wolfe算法:深入解析与前沿应用
  • GPT-5-Codex CLI保姆级教程:获取API Key配置与openai codex安装详解
  • 代码优化测试
  • 深度学习基础:PyTorch张量创建与操作详解
  • 7 大文献综述生成工具 2025 实测推荐
  • 红黑树 详解
  • 第十六章 Arm C1-Premium核心调试系统深度解析
  • Python压缩数据文件读写完全指南:从基础到高并发实战
  • HTTP/1.0 与 HTTP/2.0 的主要区别
  • 颜群JVM【02】JVM运行时的内存区域
  • 自定义Grafana错误率面板No Data问题排查
  • 深入剖析C++内存模型:超越原子性的多线程编程基石
  • 彻底禁用移动端H5页面默认下拉刷新功能