李飞飞谈 AI 世界模型:技术内涵与应用前景
a16z(Andreessen Horowitz)作为一家在全球风险投资领域颇具影响力的公司,管理着大量资金,其普通合伙人多来自成功科技企业的前创始人、高管等,在数据、人工智能、生物、加密等多领域拥有专业知识。a16z 致力于连接科技生态系统中的各类人才与企业,为创业者提供广泛资源与专业支持。此次对李飞飞的访谈,发生于人工智能技术飞速发展的时期,属于 a16z 常规的行业前沿对话范畴。
参与此次访谈的人物包括李飞飞(World Labs 创始人兼 CEO、AI 领域领军人物)、Erik Torenberg(a16z 合伙人)以及 Martin Casado(a16z 合伙人,也是李飞飞创立 World Labs 时的第一位投资者)。
此次访谈是 a16z 探索人工智能前沿趋势、挖掘创新技术的重要举措。李飞飞在计算机视觉、数据驱动的 AI 发展等方面成果斐然,创立 World Labs 专注开发下一代 AI 系统,其理念和实践备受瞩目。
李飞飞教授指出,语言是一种 “有损压缩” 的认知方式。以大语言模型为代表的当前 AI 技术,虽然在语言理解与生成方面取得显著进展,但语言在抽象世界的过程中,丢失了丰富的物理与感知信息。
现实世界并非由单词、语法和文本构成,而是充满物理、运动与三维结构。例如,DNA 的双螺旋结构、富勒烯的三维分子结构等,仅通过文字难以让人深刻理解其复杂与精妙,必须借助三维模型构建才能直观把握。因此,单纯依赖语言模型无法让 AI 真正理解和构建世界。
她强调,空间智能是智能不可或缺的组成部分,无论是现实的三维物理世界,还是虚拟的数字宇宙,空间感知都是人类进化过程中更为古老而本能的能力。
李飞飞分享亲身经历,数年前因角膜受伤短暂丧失立体视觉,期间她在熟悉街道驾车时,难以判断与旁车距离,这深刻体现了三维感知系统对人类行动的基础作用。对 AI 而言,若无法建立三维世界模型,便无法真正理解、操作或重建现实世界。这种三维智能的缺失,也是机器人和具身智能系统发展受限的关键因素。
NeRF 在世界模型构建中扮演着非常关键的角色,它主要负责从二维图像数据生成高质量的三维场景表示。简单来说,NeRF 通过构建一个神经网络,将空间中的点坐标以及观察视角作为输入,输出该点在特定视角下的颜色和透明度信息,从而实现从多个二维图像合成逼真的三维场景。这种技术能够精确地捕捉物体的几何形状和外观细节,对于重建复杂的三维环境和物体具有重要意义。
Gaussian Splatting则是一种在三维场景渲染和表示方面具有独特优势的技术。它将空间中的每一个点看作是一个个带有颜色和位置信息的小圆球(高斯分布),通过这些小圆球的集合来近似表示三维场景。与 NeRF 相比,高斯平面表示法的优势在于计算效率高,能够快速地对三维场景进行渲染和更新,非常适合用于实时性要求较高的应用,如实时游戏、虚拟现实(VR)和增强现实(AR)等场景。但在精度方面,可能相对 NeRF 会稍有逊色。
扩散模型最初主要应用于图像生成领域,通过在图像上逐步添加噪声,然后学习如何从噪声中恢复原始图像,从而实现图像生成的功能。在世界模型构建中,扩散模型可以用于对三维场景数据进行去噪和精细化处理。例如,当我们通过其他技术(如 NeRF 或高斯平面表示法)得到一个初步的三维场景模型后,可能会存在一些噪声或不精确的地方,扩散模型可以对这些模型进行优化,通过不断地去噪过程,使三维模型更加精确和逼真。
在实际的世界模型构建过程中,这些技术往往需要协同工作。比如,我们可以先用高斯平面表示法快速生成一个低精度但实时性好的三维场景框架,为用户提供初步的交互体验;然后利用 NeRF 技术对关键区域或需要更高精度的部分进行精细重建,提升场景的整体质量;最后,运用扩散模型对整个三维模型进行去噪和优化,使其更加符合真实世界的特征。通过多种技术的有机结合,我们能够更高效、更准确地构建出实用的世界模型。
原文链接:李飞飞谈 AI 世界模型:技术内涵与应用前景