当前位置: 首页 > news >正文

李飞飞团队新作WorldScore:“世界生成”能力迎来统一评测,3D/4D/视频模型同台PK

从古老神话中对世界起源的幻想,到如今科学家们在实验室里对虚拟世界的构建,人类探索世界生成奥秘的脚步从未停歇。如今,随着人工智能和计算机图形学的深度融合,我们已站在一个全新的起点,能够以前所未有的精度和效率去创造、模拟各类世界。

这一领域的突破不仅能让我们打造出更为逼真的虚拟游戏世界、沉浸式的影视场景,还在建筑设计、城市规划、工业模拟等现实应用场景中发挥着巨大作用,帮助人们提前预见方案效果,节省成本与时间。

传统的视觉生成评估基准,如 VBench,主要聚焦于文本到视频任务,在评估世界生成能力方面存在明显局限性。它们往往缺乏对场景空间布局的明确控制,难以对当前最先进的 3D 和 4D 场景生成方法进行有效评估,无法满足世界生成模型在不同领域全面评估的需求。

想要深入了解世界生成的奥秘?赶快扫描下方二维码,免费获取李飞飞等大神的精选论文,探索世界生成的更多可能!

点击【AI十八式】的主页,获取更多优质资源!

【论文1】WorldScore: A Unified Evaluation Benchmark for World Generation

WorldScore metrics

WorldScore metrics

1.研究方法

Overview of the WorldScore benchmark design

Overview of the WorldScore benchmark design

该论文提出 WorldScore 这一世界生成的统一评估基准,旨在解决现有基准无法统一评估多种世界生成模型的问题,通过构建多样化数据集和多维度评估指标,对不同类型模型进行全面评估。并将世界生成任务分解为一系列基于明确相机轨迹布局规范的下一场景生成任务;构建包含 3000 个高质量测试示例的多样化数据集,涵盖静态和动态世界生成场景;设计 WorldScore 评估指标,从可控性、质量和动态性三个关键方面的 10 个指标对生成的世界进行评估。

2.论文创新点

Showcasing of the current scene images

Showcasing of the current scene images

  • 统一评估基准:首次提出WorldScore基准,可对3D、4D、图像到视频(I2V)和文本到视频(T2V)等多种模型进行统一评估,解决了现有基准评估局限性的问题。

  • 多样化数据集:精心策划了涵盖不同视觉领域的高质量、多样化数据集,包括多种场景类型、视觉风格以及静态和动态场景,为全面评估模型提供数据支持。

  • 综合评估指标:引入WorldScore指标,综合考量世界生成模型性能的多个关键方面,通过多维度评估指标更全面准确地衡量模型表现。

  • 揭示研究方向:通过对19种模型的全面评估,揭示了当前世界生成方法的关键见解和挑战,为未来研究在弥合3D和4D表示差距、增强可控性机制等方面提供指导。

论文链接:https://arxiv.org/abs/2504.00983

【论文2】4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models

4Real is a 4D generation framework that can generate near-photorealistic dynamic scenes
from text prompts

4Real is a 4D generation framework that can generate near-photorealistic dynamic scenes from text prompts

1.研究方法

Reconstructing Deformable 3DGS

Reconstructing Deformable 3DGS

论文提出了一种基于视频扩散模型的逼真 4D 场景生成方法,核心是利用视频生成模型和 3D 高斯溅射技术,实现从文本到 4D 场景的转换,为该领域研究开辟了新方向。采用可变形 3D 高斯溅射(D-3DGS)表示动态场景,通过文本到视频扩散模型生成参考视频,再利用参考视频生成冻结时间视频,以构建规范 3D 表示并学习每帧变形;最后,基于规范表示重建时间变形,从而生成逼真的 4D 场景。

2.论文创新点

Generate reference and freeze-time videos

Generate reference and freeze-time videos

  • 全新生成框架:提出首个逼真的文本到4D场景生成管道4Real,摒弃对多视图生成模型的依赖,利用在大规模真实世界视频上训练的视频生成模型,生成更逼真、多样化的4D场景。

  • 转换生成问题:将生成问题转化为重建问题,通过生成参考视频和冻结时间视频,减少对耗时的分数蒸馏采样步骤的依赖,提高生成效率。

  • 灵活高效生成:为用户提供选择和编辑视频的灵活性,能在更合理的计算预算内生成高质量样本,相比竞争方法显著缩短生成时间。

论文链接:https://arxiv.org/abs/2406.07472

 点击【AI十八式】的主页,获取更多优质资源!

相关文章:

  • 【论文精读】COLMAP-Free 3D Gaussian Splatting
  • [linux] vim 乱码
  • C++ 哈希表
  • Qt QML实现Windows桌面歌词动态播放效果
  • QtApplets-实现应用程序单例模式,防止重复运行
  • 2025年Q2(流动式)起重机司机考试题
  • 【Windows本地部署n8n工作流自动平台结合内网穿透远程在线访问】
  • Ubuntu利用docker搭建Java相关环境记录(二)
  • Vision Transformer项目分析与介绍
  • 压缩包网页预览(zip-html-preview)
  • Apache Atlas构建安装(Linux)
  • Python 深度学习 第8章 计算机视觉中的深度学习 - 卷积神经网络使用实例
  • YOLO训练多评价指标曲线画图
  • 【2025“华中杯”大学生数学建模挑战赛】选题分析 A题 详细解题思路
  • k8s报错kubelet.go:2461] “Error getting node“ err=“node \“k8s-master\“ not found“
  • 【秣厉科技】LabVIEW工具包——OpenCV 教程(20):拾遗 - imgproc 基础操作(下)
  • Python实例题:Python自动化开发-考勤处理
  • iptables防火墙
  • 深入浅出 Redis:核心数据结构解析与应用场景Redis 数据结构
  • 简述Apache RocketMQ
  • 以色列在加沙发起新一轮强攻,同步与哈马斯展开无条件谈判
  • 国际博物馆日|航海博物馆:穿梭于海洋神话与造船工艺间
  • 国际博物馆日|航海博物馆:穿梭于海洋神话与明代造船工艺间
  • 全中国最好的十个博物馆展陈选出来了!
  • 当“小铁人”遇上青浦,看00后如何玩转长三角铁三
  • 北邮今年本科招生将首次突破四千人,新增低空技术与工程专业