当前位置: 首页 > news >正文

⭐CVPR 文本到 3D 场景生成新突破:Prometheus 框架解析

📄论文题目:Prometheus: 3D-Aware Latent Diffusion Models for Feed-Forward Text-to-3D Scene Generation
✍️作者及机构:Yuanbo Yang、Jiahao Shao、Xinyang Li、Yujun Shen、Andreas Geiger、Yiyi Liao(浙江大学、厦门大学、蚂蚁集团、University of T¨ubingen)
🧩面临问题:当前 3D 生成模型存在泛化能力有限、效率低下及质量问题。一方面,依赖 3D / 多视图数据或单一类别单视图图像的模型泛化能力弱,因训练数据稀缺;另一方面,利用 2D 数据的方法多通过优化生成 3D 表示,过程耗时,且因 2D 模型缺乏 3D 完整理解,易出现多视图不一致(Janus 问题)和保真度低的情况2。
在这里插入图片描述
🎯创新点及其具体研究方法:
1️⃣ 前馈式 3D 高斯生成框架:将 3D 场景生成表述为潜在扩散范式下的多视图、前馈、像素对齐 3D 高斯生成,实现无需迭代优化的直接生成,大幅提升效率,使 3D 场景生成时间缩短至秒级13。
2️⃣ RGB-D 潜空间引入:在 3D 高斯生成中引入 RGB-D 潜空间,分离外观和几何信息。通过预训练的 Stable Diffusion 编码器分别编码 RGB 图像和深度图, concatenate 得到联合潜空间,助力生成具有更高保真度和更优几何结构的 3D 高斯46。
3️⃣ 两阶段训练策略:第一阶段训练 3D 高斯变分自编码器(GS-VAE),以多视图或单视图 RGB-D 图像为输入,预测像素对齐 3D 高斯,编码器复用 Stable Diffusion 编码器,解码器基于其修改;第二阶段训练多视图潜扩散模型(MV-LDM),结合文本提示和相机姿态,联合预测多视图 RGB-D 潜码,且在 9 个多视图和单视图数据集上训练以增强泛化性578。
4️⃣ 混合采样与 CFG-rescale 策略:采用混合采样 guidance,通过文本和姿态引导权重平衡多视图一致性与保真度;同时使用 CFG-rescale 避免条件采样中的过饱和问题,提升生成质量9。

#论文 #3D 生成 #计算机视觉 #深度学习 #文本到 3D #潜在扩散模型 #前馈式生成

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

http://www.dtcms.com/a/318575.html

相关文章:

  • http请求结构体解析
  • 【C++】二叉树进阶
  • 人工智能大数据模型驱动企业创新
  • 商用密码应用安全性评估法律法规的重要性及演变过程
  • 力扣-15.三数之和
  • 五、Istio管理网格外部服务
  • 快速准确的千兆像素病理图像分类,采用分层蒸馏多实例学习(每日一文)
  • ssm复习
  • 【RabbitMQ】高级特性—死信队列详解
  • 560. 和为 K 的子数组 - 前缀和思想
  • MATLAB下载教程MATLAB R2025a 保姆级安装步骤(附安装包)
  • 数据结构——双向链表及makefile
  • c++ 中 原子锁、互斥锁、自旋锁的区别和详细用法
  • 大模型 + 垂直场景:搜索 / 推荐 / 营销 / 客服领域开发
  • 【Redis】Linux部署redis 7集群部署三主三从、ACL新建用户及密码(图文教程)
  • ​ubuntu22.04系统入门 (四)linux入门命令 权限管理、ACL权限、管道与重定向
  • 集合数据类型Map和Set
  • pcl手动直通滤波
  • LeetCode每日一题,8-6
  • 基于Simulink/MWORKS的文字与开关量混合传输系统设计
  • 流式输出 vs 非流式输出
  • SpringBoot设置跨域的几种方式
  • 互斥锁与条件变量
  • 每日五个pyecharts可视化图表-bars(5)
  • Java语言基础深度面试题
  • List、ArrayList 与顺序表
  • 智能学号抽取系统 V5.7.4 更新报告:修复关键同步漏洞,体验更臻完美
  • Spring Boot 项目代码笔记
  • 三、Istio流量治理(二)
  • 文件权限合规扫描针对香港服务器安全基线的实施流程