当前位置: 首页 > news >正文

ICIR2025 | CubeDiff:重新利用基于扩散的图像模型来生成360°全景图

CubeDiff是一种使用基于扩散的图像模型生成 360° 全景图的新型框架。通过利用立方体图表示和微调预训练的文本到图像模型,CubeDiff 简化了全景图生成过程,提供了高质量、一致的全景图。

CubeDiff 利用立方体图来表示 360° 全景图,并在一次传递中同时对所有面进行降噪。与其他作品相比,Cubediff 无需考虑失真,因为它在常见的 90° FOV 透视图像上进行操作,因此可以直接利用底层扩散模型的互联网级图像先验。该方法以最小的架构修改实现了最先进的结果,实现了详细的文本控制和出色的视觉保真度。

相关链接

  • 论文:http://arxiv.org/abs/2501.17162v1

  • 主页:https://cubediff.github.io/

论文介绍

论文介绍了一种从文本提示或图像生成 360° 全景图的新方法。该方法利用 3D 生成方面的最新进展,采用多视图扩散模型来联合合成立方体贴图的六个面。与以前依赖于处理等距矩形投影或自回归生成的方法不同,提出的方法将每个面视为标准透视图像,简化了生成过程并支持使用现有的多视图扩散模型。论文证明这些模型可以适应生成高质量的立方体贴图,而无需对应感知注意层。该模型允许细粒度的文本控制,生成高分辨率全景图并远远超出其训练集,同时在质量和数量上都实现了最先进的结果。

方法

CubeDiff 引入了一种使用立方体贴图表示生成高质量 360° 全景图的方法,将全景图分为六个透视图,每个透视图的视野为 90°。立方体贴图表示减轻了等矩形投影的典型扭曲,确保每个面都更接近原始训练数据中使用的透视图像。通过利用预训练的文本到图像扩散模型,CubeDiff 使用膨胀的注意力层对潜在扩散模型 (LDM) 进行微调,实现跨视图一致性,同时保留预训练的注意力权重。

CubeDiff在 128×128×8 潜在空间上运行,根据文本嵌入和单个输入视图对 LDM 进行条件化,使用二进制掩码将干净的条件化潜在数据与嘈杂的目标潜在数据区分开来。同步组规范化确保各个面的颜色均匀,而从立方体贴图的 3D 几何中得出的位置编码则引导空间对齐。立方体贴图边缘的重叠预测通过确保相邻面之间的无缝过渡进一步增强了连贯性。使用标准扩散 L2 损失,在从等距矩形全景图派生的立方体贴图小数据集上仅微调 LDM 的注意层。

结果

全景查看器

相关文章:

  • 基于WebAssembly的后端服务突破:打造高性能、安全的新型微服务架构
  • LabVIEW国内外开发的区别
  • MySQL数据库的数据文件保存在哪?MySQL数据存在哪里
  • 【DeepSeek】Ollama部署本地大模型DeepSeek-R1,交互界面Open-WebUI,RagFlow构建私有知识库
  • 数据结构——Makefile、算法、排序(2025.2.13)
  • ECP在Successfactors中paylisp越南语乱码问题
  • CSS 怎么实现样式隔离?
  • (萌新入门)如何从起步阶段开始学习STM32 —— 0.碎碎念
  • 蓝桥杯试题:归并排序
  • 《open3D+pyqt 》第一章:点云读取、显示与保存用——open3d原生显示框架
  • 开源赋能,智造未来:Odoo+工业物联网,解锁智能工厂新范式——以真实案例解读制造业数字化转型的降本增效密码
  • 前端vue引入特殊字体不生效
  • mysql的主从配置
  • DNS污染:网络世界的“隐形劫持”与防御
  • 人才画像如何助力企业 “看准人”、“看透人”
  • ORDER BY盲注攻击:原理、实现与防御(附Python多线程爆破脚本)
  • Spring Boot 3 集成Xxl-job 3.0.0 单机
  • 【算法】动态规划专题⑪ —— 区间DP python
  • 【MySQL】 基本查询(上)
  • USB2.03.0摄像头区分UVC相机在linux中的常用命令
  • 网站建设制度制定情况/百度小说排行榜
  • wordpress防站/郑州网站建设用户
  • 重庆模板做网站/今日全国疫情一览表
  • 湖北交投建设集团网站/免费自助建站平台
  • 百度的网址是什么呢/网站关键词排名手机优化软件
  • 知道抖音视频是怎么做的网站嘛/培训机构哪家好