当前位置: 首页 > news >正文

【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔

MatSwap: Light-aware material transfers in images
在这里插入图片描述
介绍任务:输入一张拍摄图像、示例材质纹理图像(这里跟BRDF无关,通常我们讲到材质一般指的是SVBRDF,但是这里的材质指的只是纹理)、用户为拍摄图像指定的遮罩区域(上图中的红色),输出一张在遮罩区域替换为示例材质的图像结果。
【埋雷】这里需要留意论文中是否提到跟传统的扩散模型mask加生成有什么区别,例如:图像重绘。
当前任务面临的最大问题是在转移材质的过程中,做到材质、集合、光照的解耦。

从宏观上解决了什么问题?以往工作会用复杂文本提示词、大规模人工标注来进行生成,但是这些方法需要艺术家的专业知识,或3D场景的属性,获取难度比较大。这篇文章的方法只需要通过一个平面材质,就能免去uv映射,来得到可靠的结果。

怎么做的呢?
依赖于一个定制的light和几何感知的扩散模型。具体来说就是对预训练的文生图模型在合成数据集上进行材质迁移的微调。
在这里插入图片描述
上图展示了训练和推理的流程图。训练的时候先用blender生成合成数据,包括法线,irradiance等,然后将输入图像、法线、irradiance和mask分别用编码器或下采样压缩并concatenate为扩散模型的输入latent;此外,将条件图像p采用ip-adapter的形式注入扩散模型的交叉注意力模块中,最终迭代训练。而推理过程中则更简单,此时使用一个预训练的法线、irradiance估计网络Φ来根据input直接猜出法线和irradiance,然后联合其他输入注入到扩散模型中得到最终结果。

这个方法有点类似于Siggraph 2024文章RGB2X中的【X→RGB】部分。

http://www.dtcms.com/a/268564.html

相关文章:

  • springsecurity03--异常拦截处理(认证异常、权限异常)
  • 【机器学习深度学习】多分类评估策略:混淆矩阵计算场景模拟示例
  • Rust 注释
  • OpenAI要开发能聊天的AI版Office挑战微软?
  • 【Spring】Spring Boot + OAuth2 + JWT + Gateway的完整落地方案,包含认证流程设计
  • window 服务器上部署前端静态资源以及nginx 配置
  • 揭秘图像LLM:从像素到语言的智能转换
  • 创意Python爱心代码
  • 基于Flink 1.20、StarRocks与TiCDC构建高效数据处理链路教程
  • linux如何下载github的一个项目
  • stm32与tp-linkv2接线、解决识别不到芯片问题
  • C++ -- string类的模拟实现
  • Go的标准库http原理解析
  • 【论文阅读】Few-Shot PPG Signal Generation via Guided Diffusion Models
  • Web Worker:让前端飞起来的隐形引擎
  • 第0章:开篇词 - 嘿,别怕,AI应用开发没那么神!
  • 【PaddleOCR】数据合成工具 Style-Text安装与使用案例介绍
  • 【机器学习笔记 Ⅲ】3 异常检测算法
  • 4D-VLA:具有跨场景标定的时空视觉-语言-动作预训练
  • Linux运维安全新范式:基于TCPIP与SSH密钥的无密码认证实战
  • 【保姆级图文详解】探秘 Prompt 工程:AI 交互的关键密码
  • C++多线程网络编程:助力高并发服务器性能提升
  • 无人机精准降落辅助系统核心技术解析
  • 一文讲清楚React Fiber
  • RAG 相关概念学习
  • VMware 17.0.2-21581411 安装教程(附详细步骤+序列号激活指南)
  • 【牛客算法】 小红的奇偶抽取
  • kotlin+MongoTemplate的时间类型为is_date类型 pymongo如何处理
  • 【vue】用conda配置nodejs,一键开通模版使用权
  • 设计模式分析