深度学习论文: Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers
深度学习论文: Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers
Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers
PDF: https://arxiv.org/pdf/2510.07316
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks
1 概述
本文提出了 Pixel-Perfect Depth 模型,这是一种基于像素空间扩散生成的单目深度估计模型,可从估计的深度图中生成高质量、无飞点(flying-pixel-free)的点云。当前主流生成式深度估计模型通过微调 Stable Diffusion 模型实现了优异性能,但这类模型需依赖变分自编码器(VAE)将深度图压缩至隐空间(latent space),这一过程会不可避免地在边缘区域与细节处产生飞点。