【深度学习新浪潮】2025单目深度估计最新研究进展:从技术突破到落地探索

单目深度估计作为计算机视觉领域的核心任务,在三维重建、自动驾驶、AR/VR等场景中发挥着关键作用。近年来,随着Transformer和生成式AI技术的渗透,该领域迎来了一系列突破性进展。本文将聚焦2024-2025年的最新研究成果,从核心技术创新、代表性模型、应用落地等方面展开解析,助力大家快速把握领域动态。
一、核心技术创新方向
1. 生成式模型:攻克"飞点"难题,实现像素级精准深度
传统生成式深度估计模型依赖VAE进行潜在空间压缩,不可避免地在物体边缘引入"飞点"伪影,严重影响三维重建质量。2025年NeurIPS收录的Pixel-Perfect Depth(PPD)模型提出了创新性解决方案:
- 像素空间扩散机制:摒弃VAE压缩,直接在像素空间执行扩散生成,从根源上消除了潜在空间转换带来的结构退化问题。
- 语义提示扩散Transformer(SP-DiT):融合视觉基础模型的高层语义特征作为引导,既保证全局语义一致性,又增强细粒度细节建模能力,在NYUv2数据集的AbsRel指标上实现78%的性能提升。
- 级联DiT设计:采用"粗-细"两阶段生成策略,前期用大patch尺度建模全局结构,后期用小patch尺度优化细节,在RTX 4090上实现30%的推理
