论文分享 | BARD-GS:基于高斯泼溅的模糊感知动态场景重建
✨ 一句话总结
BARD-GS 是一种能够从模糊图像中高质量重建动态3D场景的新方法,通过显式分离并建模“相机运动模糊”和“物体运动模糊”,在真实模糊场景下显著优于现有方法。
🧩 一、研究背景与问题定义
1.1 动态场景重建的兴起
近年来,随着 NeRF 和 3D Gaussian Splatting 等技术的突破,3D场景重建技术迅速发展,并在三维编辑、SLAM、虚拟现实等领域广泛应用。特别是 3DGS,以其显式表示和实时渲染能力,成为静态场景重建的新标杆。
然而,动态场景的重建 仍然是一个极具挑战性的问题。现实中我们拍摄的视频往往包含:
- 相机运动:手持拍摄时的抖动或移动;
- 物体运动:场景中快速移动的物体;
- 运动模糊:在曝光时间内,相机或物体的运动导致图像模糊。
1.2 现有方法的局限性
目前大多数动态场景重建方法(如 D3DGS、4DGS、DyBluRF 等)都假设输入图像是清晰的,且相机姿态是准确的。然而:
- 在实际拍摄中,运动模糊极为常见;
- 模糊图像会导致重建结果出现伪影、细节丢失、动态区域重建失败;
- 现有的“先去模糊再重建”流程往往破坏3D一致性,效果有限。
1.3 BARD-GS 的提出
BARD-GS 应运而生,其全称为:
Blur-Aware Reconstruction of Dynamic Scenes via Gaussian Splatting
它首次显式地将运动模糊分解为“相机运动模糊”和“物体运动模糊”,并分阶段进行建模与去模糊,从而在模糊输入下也能实现高质量的动态场景重建。
🧠 二、核心思想与方法概述
2.1 模糊来源的分解
BARD-GS 将运动模糊分为两类:
- 相机运动模糊:由相机在曝光时间内的移动引起;
- 物体运动模糊:由场景中物体的快速运动引起。
2.2 两阶段去模糊流程
BARD-GS 的流程分为两个阶段:
🔹 Stage 1:相机运动去模糊
- 对每个输入模糊图像,建模其在曝光时间内的虚拟相机轨迹;
- 通过渲染多个虚拟视角的图像并融合,模拟模糊过程;
- 通过比对输入图像中的静态区域,优化相机轨迹与静态高斯模型;
- 目标:消除相机运动模糊,重建清晰的静态背景。
🔹 Stage 2:物体运动去模糊
- 使用一个时间条件变形场 来建模动态高斯的运动轨迹;
- 在曝光时间内采样多个虚拟时间点,渲染物体在不同时刻的状态;
- 融合这些图像以模拟物体运动模糊;
- 通过比对整个图像,优化动态高斯模型;
- 目标:消除物体运动模糊,重建清晰的动态物体。
🛠 三、技术细节详解
3.1 相机轨迹建模
BARD-GS 对每个输入图像的相机姿态进行扩展,生成一组虚拟相机姿态:
- 起点和终点姿态由可学习的偏移量定义;
- 中间姿态通过 SO(3) 流形上的线性插值 获得;
- 使用 PyPose 库实现高效的李群李代数运算。
3.2 动态高斯变形场
使用一个 MLP 作为变形场,输入为高斯的位置编码 + 时间编码,输出为:
- 位置偏移量(δx)
- 旋转偏移量(δr)
- 尺度偏移量(δs)
从而将静态高斯变换为时间相关的动态高斯。
3.3 轨迹约束损失
为避免变形场学习出不合理的运动轨迹,BARD-GS 引入 3D 轨迹损失:
- 使用 BootsTAPIR 跟踪2D像素轨迹;
- 使用 DepthAnything 获取深度信息;
- 将2D轨迹反投影为3D轨迹,作为伪真值约束高斯运动。
3.4 静态区域细化
BARD-GS 还为静态高斯引入一个静态变形场,用于处理:
- 动态物体带来的阴影、反射等间接效应;
- 初始高斯缺失导致的边缘伪影。
📊 四、实验与效果验证
4.1 数据集构建
由于缺乏真实世界的动态模糊数据集,作者构建了:
- 合成模糊数据集:从 HyperNeRF、Dycheck 等数据集中通过帧插值与平均生成;
- 真实世界模糊数据集:使用两台 GoPro 同步拍摄,一台长曝光(模糊训练),一台短曝光(清晰评估),涵盖12个复杂动态场景。
4.2 对比方法
- DyBluRF:基于 NeRF 的动态去模糊方法;
- D3DGS / 4DGS:主流动态高斯重建方法;
- + MPRNet:使用预训练去模糊模型预处理图像后再重建。
4.3 评价指标
除了 PSNR、SSIM、LPIPS,还引入:
- Laplacian Variance:衡量图像清晰度;
- MUSIQ:感知质量评价;
- Shift-Invariant Metrics:应对相机姿态不对齐问题。
4.4 实验结果
✅ 去模糊任务(表1)
BARD-GS 在合成数据集上全面优于所有基线方法,尤其在 LPIPS、LV、MUSIQ 上提升显著。
✅ 新视角合成(表2)
在真实模糊数据集上,BARD-GS 在动态区域和静态区域均表现出更清晰的细节和更少的伪影。
✅ 消融实验(表3、4)
- 移除任一模块(如静态去模糊、轨迹损失)都会导致性能下降;
- 虚拟视图数量在10左右效果最佳,过多或过少都会降低质量。
🎯 五、亮点总结
| 亮点 | 说明 |
|---|---|
| ✅ 模糊分解建模 | 首次显式分离相机与物体运动模糊,分别优化 |
| ✅ 两阶段训练 | 先处理相机模糊,再处理物体模糊,逻辑清晰 |
| ✅ 轨迹感知损失 | 使用2D跟踪+深度反投影约束3D高斯运动 |
| ✅ 真实世界数据集 | 首个真实动态模糊数据集,推动领域发展 |
| ✅ 全面评估指标 | 引入多种感知质量指标,评估更全面 |
💡 六、适用场景与推荐理由
🎥 适用场景
- 手持设备拍摄的动态视频重建;
- 运动模糊严重的监控视频分析;
- 虚拟现实、增强现实中的动态场景建模;
- 电影特效中的动态场景重建与去模糊。
👍 推荐理由
| 读者类型 | 推荐理由 |
|---|---|
| 三维视觉研究者 | 方法新颖,实验充分,代码与数据集将开源 |
| 算法工程师 | 实用性强,可用于实际模糊视频重建任务 |
| 学生与初学者 | 了解动态重建+去模糊的完整思路与实现细节 |
| 技术爱好者 | 理解如何将物理建模与深度学习结合解决实际问题 |
🧭 七、未来展望
BARD-GS 为动态模糊场景重建开辟了新方向,未来可进一步探索:
- 更复杂的运动模型(非匀速、多物体交互);
- 更高效的训练与渲染策略;
- 结合事件相机等新型传感器;
- 扩展到更大规模、更复杂的真实场景。
📌 结语
BARD-GS 不仅在技术上实现了对动态模糊场景的高质量重建,更在方法论上提供了一种“分而治之”的清晰思路。 它告诉我们:在面对复杂问题时,合理的分解与建模 往往比堆叠网络结构更有效。
如果你正在研究3D重建、动态场景建模、图像去模糊等领域,BARD-GS 绝对是一篇不容错过的论文。
📚 参考资料
- 论文链接:点击查看原论文
更多细节,可点击查看原论文。
以上就是本次对《BARD-GS》论文的全面分享。如果你对某个细节感兴趣,欢迎留言讨论,我会进一步深入解读!👨💻👩💻
