把“多视图融合、深度传感”组合在一起,今天分享3篇3D传感技术干货
关注gongzhonghao【计算机sci论文精选】
3D传感技术起源于工业领域高精度测量需求,早期以激光三角测量、结构光等技术为主,主要服务于制造业的零部件检测与形变分析。随着消费电子智能化升级,苹果iPhone X的Face ID将结构光技术推向大众市场,微软Kinect、华为Mate 30 Pro等产品进一步验证了ToF方案的商用价值。
今天小图给大家精选3篇AAAI有关3D传感方向的论文,带大家探索3D传感技术的奥秘!
论文一:SimDistill: Simulated Multi-modal Distillation for BEV 3D Object Detection
方法:
文章首先设计了多模态架构,包括基于BEVFusion的教师模型和基于BEVFusion-C的学生模型,并在学生模型中引入额外的模拟激光雷达分支来模拟激光雷达特征。接着,提出了模拟多模态蒸馏方案,涵盖模态内蒸馏、跨模态蒸馏以及多模态融合蒸馏,并采用均方误差损失和质量感知预测蒸馏来实现知识转移。最后,通过在nuScenes数据集上进行实验,证明了该方法在提升3D目标检测性能方面的有效性。
创新点:
提出了一种独特的多模态蒸馏框架,通过确保教师和学生模型具有几乎相同的流程,有效减少了模态间的差距。
呈现了一种新的模拟多模态蒸馏方案,可同时支持模态内、跨模态以及多模态融合蒸馏,轻松适应不同模型。
在nuScenes基准测试中,通过广泛的实验和消融研究验证了SimDistill的有效性和优越性,相较于现有方法,分别提高了基线检测器的mAP和NDS指标4.8%和4.1%。
论文链接:
https://arxiv.org/abs/2303.16818
图灵学术论文辅导
论文二:ScanERU: Interactive 3D Visual Grounding based on Embodied Reference Understanding
方法:
文章通过构建新的ScanERU数据集引入了具身引用理解任务,该数据集融合了文本、视觉和姿态信息。接着,提出了一种包含提案生成、姿态编码、语言编码和多模态融合模块的框架,利用注意力机制整合不同模态的特征,最终通过优化定义的损失函数来训练模型,从而实现对3D场景中被引用物体的精准定位。
创新点:
首次设计了面向3D点云环境的具身引用理解任务,将语言和姿态信息联合用于物体引用。
构建了ScanERU数据集,这是首个涵盖文本、真实视觉和合成姿态信息的半合成场景数据集。
提出了一种基于注意力机制和人体运动的启发式框架,有效提高了对多个相同物体或复杂空间关系的识别能力。
论文链接:
https://arxiv.org/abs/2303.13186
图灵学术论文辅导
论文三:DI-V2X: Learning Domain-Invariant Representation for Vehicle-Infrastructure Collaborative 3D Object Detection
方法:
文章采用教师-学生蒸馏框架,通过DMA模块增强输入数据多样性,PDD模块在融合前后分别进行知识蒸馏,DAF模块则融合不同领域的特征,最终在DAIR-V2X和V2XSet数据集上验证了模型的优越性能。
创新点:
首次引入领域混合实例增强模块,通过构建混合领域实例库,有效对齐教师和学生模型的数据分布。
提出渐进式领域不变蒸馏模块,利用重叠区域信息引导知识蒸馏,使学生模型逐步学习领域不变特征。
设计领域自适应融合模块,结合校准感知的领域自适应注意力,增强特征融合效果,提升模型对姿态误差的鲁棒性。
论文链接:
https://arxiv.org/abs/2312.15742
本文选自gongzhonghao【计算机sci论文精选】