⭐CVPR2025 自动驾驶半监督 LiDAR 分割新范式:HiLoTs 框架深度解析
📄论文题目:HiLoTs: High-Low Temporal Sensitive Representation Learning for Semi-Supervised LiDAR Segmentation in Autonomous Driving
✍️作者及机构:
R.D. Lin、Pengcheng Weng、Yinqiao Wang、Fei Wang(西安交通大学软件工程学院);Han Ding(西安交通大学计算机科学与技术学院);Jinsong Han(浙江大学计算机科学与技术学院)
💻开源代码:https://github.com/rdlin118/HiLoTs
🧩面临问题:
标注成本高昂:传统全监督 LiDAR 点云分割方法需大量逐点标注,耗费大量人力与时间,且难以适应新环境, scalability 受限。
时间信息利用不足:现有半监督方法多聚焦点云空间分布,或仅考虑相邻两帧短期时间特征,忽略自动驾驶场景中 “近场物体稳定、远场物体多变” 的长期时间特性。
多模态依赖与性能矛盾:部分 SOTA 方法依赖 LiDAR+Camera 多模态数据,增加硬件与标注成本,且单模态半监督方法性能难以突破。
计算效率与特征表征难题:LiDAR 点云近密远疏,传统体素化方法易导致特征失衡;Transformer 注意力机制应用于大量体素时,计算复杂度高(O (n²)),难以高效处理。
🎯创新点及其具体研究方法:
1️⃣ 提出 HiLoTs 嵌入单元(HEU):
核心思路:针对 “近稳远变” 特性,分通道处理不同时间敏感性特征。
具体方法:先通过多体素聚合(MVA)将相邻体素归为超体素,减少 Token 数量以降低计算成本;再分两条流处理 —— 高时间敏感流(HTSF)聚焦远场体素(最远 70% 范围),用自注意力捕捉类别与形状快速变化;低时间敏感流(LTSF)处理近场体素,同时与 HTSF 进行交叉注意力交互,实现稳定特征与动态特征的互补优化。
2️⃣ 圆柱体裁剪网络设计:
核心思路:贴合 LiDAR 径向扫描物理特性,解决点云近密远疏的数据不均衡问题。
具体方法:将笛卡尔坐标(x,y,z)转换为柱坐标(ρ,θ,z)(ρ 为径向距离,θ 为方位角);体素大小随 ρ 增大而调整,近场用小体素保留细节,远场用大体素避免稀疏特征缺失;采用 3D ResNet50 提取初始特征,为后续模块提供高质量输入。
3️⃣ 基于 Mean Teacher 的半监督优化框架:
核心思路:充分利用无标注数据,平衡监督学习与无监督学习的特征对齐。
具体方法:构建学生 - 教师双网络 —— 学生网络处理标注数据,采用 Focal Loss 解决类别不平衡问题;教师网络处理无标注数据,通过 L2 一致性损失对齐学生网络预测;教师网络参数采用指数移动平均(EMA)从学生网络缓慢更新(Wt’ = γWt-1’ + (1-γ) Wt),避免训练震荡,最终用教师网络完成推理。
4️⃣ 多维度鲁棒性与效率优化:
核心思路:在性能提升基础上,保障模型在复杂场景下的稳定性与计算效率。
具体方法:通过消融实验验证不同体素化(立方、柱体、球形、圆柱体)、EMA 比率(0.5-0.999)、体素下采样策略(随机、密度、聚合)的影响,最终选择最优配置;在 SemanticKITTI-C 与 nuScenes-C 数据集上验证,模型在雾、雪、激光缺失等扰动场景下仍保持优异性能,鲁棒性媲美专门优化的 SOTA 模型。