当前位置：首页 > news >正文

多模态新方向|从数据融合到场景落地，解锁视觉感知新范式

news 2025/11/6 9:42:15

来gongzhonghao【图灵学术计算机论文辅导】，快速拿捏更多计算机SCI/CCF发文资讯～

多模态学习（Multimodal Learning）是通过整合多种数据模态来提升模型对复杂场景感知与理解能力的技术，其核心是利用不同模态的互补性突破单一模态局限，模拟人类多感官协同认知，其中多模态融合通过整合异质数据增强感知精度，跨模态对齐则确保不同模态信息的准确对应，为有效融合奠定基础。

本文整理了3篇聚焦多模态融合在视觉任务的新论文，旨在帮助大家把握前沿思路，为相关研究提供参考，满满干货，点赞收藏不迷路~

LIDAR: Lightweight Adaptive Cue-Aware Fusion Vision Mamba for Multimodal Segmentation of Structural Cracks

方法：LIDAR 先以 RGB、红外、深度等多模态图像为输入，经轻量 LacaVSS 提取裂纹形态与纹理特征，其中 EDG-SS 在预处理阶段为每幅图像生成一次四向扫描序列；随后 LD3CF 利用 AFDP 在频域分离裂纹高频与背景低频，并通过双池化动态融合各模态特征，最后以 LDMK 卷积逐级融合跨尺度特征并上采样输出像素级裂纹分割图。

创新点：

首次设计 EDG-SS 预扫描策略，根据裂纹掩码动态生成四向自适应扫描路径，使 Mamba 路径与图像纹理精准对齐。
提出 LD3CF 双域协同融合模块，结合可学习频域掩码与双向池化门控，在极低计算量下抑制背景噪声、强化裂纹高频细节。
构建 LDMK 动态多核卷积，通过通道重要性 Top-K 选择与可重参数化核，将参数量压缩至 5.35 M 仍保持 SOTA 精度。

总结：这篇文章提出轻量级多模态裂纹分割框架 LIDAR，用自适应 Mamba 扫描与频域-空域协同策略，一举破解高分辨率场景下跨模态噪声干扰与计算开销过大的双重难题。

Multistream Network for LiDAR and Camera-based 3D Object Detection in Outdoor Scenes

方法：MuStD 先将 RGB 深度补全生成的伪点与原始 LiDAR 点云融合成混合点，随后由三条并行路径分别提取特征；三路输出的特征在检测头前通过拼接与 2D CNN 融合，由 RPN 生成候选框，RoI 池化后最终输出 3D 框与类别，实现准确且实时的室外 3D 目标检测。

创新点：

设计 3D Multimodal 流，首次在同一网络层内联合 UV 映射与极坐标索引。
提出 UV-Polar 可逆投影模块，把稀疏 3D 卷积特征同时映射到 2D 图像平面和极坐标网格，再用 2D 稀疏卷积提纯后返融合。
构建并行三流架构，各流互补提取 2D pillar、BEV 及 3D 混合特征，最终以轻量级拼接达到精度和速度的帕累托最优。

总结：这篇文章提出了一种三流融合网络 MuStD，专门解决室外场景下仅靠 LiDAR 稀疏点云导致的远距、遮挡物体检测精度低的问题，用 LiDAR+RGB 双模态协同刷新 KITTI 榜单。

纠结选题？导师放养？投稿被拒？对论文有任何问题的同学，欢迎来gongzhonghao【图灵学术计算机论文辅导】，获取顶会顶刊前沿资讯~

SDGOCC: Semantic and Depth-Guided Bird’s-Eye View Transformation for 3D

Multimodal Occupancy Prediction

方法：SDG-OCC 首先用 ResNet-50 提取多视角图像特征，在同一语义类内做局部扩散并双线性离散化生成虚拟点；接着通过 SPVCNN 压缩 LiDAR 点云得到 BEV 特征，利用门控邻域注意将跨模态特征融合并在 LiDAR 占用区域单向蒸馏回图像特征；最终由轻量 BEV 编码器与通道-高度变换头输出 3D 占用结果，在 83 ms 内完成推理且 mIoU 领先现有方法 5% 以上。

创新点：

提出语义-深度联合引导的 SDG 视图变换，通过 LiDAR 深度扩散与双线性离散化生成高精度虚拟点，显著压缩 LSS 冗余虚拟特征并提升深度估计。
设计融合到占用的主动蒸馏 FOAD，用门控邻域注意动态对齐跨模态特征，并仅在 LiDAR 识别区域单向蒸馏。
构建 SDG-Fusion 与 SDG-KL 双版本，前者纯融合夺得 SOTA 精度，后者加蒸馏实现实时推理，在 Occ3D-nuScenes 与 SurroundOcc-nuScenes 均刷新榜单。