图像匹配方向最新论文--CoMatch: Covisibility-Aware Transformer for Subpixel Matching
课题组图像匹配方向论文被 ICCV 2025 接收
论文标题: CoMatch: Dynamic Covisibility-Aware Transformer for Bilateral Subpixel-Level Semi-Dense Image Matching
机构: 武汉大学 电子信息学院
会议: ICCV 2025(International Conference on Computer Vision)
论文下载:https://arxiv.org/abs/2503.23925
项目地址: https://github.com/ZizhuoLi/CoMatch
🧩 背景简介
图像匹配是计算机视觉中的基础问题,广泛应用于:
- SLAM(同时定位与建图)
- SfM(结构重建)
- 视图合成、AR等任务
传统方法多依赖于关键点检测和描述符匹配,但在纹理稀疏、大视角变化等场景中表现不佳。近年来,detector-free 方法逐渐崛起,而我们正是聚焦于这一前沿。
方法亮点:CoMatch
CoMatch 是一种 半稠密图像匹配网络,兼具高精度和高效率,主要创新包括:
动态共视感知 Transformer(DCAT)
- 共视引导的 token 凝聚模块(Covisibility-Guided Token Condenser, CGTC)
利用预测共视性动态强调重要 token,降低计算冗余,提升表达力。 - 共视辅助注意力机制(Covisibility-Assisted Attention, CAA)
抑制无用区域信息传播,只保留“看得见”的区域做信息交互。
双边子像素级精化(BSR)
现有方法只对目标图像做精化,我们提出 双向子像素精化模块:
- 同时对子图和目标图进行 subpixel refinement,使得匹配更精确、更具有几何一致性。
实验结果一览
精度 vs 速度(在 MegaDepth 上)
CoMatch 比 ASpanFormer 提高 3.7% 匹配精度(AUC@5°),推理速度快 41.5%!
方法 | 精度 AUC@5° | 推理时间(ms) |
---|---|---|
ASpanFormer | 55.3 | 211.8 |
ELoFTR | 56.4 | 99.1 |
CoMatch | 58.0 | 123.8 |
视觉定位任务(Aachen Day-Night, InLoc)
CoMatch 在室内外数据集均取得 SOTA 性能,展现了极强的泛化能力!
开源链接
我们已开源代码和训练模型,欢迎访问体验与引用:
GitHub: https://github.com/ZizhuoLi/CoMatch
联系方式(欢迎交流!)
如您对论文或代码感兴趣,欢迎在 GitHub 提 issue 或邮件交流:
- zizhuo_li@whu.edu.cn
- linfeng0419@gmail.com