基于异质专家协同一致性学习的弱监督红外 - 可见光行人重识别
论文信息
原文标题:Weakly Supervised Visible-Infrared Person Re-Identification via Heterogeneous Expert Collaborative Consistency Learning
基于异质专家协同一致性学习的弱监督红外 - 可见光行人重识别
原文作者:Yafei Zhang(张亚飞), Lingqi Kong(孔令奇), Huafeng Li*(李华锋), Jie Wen(文杰)
发表会议:ICCV 2025
原文链接:https://arxiv.org/abs/2507.12942
原文发表时间:2025年5月
原文代码地址:https://github.com/KongLingqi2333/WSL-VIReID
摘要
1、为降低可见光 - 红外行人重识别(ReID)模型对带标签跨模态样本的依赖,本文提出一种弱监督跨模态行人重识别方法。该方法仅使用单模态样本的身份标签,适用于跨模态身份标签难以获取的场景。
2、核心方案设计
为减轻跨模态标签缺失对模型性能的影响,本文提出异构专家协同一致性学习框架。其核心目标是通过弱监督方式建立稳健的跨模态身份对应关系。
框架利用各模态的带标签数据,独立训练专属的分类专家。
这些分类专家作为异构预测器,对另一模态样本的身份进行预测,实现跨模态样本关联。
设计跨模态关系融合机制,有效整合不同专家的预测结果,提升预测准确性。
3、模型优化与验证
在跨模态身份对应关系提供的隐式监督下,框架鼓励专家间的协同一致性学习。这一过程显著增强了模型提取模态不变特征的能力,进而提升跨模态身份识别效果。在两个极具挑战性的数据集上进行的实验,验证了所提方法的有效性。
框架介绍
总结来说,这个框架的核心逻辑是:先让两个模态各自练出 “专才”(HEL 阶段的异质专家 W^v, W^r),再让专才互相 “猜” 对方模态的身份(建立跨模态关系),最后基于这些 “猜测结果” 反过来优化特征提取和专家分类能力(CMCL 阶段),从而在只有单模态标签的情况下,实现跨模态行人重识别。
训练阶段
编码器

分类器

跨模态关系建立(CRE)

1、CRE 阶段输出的Mc(一致匹配矩阵)、Ms(唯一匹配矩阵)、Mw(冲突匹配矩阵),本质是对跨模态预测结果的结构化整合与分类,二者是 “原始预测” 与 “关系提炼” 的递进关系;
2、W^v和W^r会先完成 “跨模态互预测”,生成原始预测概率,再经 CRE 模块转化为对应关系矩阵:
3、 为专家间协同学习(CLAE)提供一致性目标
CLAE 的目标是让W^v、W^r在跨模态预测上更一致,而M_c\其提供了 “哪些对应关系是可靠的” 的判断标准:
跨模态一致性学习(CMCL)
跨模态一致性学习是协同一致性学习(CCL)的核心子模块之一,旨在利用跨模态身份对应关系,引导模型学习模态不变的行人特征,解决跨模态样本标签缺失下的特征对齐问题。
输入

输出
通过多损失联合优化,输出更具跨模态一致性的特征编码器 \(E^v, E^r\),使得同一行人的可见光特征和红外特征在语义空间中更接近。
处理:
该模块针对不同类型的跨模态对应关系,设计了多维度的损失约束:
CLAE
输入

输出:

CMCL 专注于特征层面的跨模态一致性,让同一行人的可见光和红外特征可直接比对;CLAE 专注于专家决策层面的跨模态一致性,让两个模态的分类器对同一行人的身份判断更统一。两者结合,既保证了 “特征能对齐”,又保证了 “判断有依据”,最终在弱监督场景下实现了鲁棒的跨模态行人重识别。
流程
简单说,整个过程就像 “先让两个模态各自练出‘专才’,再让专才互相‘猜身份’找关联,最后用这些关联反过来优化大家的能力”,具体步骤用大白话讲是这样的:
第一步:HEL 阶段 —— 先练两个 “单模态专才”(W^v、W^r)
- 练 “专才” 的目标:让 W^v 只懂可见光、W^r 只懂红外,各自能精准给 “自己模态的样本” 贴身份标签;
- 怎么练:
- 给 W^v 喂 “可见光图片 + 它的真实身份标签”(比如 “这张图是可见光里的‘人 1’”),让它学 “看可见光特征→判断身份”;
- 给 W^r 喂 “红外图片 + 它的真实身份标签”,让它学 “看红外特征→判断身份”;
- 同时会优化两个编码器 E^v、E^r(相当于 “特征提取器”),让它们能提取出更能区分身份的特征(比如 E^v 提的可见光特征,能让 W^v 更容易认对人)。
- 额外任务:练完 “专才” 后,还要让它们试着 “跨模态猜身份”—— 比如让懂红外的 W^r,看 E^v 提的可见光特征,猜 “这个可见光样本对应红外里的哪个身份”;让懂可见光的 W^v,看 E^r 提的红外特征,猜 “这个红外样本对应可见光里的哪个身份”。
第二步:用 “跨模态猜测结果” 做三个 “关系表”(Mc、Ms、Mw)
- 整理猜测结果:把 W^v、W^r 的跨模态猜测记下来,比如 “W^r 猜可见光样本 A 对应红外身份 1”“W^v 猜红外身份 1 对应可见光样本 A”;
- 按 “猜测靠谱程度” 分三类表:
- Mc(靠谱表):两个 “专才” 猜得完全一致的情况(比如 W^r 猜 A 对应 1,W^v 也猜 1 对应 A),记为 “确定关联”;
- Ms(还行表):只有一个 “专才” 能猜准,另一个没意见的情况(比如 W^r 猜 A 对应 1,W^v 没猜过 1 对应谁),记为 “单侧靠谱关联”;
- Mw(冲突表):两个 “专才” 猜得不一样的情况(比如 W^r 猜 A 对应 1,W^v 猜 A 对应 2),记为 “矛盾关联”。
第三步:CCL 阶段 —— 用 “关系表” 优化所有人的能力
这一步分两部分,同时优化 “特征提取器”“专才” 和新加入的 “全能裁判” Wc:
1. CMCL:让 “全能裁判” Wc 学会用 “关系表” 判身份
- Wc 的角色:相当于 “跨模态裁判”,要能同时看懂可见光和红外特征,给跨模态样本判身份;
- 怎么教 Wc:
- 拿 Mc、Ms 里的 “靠谱关联” 当 “参考答案”(比如 Mc 里 A 对应 1,就把 “1” 当 A 的 “伪标签”);
- 给 Wc 喂 “样本特征 + 伪标签”(比如 “可见光特征 A + 伪标签 1”),让它学 “看特征→按伪标签判身份”;
- 对 Mw 里的 “矛盾关联”,就不硬逼 Wc 认死一个标签,只让它 “别认错明显不对的”(比如 Mw 里 A 可能对应 1 或 2,就不让 Wc 把 A 判成 3),避免学错。
2. CLAE:让 “专才” 和 “特征提取器” 更默契
- 优化 “专才”(W^v、W^r):让它们跨模态猜身份时更一致 —— 比如之前 W^r 猜 A 对应 1、W^v 猜 A 对应 2,现在要让它们慢慢调成 “都猜 A 对应 1”;
- 优化 “特征提取器”(E^v、E^r):让它们提的特征更 “通用”—— 比如 E^v 提的可见光特征,既能让 W^v 认对,也能让 W^r 猜准;E^r 提的红外特征同理;
- 小技巧:会给每个身份做个 “特征原型”(比如 “人 1” 的可见光原型是所有 “人 1” 可见光特征的平均值),让 “专才” 对着原型猜,避免瞎猜,同时根据猜测的靠谱程度调整优化力度(猜得越准,调整越少;猜得越乱,调整越多)。
总结一下核心逻辑
- 先练 “单模态专才”(W^v、W^r)和 “特征提取器”(E^v、E^r);
- 让 “专才” 跨模态猜身份,整理出 “靠谱 / 还行 / 矛盾” 三种关系表;
- 用关系表教 “全能裁判” Wc 判跨模态身份,同时让 “专才” 和 “特征提取器” 更默契,最终所有人都能搞定跨模态认人。





