当前位置：首页 > news >正文

[2025CVPR-图象检索方向]CCIN：用于合成图像检索的合成冲突识别和中和模型

news 2025/7/17 14:03:48

1. 任务背景和问题定义

Composed Image Retrieval (CIR)任务：CIR是一种多模态检索任务，旨在通过结合参考图像（reference image, Ir）和文本修改指令（modified instruction, Tmod）来检索目标图像（target image, It）。相比传统单模态检索（如图像或文本单独查询），CIR利用视觉和文本模态的互补性提升搜索灵活性。
核心挑战：组合冲突（Compositional Conflict）：当参考图像的固有属性（如“蓝色长袖衬衫”）与修改指令（如“改为灰色短袖”）冲突时，会导致查询意图模糊，检索结果不准确。例如，冲突属性（如颜色、袖长）会使模型无法正确融合多模态特征，从而降低检索性能。
- 示例展示：Figure 1 展示了多模态查询中的冲突案例（如衬衫颜色、袖长等），这些冲突可能导致检索歧义。

现有方法的局限性：先前工作（如TG-CIR[45]和SSN[51]）使用可学习掩码在特征层面抑制冲突，但特征空间的复杂性使冲突识别和中和难以精确控制，导致结果不可控。这凸显了需要更细粒度的冲突处理方法。

2. 提出的CCIN框架

CCIN框架通过序列化步骤识别和中和冲突，提升CIR性能。框架分为两个核心模块：

Compositional Conflict Identification (CCI)模块：
- 功能：利用大型语言模型（LLM）精确识别冲突属性。首先，使用图像描述模型（如BLIP-2）生成参考图像的文本描述（Tref）。然后将Tref和Tmod结合（用“However”连接），输入LLM（如GPT-4）分析冲突属性（Tcon）。
- 公式表示：Tcon=Pcon→LLM(Tref+ However+Tmod)，其中Pcon是自定义提示（见Figure 3）。
- 优势：显式识别具体冲突属性（如颜色或袖长），避免特征空间的模糊性。
Compositional Conflict Neutralization (CCN)模块：
- 功能：使用双重指令（dual-instruction）机制中和冲突。首先，LLM基于Tref和Tcon生成保留指令（kept instruction, Tkep），仅保留非冲突属性。然后，结合Tkep和Tmod，通过Q-Former（基于InstructBLIP[11]）提取指令感知的视觉特征：
  - fkep=Tkep→FQ(Ir)：保留参考图像的非冲突特征。
  - fmod=Tmod→FQ(Ir)：根据修改指令调整特征。
- 架构展示：Figure 2 展示了CCIN整体结构，包括CCI和CCN的协同工作。

- 自适应融合模块：使用MLP和Sigmoid函数加权融合特征：
  - θ1=Sigmoid(MLP(fkep,fmod))
  - fneu=θ1⋅fkep+(1−θ1)⋅fmod
  - 最终查询表示：fquery=θ2⋅fneu+(1−θ2)⋅ft（ft为文本特征）。
损失函数：总损失Ltotal=LITC+LOPR+λLWRT，包括：
- 图像-文本对比损失（\mathcal{L}_{\text{ITC}}})。
- 加权正则化三元组损失（\mathcal{L}_{\text{WRT}}})，基于相对距离区分正负样本。
- 正交投影正则化损失（\mathcal{L}_{\text{OPR}}})，扩大冲突信息与目标图像的差异。

3. 实验验证

实验在三个标准数据集进行：FashionIQ[48]、CIRR[27]和Shoes[16]。使用Recall@K（R@K）作为主要指标。

数据集描述：
- FashionIQ：77,684张时尚图像，30,134个三元组（参考图像、目标图像、修改指令），类别包括Dress、Shirt和Toptee。
- CIRR：21,552张真实世界图像，36,554个三元组，减少假阴性问题。
- Shoes：14,600张鞋类图像，用于属性发现和CIR任务。
主要结果：
- 与SOTA方法比较：CCIN在FashionIQ、CIRR和Shoes上均超越现有方法（如SPRC[2]、TG-CIR[45]）。例如：
  - FashionIQ：R@10和R@50平均值达64.59%，优于SPRC的64.27%（Table 1）。
  - CIRR：R@1达53.41%，优于Re-ranking[29]的50.55%（Table 1）。
  - Shoes：平均R@K达59.42%，优于TG-CIR的58.05%（Table 2）。
- 定性分析：Figure 4 展示CCIN与SPRC的对比案例。CCIN能有效中和冲突（如袖长和图案），正确检索目标图像，而SPRC因冲突导致错误预测。

消融研究：

框架组件分析（Table 3）：移除CCIN架构导致性能下降（平均R@50从74.75%降至73.66%）。损失函数LWRT和LOPR进一步提升性能。
CCN模块分析（Table 4）：双重指令（Tkep和Tmod）比单一指令更有效（平均R@10 54.42% vs. 53.93%）。移除视觉特征严重降低性能。
LoRA微调分析（Table 6）：在ViT骨干网的39层进行LoRA微调（MLP和Attention）优化性能，但过度微调可能导致过拟合。
超参数分析：Figure 5 显示λ（控制损失权重）的影响。最优值因数据集而异（FashionIQ: λ=1, CIRR: λ=0.1, Shoes: λ=1）。

冲突识别分析：CCI模块有效识别冲突属性（Table 5）。例如，FashionIQ中29.1%查询有2个以上冲突。Figure 6 和7 展示LLM（如GPT-4）在冲突识别中的优越性（vs. LLama2-70B和GPT-3.5）。

4. 贡献和结论

主要贡献：
- 首次系统化解决了CIR中的组合冲突问题，提出可控制的识别和中和机制。
- 设计了CCIN框架，结合LLM的显式冲突分析和双重指令的特征提取，提升检索精度。
- 实验证明在多个数据集上显著优于SOTA方法，平均性能提升达2.44%（FashionIQ）。
结论：CCIN通过序列化冲突处理（识别→中和）解决了CIR的关键瓶颈。未来工作将探索多模态LLM（如GPT-4o）和更多输入模态（如草图）以扩展任务范围。
代码可用性：代码库公开于https://github.com/LikaiTian/CCIN。

论文： https://openaccess.thecvf.com/content/CVPR2025/papers/Tian_CCIN_Compositional_Conflict_Identification_and_Neutralization_for_Composed_Image_Retrieval_CVPR_2025_paper.pdf

查看全文

http://www.dtcms.com/a/283453.html