当前位置: 首页 > news >正文

[2025CVPR-图象检索方向]CCIN:用于合成图像检索的合成冲突识别和中和模型

1. ​任务背景和问题定义

  • Composed Image Retrieval (CIR)任务​:CIR是一种多模态检索任务,旨在通过结合参考图像(reference image, Ir​)和文本修改指令(modified instruction, Tmod​)来检索目标图像(target image, It​)。相比传统单模态检索(如图像或文本单独查询),CIR利用视觉和文本模态的互补性提升搜索灵活性。
  • 核心挑战:组合冲突(Compositional Conflict)​​:当参考图像的固有属性(如“蓝色长袖衬衫”)与修改指令(如“改为灰色短袖”)冲突时,会导致查询意图模糊,检索结果不准确。例如,冲突属性(如颜色、袖长)会使模型无法正确融合多模态特征,从而降低检索性能。
    • 示例展示:Figure 1 展示了多模态查询中的冲突案例(如衬衫颜色、袖长等),这些冲突可能导致检索歧义。

 

  • 现有方法的局限性​:先前工作(如TG-CIR[45]和SSN[51])使用可学习掩码在特征层面抑制冲突,但特征空间的复杂性使冲突识别和中和难以精确控制,导致结果不可控。这凸显了需要更细粒度的冲突处理方法。

2. ​提出的CCIN框架

CCIN框架通过序列化步骤识别和中和冲突,提升CIR性能。框架分为两个核心模块:

  • Compositional Conflict Identification (CCI)模块​:
    • 功能​:利用大型语言模型(LLM)精确识别冲突属性。首先,使用图像描述模型(如BLIP-2)生成参考图像的文本描述(Tref​)。然后将Tref​和Tmod​结合(用“However”连接),输入LLM(如GPT-4)分析冲突属性(Tcon​)。
    • 公式表示​:Tcon​=Pcon​→LLM(Tref​+ However+Tmod​),其中Pcon​是自定义提示(见Figure 3)。
    • 优势​:显式识别具体冲突属性(如颜色或袖长),避免特征空间的模糊性。
  • Compositional Conflict Neutralization (CCN)模块​:
    • 功能​:使用双重指令(dual-instruction)机制中和冲突。首先,LLM基于Tref​和Tcon​生成保留指令(kept instruction, Tkep​),仅保留非冲突属性。然后,结合Tkep​和Tmod​,通过Q-Former(基于InstructBLIP[11])提取指令感知的视觉特征:
      • fkep​=Tkep​→FQ​(Ir​):保留参考图像的非冲突特征。
      • fmod​=Tmod​→FQ​(Ir​):根据修改指令调整特征。
    • 架构展示​:Figure 2 展示了CCIN整体结构,包括CCI和CCN的协同工作。

 

 

    • 自适应融合模块​:使用MLP和Sigmoid函数加权融合特征:
      • θ1​=Sigmoid(MLP(fkep​,fmod​))
      • fneu​=θ1​⋅fkep​+(1−θ1​)⋅fmod​
      • 最终查询表示:fquery​=θ2​⋅fneu​+(1−θ2​)⋅ft​(ft​为文本特征)。
  • 损失函数​:总损失Ltotal​=LITC​+LOPR​+λLWRT​,包括:
    • 图像-文本对比损失(\mathcal{L}_{\text{ITC}}})。
    • 加权正则化三元组损失(\mathcal{L}_{\text{WRT}}}),基于相对距离区分正负样本。
    • 正交投影正则化损失(\mathcal{L}_{\text{OPR}}}),扩大冲突信息与目标图像的差异。

3. ​实验验证

实验在三个标准数据集进行:FashionIQ[48]、CIRR[27]和Shoes[16]。使用Recall@K(R@K)作为主要指标。

  • 数据集描述​:
    • FashionIQ​:77,684张时尚图像,30,134个三元组(参考图像、目标图像、修改指令),类别包括Dress、Shirt和Toptee。
    • CIRR​:21,552张真实世界图像,36,554个三元组,减少假阴性问题。
    • Shoes​:14,600张鞋类图像,用于属性发现和CIR任务。
  • 主要结果​:
    • 与SOTA方法比较​:CCIN在FashionIQ、CIRR和Shoes上均超越现有方法(如SPRC[2]、TG-CIR[45])。例如:
      • FashionIQ​:R@10和R@50平均值达64.59%,优于SPRC的64.27%(Table 1)。
      • CIRR​:R@1达53.41%,优于Re-ranking[29]的50.55%(Table 1)。
      • Shoes​:平均R@K达59.42%,优于TG-CIR的58.05%(Table 2)。

    • 定性分析​:Figure 4 展示CCIN与SPRC的对比案例。CCIN能有效中和冲突(如袖长和图案),正确检索目标图像,而SPRC因冲突导致错误预测。

 消融研究​:

  • 框架组件分析​(Table 3):移除CCIN架构导致性能下降(平均R@50从74.75%降至73.66%)。损失函数LWRT​和LOPR​进一步提升性能。

  • CCN模块分析​(Table 4):双重指令(Tkep​和Tmod​)比单一指令更有效(平均R@10 54.42% vs. 53.93%)。移除视觉特征严重降低性能。

  • LoRA微调分析​(Table 6):在ViT骨干网的39层进行LoRA微调(MLP和Attention)优化性能,但过度微调可能导致过拟合。

  • 超参数分析​:Figure 5 显示λ(控制损失权重)的影响。最优值因数据集而异(FashionIQ: λ=1, CIRR: λ=0.1, Shoes: λ=1)。

冲突识别分析​:CCI模块有效识别冲突属性(Table 5)。例如,FashionIQ中29.1%查询有2个以上冲突。Figure 6 和7 展示LLM(如GPT-4)在冲突识别中的优越性(vs. LLama2-70B和GPT-3.5)。 

 

 

4. ​贡献和结论

  • 主要贡献​:
    • 首次系统化解决了CIR中的组合冲突问题,提出可控制的识别和中和机制。
    • 设计了CCIN框架,结合LLM的显式冲突分析和双重指令的特征提取,提升检索精度。
    • 实验证明在多个数据集上显著优于SOTA方法,平均性能提升达2.44%(FashionIQ)。
  • 结论​:CCIN通过序列化冲突处理(识别→中和)解决了CIR的关键瓶颈。未来工作将探索多模态LLM(如GPT-4o)和更多输入模态(如草图)以扩展任务范围。
  • 代码可用性​:代码库公开于https://github.com/LikaiTian/CCIN。

论文: https://openaccess.thecvf.com/content/CVPR2025/papers/Tian_CCIN_Compositional_Conflict_Identification_and_Neutralization_for_Composed_Image_Retrieval_CVPR_2025_paper.pdf

 

http://www.dtcms.com/a/283453.html

相关文章:

  • OWASP Top 10 攻击场景实战
  • 简单易懂,什么是连续分配管理方式
  • Vue3+Ts实现父子组件间传值的两种方式
  • 设计模式之【观察者模式】
  • 多维动态规划题解——不同路径【LeetCode】记忆化搜索
  • ai 编程工具,简单总结
  • 16路串口光纤通信FPGA项目实现指南 - 第二部分(下)
  • Day36 Java方法和流程控制练习 计算器
  • Linux运维新手的修炼手扎之第19天
  • Linux内核设计与实现 第1章:内核简介
  • UDP和TCP的主要区别是什么?
  • --- Bean 的生命周期 ---
  • Redis键过期后会立即删除吗
  • 光环效应(HALO Effect)
  • MySQL高并发高可用架构设计与实现:主从复制与读写分离
  • x86版Ubuntu的容器中运行ARM版Ubuntu
  • 3分钟实战!用DeepSeek+墨刀AI生成智能对话APP原型图
  • Karate(Java)接口自动化测试框架
  • 代码随想录算法训练营第五十天|图论part1
  • 【图像处理基石】如何入门人体关键点检测?
  • 迁移学习--基于torchvision中VGG16模型的实战
  • 【FreeRTOS#5】任务挂起与恢复实例
  • 信息收集知识总结
  • Git分支管理完全指南:从创建到合并与冲突解决
  • Java的Gradle项目,使用SLF4J+Log4j2+log4j2.xml
  • 深度隐匿源IP:高防+群联AI云防护防绕过实战
  • C++-linux系统编程 10.内核原理基础
  • 用python程序通过指纹识别开关车门
  • 开源 python 应用 开发(六)网络爬虫
  • 健康生活,从细节开始