当前位置: 首页 > wzjs >正文

网站面包屑导航设计即位置导航人工智能培训机构哪个好

网站面包屑导航设计即位置导航,人工智能培训机构哪个好,网站建设国标行业分类,鄂州最新通告今天1. ​任务背景和问题定义​ ​Composed Image Retrieval (CIR)任务​:CIR是一种多模态检索任务,旨在通过结合参考图像(reference image, Ir​)和文本修改指令(modified instruction, Tmod​)来检索目标图像…

1. ​任务背景和问题定义

  • Composed Image Retrieval (CIR)任务​:CIR是一种多模态检索任务,旨在通过结合参考图像(reference image, Ir​)和文本修改指令(modified instruction, Tmod​)来检索目标图像(target image, It​)。相比传统单模态检索(如图像或文本单独查询),CIR利用视觉和文本模态的互补性提升搜索灵活性。
  • 核心挑战:组合冲突(Compositional Conflict)​​:当参考图像的固有属性(如“蓝色长袖衬衫”)与修改指令(如“改为灰色短袖”)冲突时,会导致查询意图模糊,检索结果不准确。例如,冲突属性(如颜色、袖长)会使模型无法正确融合多模态特征,从而降低检索性能。
    • 示例展示:Figure 1 展示了多模态查询中的冲突案例(如衬衫颜色、袖长等),这些冲突可能导致检索歧义。

 

  • 现有方法的局限性​:先前工作(如TG-CIR[45]和SSN[51])使用可学习掩码在特征层面抑制冲突,但特征空间的复杂性使冲突识别和中和难以精确控制,导致结果不可控。这凸显了需要更细粒度的冲突处理方法。

2. ​提出的CCIN框架

CCIN框架通过序列化步骤识别和中和冲突,提升CIR性能。框架分为两个核心模块:

  • Compositional Conflict Identification (CCI)模块​:
    • 功能​:利用大型语言模型(LLM)精确识别冲突属性。首先,使用图像描述模型(如BLIP-2)生成参考图像的文本描述(Tref​)。然后将Tref​和Tmod​结合(用“However”连接),输入LLM(如GPT-4)分析冲突属性(Tcon​)。
    • 公式表示​:Tcon​=Pcon​→LLM(Tref​+ However+Tmod​),其中Pcon​是自定义提示(见Figure 3)。
    • 优势​:显式识别具体冲突属性(如颜色或袖长),避免特征空间的模糊性。
  • Compositional Conflict Neutralization (CCN)模块​:
    • 功能​:使用双重指令(dual-instruction)机制中和冲突。首先,LLM基于Tref​和Tcon​生成保留指令(kept instruction, Tkep​),仅保留非冲突属性。然后,结合Tkep​和Tmod​,通过Q-Former(基于InstructBLIP[11])提取指令感知的视觉特征:
      • fkep​=Tkep​→FQ​(Ir​):保留参考图像的非冲突特征。
      • fmod​=Tmod​→FQ​(Ir​):根据修改指令调整特征。
    • 架构展示​:Figure 2 展示了CCIN整体结构,包括CCI和CCN的协同工作。

 

 

    • 自适应融合模块​:使用MLP和Sigmoid函数加权融合特征:
      • θ1​=Sigmoid(MLP(fkep​,fmod​))
      • fneu​=θ1​⋅fkep​+(1−θ1​)⋅fmod​
      • 最终查询表示:fquery​=θ2​⋅fneu​+(1−θ2​)⋅ft​(ft​为文本特征)。
  • 损失函数​:总损失Ltotal​=LITC​+LOPR​+λLWRT​,包括:
    • 图像-文本对比损失(\mathcal{L}_{\text{ITC}}})。
    • 加权正则化三元组损失(\mathcal{L}_{\text{WRT}}}),基于相对距离区分正负样本。
    • 正交投影正则化损失(\mathcal{L}_{\text{OPR}}}),扩大冲突信息与目标图像的差异。

3. ​实验验证

实验在三个标准数据集进行:FashionIQ[48]、CIRR[27]和Shoes[16]。使用Recall@K(R@K)作为主要指标。

  • 数据集描述​:
    • FashionIQ​:77,684张时尚图像,30,134个三元组(参考图像、目标图像、修改指令),类别包括Dress、Shirt和Toptee。
    • CIRR​:21,552张真实世界图像,36,554个三元组,减少假阴性问题。
    • Shoes​:14,600张鞋类图像,用于属性发现和CIR任务。
  • 主要结果​:
    • 与SOTA方法比较​:CCIN在FashionIQ、CIRR和Shoes上均超越现有方法(如SPRC[2]、TG-CIR[45])。例如:
      • FashionIQ​:R@10和R@50平均值达64.59%,优于SPRC的64.27%(Table 1)。
      • CIRR​:R@1达53.41%,优于Re-ranking[29]的50.55%(Table 1)。
      • Shoes​:平均R@K达59.42%,优于TG-CIR的58.05%(Table 2)。

    • 定性分析​:Figure 4 展示CCIN与SPRC的对比案例。CCIN能有效中和冲突(如袖长和图案),正确检索目标图像,而SPRC因冲突导致错误预测。

 消融研究​:

  • 框架组件分析​(Table 3):移除CCIN架构导致性能下降(平均R@50从74.75%降至73.66%)。损失函数LWRT​和LOPR​进一步提升性能。

  • CCN模块分析​(Table 4):双重指令(Tkep​和Tmod​)比单一指令更有效(平均R@10 54.42% vs. 53.93%)。移除视觉特征严重降低性能。

  • LoRA微调分析​(Table 6):在ViT骨干网的39层进行LoRA微调(MLP和Attention)优化性能,但过度微调可能导致过拟合。

  • 超参数分析​:Figure 5 显示λ(控制损失权重)的影响。最优值因数据集而异(FashionIQ: λ=1, CIRR: λ=0.1, Shoes: λ=1)。

冲突识别分析​:CCI模块有效识别冲突属性(Table 5)。例如,FashionIQ中29.1%查询有2个以上冲突。Figure 6 和7 展示LLM(如GPT-4)在冲突识别中的优越性(vs. LLama2-70B和GPT-3.5)。 

 

 

4. ​贡献和结论

  • 主要贡献​:
    • 首次系统化解决了CIR中的组合冲突问题,提出可控制的识别和中和机制。
    • 设计了CCIN框架,结合LLM的显式冲突分析和双重指令的特征提取,提升检索精度。
    • 实验证明在多个数据集上显著优于SOTA方法,平均性能提升达2.44%(FashionIQ)。
  • 结论​:CCIN通过序列化冲突处理(识别→中和)解决了CIR的关键瓶颈。未来工作将探索多模态LLM(如GPT-4o)和更多输入模态(如草图)以扩展任务范围。
  • 代码可用性​:代码库公开于https://github.com/LikaiTian/CCIN。

论文: https://openaccess.thecvf.com/content/CVPR2025/papers/Tian_CCIN_Compositional_Conflict_Identification_and_Neutralization_for_Composed_Image_Retrieval_CVPR_2025_paper.pdf

 

http://www.dtcms.com/wzjs/207533.html

相关文章:

  • c#网站开发框架企业seo推广
  • 安阳县属于哪个省哪个市杭州优化商务服务公司
  • 专业企业网站建设公司网络营销和传统营销的关系
  • 天河做网站好用的搜索引擎
  • 做网站一般注意些什么网络营销带来的效果
  • 专做农产品的网站有哪些沈阳关键词优化费用
  • 在一家传媒公司做网站编辑_如何?拓客渠道有哪些
  • 襄阳市建设公司网站怎么做网站宣传
  • 惠州营销网站建设公司网站推广的软件
  • 网站开发的费用属于什么科目长沙专业seo优化推荐
  • 小型网站开发要多少钱想要推广网页正式版
  • 门户网站有哪些局限性seo技术经理
  • 拖拽建站模板优化营商环境的金句
  • 怎么查公司信息seo优化团队
  • 武汉光谷做网站建网站免费
  • 比较好看的网站设计搜索引擎下载入口
  • 口碑好的秦皇岛网站建设价格和生活app下载安装最新版
  • python搭建个人网站西安最新消息今天
  • 网站建设前景品牌营销方案
  • 做网站要源码吗淘宝怎么优化关键词排名
  • 做有色金属哪个网站好手机百度官网首页
  • 行业做门户网站挣钱吗seo免费外链工具
  • 太仓市住房和城乡建设局官方网站互联网营销师报名官网
  • 做单位网站的公司磁力搜索引擎2023
  • 做网站多少钱啊广州seo报价
  • c 开发商城网站开发整合网络营销是什么
  • 网站托管要求广告投放都有哪些平台
  • 做手机网站哪家好百度百科优化排名
  • 计算机系毕业论文想要做好一个网站 怎么做太原网站制作优化seo公司
  • 深圳网站开发工程师百度小说排行榜前十名