当前位置: 首页 > news >正文

Reason-before-Retrieve(CVPR 2025)

研究方向:Image Captioning

论文全名:《Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval

1. 论文介绍

组合图像检索(CIR)旨在检索与参考图像密切相似的目标图像,同时整合用户指定的文本修改,从而更准确地捕捉用户意图。

本文提出了一种新颖的无训练的单阶段方法,用于零样本组合图像检索(ZS-CIR)的单阶段反思思维链推理(OSrCIR),该方法采用多模态大型语言模型来保留必要的视觉信息在单阶段推理过程中进行改进,消除了两阶段方法中的信息丢失。我们的反思思维链框架通过将操纵意图与参考图像的上下文线索对齐来进一步提高解释准确性。

2. 方法介绍

给定一个参考图像I_r 和一个操作文本 T_m,ZS-CIR从图像数据库 D中检索出与I_r在视觉上相似的图像,同时结合T_m中指定的修改。

我们将目标图像描述T_t作为基于多模态大型语言模型(MLLM)\phi M的组合查询进行推理,为了确保 \phi M以人类可理解的方式推理 T_t,我们引入了一个反思思维链提示p_c​。然后使用获得的目标图像描述T_t通过CLIP进行图像检索,并使用预训练文本编码器\phi T将目标图像描述T_t和候选图像I_c嵌入到一个共享的、可搜索的空间中。用余弦相似度计算 cos(\phi_I(I_c),\phi_T(T_t))匹配分数。

2.1 单阶段推理过程

给定一个多语言语言模型 \phi M​,我们按如下方式生成包含用户对参考图像I_r的操作意图T_m的目标图像描述T_t

T_t = \phi_M(p_c\circ I_r\circ T_m)

2.2 反思思维链用于ZS-CIR

反思CoT提示指导以下逐步推理步骤:

原始图像描述:原始图像描述步骤突出显示参考图像中与用户意图相关的视觉细节。

思考:思维步骤捕捉用户的意图和对可能被操纵的视觉元素的推理。

反思:进一步评估这些元素以识别那些最符合用户意图的内容。

目标图像描述:基于与目标检索最相关的视觉修改生成精炼的描述。

语境中的语言引导视觉学习:单纯为反思性CoT过程提供指导对于大型语言模型理解每一步骤所需的CoT过程是不足够的。我们利用在语境中学习的方法,该方法通过提供一些预期的大型语言模型输出的文本示例,而不需要参考图像,来指导大型语言模型在每个步骤中的推理过程。

组合图像检索:给定目标图像描述 T_t,我们的模型使用一个冻结的预训练CLIP对图像搜索数据库 D 和T_t进行编码。重新检索到的目标图像I_t确定如下:

I_t = \arg\max_{I_r \in D} \frac{\phi_I(I_r)^\top \phi_T(T_t)}{\|\phi_I(I_r)\| \|\phi_T(T_t)\|}

其中选定的目标图像I_t是与生成的目标图像描述最相似的一个。

http://www.dtcms.com/a/300664.html

相关文章:

  • 网易大模型算法岗面经80道
  • Vim 编辑器工作模式及操作指南
  • ksql连接数据库免输入密码交互
  • Spring Boot + @RefreshScope:动态刷新配置的终极指南
  • C#中Visual Studio平台按照OfficeOpenXml步骤
  • Pinocchio 结合 CasADi 进行 IK 逆运动学及 Mujoco 仿真
  • 【嵌入式硬件实例】-555定时器调光电路实现
  • Java大数据面试实战:Hadoop生态与分布式计算
  • 数据赋能(340)——技术平台——共享平台
  • 不坑盒子:Word里1秒制作“花括号”题目,多音字组词、形近字组词……
  • 零基础学习性能测试第五章:求最佳线程数
  • MySQL 8.0.42创建MGR集群
  • 元宇宙中的“虫洞“:技术实现、应用场景与未来挑战
  • Dify v1.6.0:支持MCP了,为更顺畅的交互打开了大门
  • 【Linux系列】nproc
  • CPA-7-资产减值
  • 墨者:通过手动解决SQL手工注入漏洞测试(MySQL数据库)
  • 握手未来,PostgreSQL认证专家
  • GTP4.0官网版:智能对话与知识引擎,重塑客户服务效率
  • Sql server开挂的OPENJSON
  • USB设备调试
  • 【LeetCode刷题指南】--设计循环队列
  • Java 大视界 -- Java 大数据机器学习模型在电商客户细分与精准营销活动策划中的应用(367)
  • 3D碰撞检测系统 基于SAT算法+Burst优化(Unity)
  • Java面试宝典:MySQL执行原理二
  • MongoDB索引及其原理
  • 接口自动化-logging日志
  • Qt 窗口 工具栏QToolBar、状态栏StatusBar
  • 24点数学游戏(穷举法求解表达式)
  • 基于Matlab自适应阈值分割算法的图像处理研究