当前位置: 首页 > news >正文

RORPCAP: retrieval-based objects and relations prompt for image captioning

研究方向:Image Captioning

1. 论文介绍

本文提出了一种基于检索的对象与关系提示用于图片标题生成(RORPCap),以最短的训练时间达到了与基于检测器与图卷积网络(GCN)的模型相当的性能指标。

RORPCap利用从OREM(对象和关系提取模型)获得的关于图像的对象和关系词,并将这些词填入模板中,然后使用GPT-2的分词器将其转换为提示嵌入。为了弥合视觉和文本模态之间的差距,使用基于Mamba构建的映射网络将CLIP提取的图像嵌入映射成视觉-文本嵌入。接下来,将提示嵌入和视觉-文本嵌入连接起来形成一个前缀。在训练期间,前缀与真实描述(GT)嵌入连接在一起,然后输入到GPT-2中,得到最终描述。

2. 方法介绍

2.1 对象和关系提取模型

直接将整个句子作为提示可能会引入冗余信息。为解决这个问题,如上图,我们在OREM中处理检索到的句子并从中提取重要信息。

对输入图像I和数据库S使用CLIP的视觉(CLIP-ViT-B/32)和文本编码器得到特征向量,然后基于余弦相似度使用最近邻搜索从数据存储(不包括ground truth)中检索k个最相似的句子,公式如下:

使用一个线性层和一个激活层将图像特征映射到n个高频词汇,并获得相应的分数。然后,我们提取分数大于s的前d个词汇,形成集合W_t。我们使用NLTK(自然语言处理工具包,用于从检索到的句子中提取特定词性的词汇)来标记检索到的K个句子中的词性。为了避免来自多余信息的干扰,只提取对象和关系的词语,形成词集W_s作为语义线索。

取集合W_t​和W_s​的交集,得到词集 W_n,这些词语可能无法提供足够的文本概念,因此还结合词频和相似度统计作为补充。

补充:在词性标注后对对象词和关系词进行频率分析,选择对象词频大于阈值o且关系词频大于阈值r的词语。对于对象,我们还计算与输入图像中对象的相似度,以提高选词的准确性。最终的对象词集合表示为W_o​,关系词集合表示为W_r。将它们填入固定提示模板中。

2.2 映射网络

仅使用图像中对象和对象中的关系词汇不足以传达其主要信息。还需要考虑这些细节之间的上下文关系,如颜色、形状、大小和位置,确保描述是合乎逻辑且易于阅读的。

选择Mamba模型作为连接视觉领域和文本领域的桥梁,用于处理从CLIP视觉编码器获得的图像嵌入。

2.3 语言生成器

生成描述所需的语义信息被封装在前缀中,使用 GPT-2(小型版)作为语言模型,利用前缀作为先验条件来预测下一个标记生成文本描述。

http://www.dtcms.com/a/344838.html

相关文章:

  • 多元函数积分学
  • kafka生产者 消费者工作原理
  • 线性回归8.21
  • 椭圆、双曲线、抛物线总对比表
  • Java 对象内存布局详解
  • Docker容器化部署实战:Tomcat与Nginx服务配置指南
  • 大模型推理-MTK Neurapilot sdk了解与环境配置-1
  • Unreal Engine UPrimitiveComponent
  • QT5 UI界面上Scroll Area控件显示滚动条
  • 浏览器开发CEFSharp+X86+win7(十三)之Vue架构自动化——仙盟创梦IDE
  • Lua脚本如何执行主程序的C函数
  • 智能二维码QR\刷IC卡\人脸AI识别梯控系统功能设计需基于模块化架构,整合物联网、生物识别、权限控制等技术,以下是多奥分层次的系统设计框架
  • 攻防世界—bug
  • 深度学习①【张量、全连接神经网络、激活函数、交叉熵损失函数】
  • 机器学习之线性回归:原理、实现与实践
  • 定制化鲜狗粮:宠物经济浪潮下的“精准喂养”革命
  • Python 办公自动化实战:Excel 批量处理 + 自动发邮件
  • 博士招生 | 英国谢菲尔德大学 招收计算机博士
  • 数据结构 -- 栈
  • 鹰角网络基于阿里云 EMR Serverless StarRocks 的实时分析工程实践
  • CDN行业中的SA板卡限速是什么
  • 品牌出海狂潮里,独立站支付的「隐形基建」正在改写规则
  • java18学习笔记-JavaDoc的@snippet注释标签
  • 数据结构 -- 队列
  • 【运维自动化-标准运维】变量的高级用法
  • 去中心化的私有货币与中心化的法定货币的对比分析
  • 数据结构与算法-算法-283移动零
  • 深度分析AI边缘盒子在电力行业的应用与发展
  • 【LeetCode】22. 括号生成
  • 欲打造未来感十足的规划馆,应优先引入哪些沉浸式多媒体技术?