当前位置: 首页 > news >正文

BLIP模型

BLIP模型的特点:

1.多任务架构 即可以同时执行三种类型的任务

   图像-文本对比学习(ITC):判断一个图像和一个文本描述是否匹配,模型学习将匹配的图像-文本对表示拉近。

   图像-文本匹配(ITM):学习更细粒度的图像-文本对齐,判断图像和文本是否匹配,并理解它们之间的对应关系。

   图像条件语言建模(LM):根据图像生成相关的文本描述。

2.模型含有的组件:

   图像编码器:使用VIT将图像编码转变为特征向量

   文本编码器:使用Transformer编码器,负责处理文本输入

   文本解码器:使用Transformer解码器,通过因果自注意力机制生成文本

下面用图示更好理解BLIP执行的任务:

左面第一模块是图像编码器,负责处理输入的图像,将其转换为特征向量。第二模块是文本编码器,用于分类任务,使用了双向自注意力,这意味在处理每个词时都能看到句子的全部上下文。第三个模块是基于图像的文本编码器(这是多模态融合的核心),模块通过交叉注意力层(Cross Attention)让文本中的每个词都能去关注图像中与之最相关的区域,最后一个模块是基于图像的文本解码器,它同样通过交叉注意力层来关注图像特征,关键区别在于它的因果自注意力层,这意味着在生成下一个词时,只能看到已经生成的词,而不能看到未来的词。

1.ITC

核心任务:将文本的特征和图像的全局特拿出来进行对比学习的任务,任务目标是让模型学会判断哪些文本和图像是匹配的(正例),哪些是不匹配的(反例)。

具体操作就是,正例就是一张图片和它对应的正确描述文本,反例是一个文本和另一个批次的随机图片。激励与惩罚是模型会被训练,使得正例的图片特征和文本特征在向量空间中的相似度(点积)尽可能高,则反例相似度会尽可能低。最终目标是让其特征空间对齐,即文本编码器和图像编码器这两个原本独立的模型,被“调教”到将语义上相关的图片和文本映射到同一个向量空间中相近的位置,这样模型就学会了跨模态的语义理解。

ITC借鉴了ALBEF的做法,引入动量编码器来生产特征,并从动量编码器中创建软标签作为训练目标。以考虑负样本中可能存在的正样本。其中动量编码器是一个大规模且稳定的特征字典,它为当前批次的特征提供更一致、更可靠的负例样本。由于它变化缓慢,避免在线编码器快速变化导致特征不一致的问题。

优点:传统的对比学习使用“硬标签”非0即1,过于绝对,忽略了负例中可能存在的部分相关性。引入动量编码器则可以生成软标签,即来自动量编码器的相似度概率是一个介于0-1之间的值。

2.ITM

和上面的不同点在于加了一个cross attention操作,就是让图片主动地去询问文本,图片的每个部分都去文本中寻找与它最相关的描述,这实现了一种细粒度、双向的深度融合。

图片编码器的输出embendding作为query,文本编码器中self attention之后的输出作为key和value

由于Query来自图片,Key和Value来自文本,能看出模型更侧重于根据文本重新审视理解图片,这对理解图片细节任务至关重要。

核心思想:ITM(二分类)好比是一个综合判断题,让模型直接回答匹配或者不匹配,它依靠一个特殊的【Encode】token来汇总图文深度融合后的信息。

还用到了ALBEF中的hard negative mining strategy,就是挑一些最容易被混淆的负例来训练模型。

这样做的好处会让模型在面对复杂、模糊的情况时,泛化能力和判别能力会变得极其强大。

3.LM

核心的思想:从前面的理解变成了创造,根据一张给定的照片生成一段流畅的文字描述。

通过因果自注意力的方式来保证模型训练和生成时行为一致,练就“凭空创作”的能力。

这种能力是基于这张照片,文本作为query,去图片(key、value)中寻找相关信息,确保生成的每个词都来源于图片内容。

损失函数是交叉熵函数,模型通过优化交叉熵,以自回归的方式训练,目的是最大化文本的似然性,目标是让模型输出的概率分布越来越集中在正确的下一个词。

http://www.dtcms.com/a/462625.html

相关文章:

  • 网站建设添加资料搜索引擎优化seo什么意思
  • Playwright与Python:从入门到精通的完整指南
  • maven本地仓库有相应的依赖,依旧会从远程仓库拉取问题的原因及解决
  • 如何修改wordpress站景区旅游网站平台建设方案
  • 网站建设拾金手指下拉十九济南天桥区做网站的
  • 甘肃水利工程建设管理网站东省住房和城乡建设厅网站
  • 10.9 换根dp
  • 上海做网站设计温州专业微网站制作多少钱
  • Trino:一个开源分布式大数据SQL查询引擎
  • 网站建设岗位职责做网站能致富吗
  • 网站优化方案设计wordpress删除用户头像
  • C# 弃元模式:从语法糖到性能利器的深度解析
  • 外国优秀网站欣赏广东茂名网站建设
  • 网站备案的用户名是什么广州比较好的网站建设
  • INT301 Bio-computation 生物计算(神经网络)Pt.1 导论与Hebb学习规则
  • 百度站长平台男女做暖暖的网站大全
  • 乌克兰集团网站建设wordpress 产品目录
  • C#基础16-C#6-C#9新特性
  • 两个RNA-蛋白以及蛋白间相互作用数据库
  • 《低速园区场景下决策模块的成本函数设计与编程实践》
  • 网站推广方法是什么企业网站建设cms系统
  • SpringBoot 集成 LangChain4j 本地调用 Ollama
  • 大前端最新网站设计一个企业官网的栏目
  • Vue 菜单权限管理的计与实现
  • 怎么自己做网站共享办公室 设计
  • Linux进程第八讲——进程状态全景解析(二):从阻塞到消亡的完整生命周期
  • 网站设计审美角度公司手机网站建设
  • 【数据结构】优先级队列(堆)
  • 合肥网站建设首选 晨飞网络nas的wordpress的端口
  • 动漫网站开发优势网店交易哪个平台好