当前位置: 首页 > news >正文

ALBEF/BLIP/BLIP2/Instruct BLIP/X Instruct BLIP

ALBEF

研究动机

ALBEF之前的一些方式, 视觉分支基本都是基于 dector的方式(检出目标框),如下图所示,由于大量的数据没有标框,因此视觉预训练的受限于dector的检测方式。
在这里插入图片描述

创新点

能不能不再采用dector的方式训练视觉分支模型,ALBEF采用了一种新的方式,能够在信息融合之前就对齐图文的特征,即Align Before Fuse

网络结构

  1. image encoder : ViT
  2. text encoder: BERT
  3. multimodal encoder : 通过 CrossAttention进行模态之间的融合
  4. Momentum Encoder : 输出软分布,有助于过滤图文不太匹配的噪声数据 .(不理解的可以看下何凯明的MoCo系列)
    在这里插入图片描述

损失函数

通过设计ITC(Image-Text Contrastive) Loss,强制在融合之前对齐特征。 通过设计两个下游任务,图文匹配(Image Text Match,ITM)和 完形填空(Masked Language Modeling, MLM)进行多模态模型的融合。
关键设计​​:在融合前加入​​图像-文本对比损失(ITC)​​,强制单模态编码器生成的表示在语义空间对齐(类似CLIP)

BLIP

研究动机

  1. 对于只有encoder结构的模型,无法做生成(因为没有生成任务)
  2. 对于 encoder-decoder结构的模型,可以做生成但是不能做检索这种理解式的任务。
  3. 网络上的图文对包含很多噪声,可能并不是真正的匹配图文对。

网络结构

如图所示,相对于 ALBEF结构,增加了一个decoder的模块,并且把完形填空任务换成了句子生成的任务(Language Model,LM), 并且把Cross Attention换成了Causal Attention,即从Bert形式换成了GPT的形式, 这样就可以进行生成了。 所以现在整个网络结构既有理解又有生成任务,做到了理解和生成的架构统一。
在这里插入图片描述

数据策略

在这里插入图片描述

BLIP2

研究动机

当前的大模型都是基于 大量数据和大模型参数量下进行训练的, 训练的很慢,能不能改善一下提高训练效率呢?
如果把 image encoder 和 text encoder都冻住不进行更新的话,这俩时间的gap可能会比较大,BLIP2在这两者之间加了一个 小的transformer的结构,即Q-Former,达到了四两拨千斤的效果。

网络结构

如图所示, 这两个框分别表示理解任务和生成任务
在这里插入图片描述
第一阶段Representation Learning
扮演了理解任务,即表征学习阶段, 通过一个 可学习Query和txt作为输入,通过设计 ITC,ITM ,ITGT(基于图像的文本生成)任务,把视觉特征和语言特征对齐,得到学习好的Query (学好后包含了对齐到语言空间的视觉信息)
在这里插入图片描述
在这里插入图片描述

第二阶段Generation Learning
把学习好的Query输入到 Decoder中,做生成任务。
在这里插入图片描述

Instruct BLIP

参考链接:
https://www.bilibili.com/video/BV15vsueME7J?spm_id_from=333.788.videopod.sections&vd_source=a671b6c09bdc87f50b8d9fbbf85c6245

研究动机

核心问题​:传统视觉-语言模型(如BLIP-2)在响应复杂指令时表现局限
(例如:“which picture shows the pizza inside the oven?” 需同时理解空间关系与对象状态)
​关键痛点​:
视觉特征与语言指令语义割裂​:冻结的Image Encoder无法感知任务需求
静态提示输入:LLM接收的视觉特征与当前指令无关

网络结构

在这里插入图片描述
​视觉特征提取​
图像输入预训练且冻结的ViT​(例如CLIP-ViT),输出特征向量

基于指令的Q-Former(创新核心)​​
任务指令(如披萨定位问题)与视觉特征共同输入Q-Former​
通过三层交互:
▪ ​Self-Attention​:融合指令语义(理解"inside"的空间关系)
▪ ​Cross-Attention​:筛选与指令相关的视觉特征(聚焦烤箱区域)
▪ ​Feed Forward​:强化任务适配特征表示

​LLM交互机制​
Q-Former输出的32个动态Token​(即软提示)经线性投影后
与指令文本拼接成完整输入:
[任务指令] + [指令感知视觉特征] → LLM
​响应生成​
冻结的LLM(如FlanT5、Vicuna)基于融合输入生成自然语言响应
(示例输出:“left one” 指向左图中的烤箱披萨)

架构图实例解析​(图中披萨定位示例)
当输入指令:
“which picture shows the pizza inside the oven?”
​Q-Former的运作​流程:
解析指令关键词 → inside(空间关系), oven(目标容器)
通过Cross-Attention聚焦图像中的烤箱内部区域​
输出对比特征:左图(披萨在烤箱内) vs 右图(披萨在台面上)
LLM基于特征对比生成响应 → left one

对比BLIP2

# BLIP-2的静态输入:
visual_prompt = [固定向量]  # 与"oven inside"无关# InstructBLIP的动态生成:
if 指令 == "which shows pizza inside oven?":visual_prompt = focus(烤箱区域, 披萨位置)  # 输出32个位置敏感Token

BLIP-2典型问题​(对比图中披萨定位任务)
问题:“which picture shows the pizza inside the oven?”
可能响应:“left: pizza on counter, right: pizza in oven”(需用户自行判断位置)
​InstructBLIP优化响应​
指令感知处理: Q-Former过滤"inside oven"相关特征
动态Token突出左图错误/右图正确区域
LLM直接生成:​​*"right one"​​*

总结:InstructBLIP的核心突破​

​将指令语义深度融入视觉特征提取阶段,通过动态软提示实现: ​​“让模型学会根据问题主动寻找视觉证据”​​
而BLIP-2仅是简单拼接静态图像特征与问题文本。

指标对比
在这里插入图片描述

X InstructBLIP

核心动机​

​解决多模态割裂问题​:传统多模态模型需对不同模态数据联合训练(如CLIP),计算成本高且模态扩展性差。
​打破模态壁垒​:实现图像、音频、视频、3D等异构模态的统一理解和推理,​仅通过单模态独立训练即可涌现跨模态能力​

网络结构

在这里插入图片描述

在这里插入图片描述

五种网络对比

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考

  1. https://www.bilibili.com/video/BV1uT411q7ef/?spm_id_from=333.337.search-card.all.click&vd_source=a671b6c09bdc87f50b8d9fbbf85c6245

  2. https://www.bilibili.com/video/BV15vsueME7J?spm_id_from=333.788.videopod.sections&vd_source=a671b6c09bdc87f50b8d9fbbf85c6245

http://www.dtcms.com/a/333944.html

相关文章:

  • 从废弃到珍宝——旧物二手回收小程序系统的价值发现之旅
  • 曲面/线 拟合gnuplot
  • 新手向:Python列表、元组、集合和字典的用法对比
  • 谷歌手机刷机和面具ROOT保姆级别教程
  • 基于 LoRA的广义知识蒸馏(GKD)训练
  • 软考 系统架构设计师系列知识点之杂项集萃(125)
  • 给纯小白的 Python 操作 Excel 笔记
  • STM32 延时函数详解
  • HackMyVM-Uvalde
  • 第七十五章:AI的“思维操控师”:Prompt变动对潜在空间(Latent Space)的影响可视化——看懂AI的“微言大义”!
  • 整体设计 符号学与诠释学融合的整体设计框架(本篇暂时命名)--PromptPilot (助手)答问之1
  • 第四章:大模型(LLM)】06.langchain原理-(5)LangChain Prompt 用法
  • PowerPoint和WPS演示放映PPT时如何禁止鼠标翻页
  • [1Prompt1Story] 注意力机制增强 IPCA | 去噪神经网络 UNet | U型架构分步去噪
  • 国产之光时空克隆:功能对标谷歌地球,旅游规划还能加载倾斜摄影模型,三维视频融合 免费使用
  • GaussDB 数据库架构师修炼(十三)安全管理(3)-行级访问控制
  • 【C++】C++11
  • implement copy file content to clipboard on Windows
  • spring-ai-alibaba 学习(二十六)——graph总结
  • 超越“调参”:从系统架构师视角,重构 AI 智能体的设计范式
  • 玩转云原生,使用k9s管理k8s集群和k3s集群
  • 基本电子元件:金属氧化膜电阻器
  • PostgreSQL 时间函数及格式类型
  • 【机器学习深度学习】OpenCompass:支持的开源评估数据集及使用差异
  • [CSP-J2020] 方格取数
  • [1Prompt1Story] 生成行为控制器 | 语义向量重加权(SVR)
  • qt vs2019编译QXlsx
  • 从 “视频孪生” 到 “视频动态目标三维重构”:技术演进与核心突破
  • 使用npm link本地测试组件库
  • [Linux] Linux tar文档管理 系统间复制文档