BLIP 和 BLIP2 的对比
BLIP 与 BLIP-2 的研究背景
-
BLIP(2022)
- 目标:做一个统一的视觉-语言预训练模型
- 特点:既能做理解任务(检索/VQA),又能做生成任务(Caption)
- 难点:训练需要处理大规模图文对,而且 Web 数据噪声大
-
BLIP-2(2023)
- 目标:让大语言模型(LLM)学会看图,但避免昂贵的端到端训练
- 特点:冻结 ViT 和 LLM,通过一个轻量桥梁 Q-Former 连接模态
具体分享在:
(2022ICML)BLIP:用于统一视觉语言理解和生成的自引导语言图像预训练
(2023ICML)BLIP-2:使用冻结图像编码器和大语言模型引导语言-图像预训练
一、两款模型的核心创新点
BLIP 的创新点
- 统一架构解决 “任务割裂” 问题
提出 “多模态混合编解码器(MED)”,一个模型能同时切换三种模式:
- 单模态编码器(处理图文检索等 “理解任务”);
- 图像条件文本编码器(处理图文匹配等 “对齐任务”);
- 图像条件文本解码器(处理图像描述等 “生成任务”)。
解决了传统模型 “要么擅长理解、要么擅长生成” 的局限。
- 用 “生成 + 过滤” 净化噪声数据
提出 “CapFilt 策略”:
- 先用模型为互联网图像生成 “合成描述”(Captioner);
- 再用过滤器剔除与图像无关的噪声描述(Filter)。
让模型能从海量低质量互联网数据中学习有效信息,减少对人工标注数据的依赖。
BLIP2 的创新点
- “冻结模型 + 轻量桥接” 大幅降低成本
首次采用 “冻结的图像编码器(如 ViT)+ 冻结的大语言模型(如 OPT/FlanT5)+ 轻量 Q-Former” 的架构设计。
其中,Q-Former 作为轻量模态桥梁,通过可学习 Query Token 从冻结的 ViT 中精准提取与语言相关的视觉特征,并将视觉信息压缩成大语言模型(LLM)可接受的软提示(Soft Prompt)。
这种设计实现了对大模型的冻结,无需进行端到端微调 LLM,不仅高效训练,还能完整保留其语言能力。由于仅需训练 Q-Former(188M 参数),计算成本降低 99% ,且训练参数少、计算开销低,具备极强的零样本泛化能力。
- 两阶段预训练实现 “模态对齐 + 生成能力” 双提升
Q-Former 依托两阶段训练策略,既保留了大语言模型的语言能力,又实现了跨模态生成。
- 阶段 1:视觉 - 语言表征学习:通过 ITC/ITM/ITG 任务,让 Q-Former 学会从图像中提取与文本相关的特征,解决 “看明白” 问题;
- 阶段 2:视觉到语言生成:将 Q-Former 提取的视觉特征送入 LLM,使语言模型学会基于这些特征生成文本,解决 “说清楚” 问题。
二、两款模型的相同点
- 核心目标一致
都聚焦于 “视觉 - 语言跨模态任务”,希望提升模型在图像描述、视觉问答(VQA)、图文检索等任务上的性能。 - 基础技术底座相同
都基于 Transformer 架构,通过 “注意力机制” 实现图像和文本的特征交互(如跨模态注意力让文本关注图像关键区域)。 - 重视数据质量
都针对 “互联网数据噪声多” 的问题设计了优化策略:BLIP 用 CapFilt 过滤噪声,BLIP2 则在 BLIP 的基础上进一步筛选高质量数据。 - 支持多任务迁移
预训练后都能灵活迁移到多种下游任务(如图文检索、VQA、图像描述),无需为每个任务单独设计模型。
三、两款模型的不同点
维度 | BLIP | BLIP2 |
---|---|---|
发布时间 | 2022 | 2023 |
模型设计思路 | 端到端训练(所有模块都可训练) | 冻结 + 桥接(仅 Q-Former 可训练,图像编码器和语言模型冻结) |
模态对齐方式 | MED 架构内部共享权重 | Q-Former 提取视觉 Query用作LLM软提示 |
核心组件 | 多模态混合编解码器(MED) | 轻量 Q-Former(连接冻结的图像编码器和语言模型) |
训练成本 | 较高(需训练 583M 参数,依赖大算力) | 较低(仅训练 188M 参数,普通 GPU 集群可完成) |
图像编码 | ViT(可训练) | ViT(冻结) |
对 “大语言模型” 的利用 | 未使用大语言模型(BERT/GPT 类 Transformer) | 深度依赖大语言模型(如 OPT、FlanT5),复用其语言生成能力 |
性能特点 | 在固定任务上精度高(如 COCO 图像描述) | 泛化能力强(零样本迁移到新任务表现好) |
理解关键点
- BLIP 像“多功能学生”
- 自己学图像 + 自己学语言
- 优点:全能
- 缺点:训练贵,依赖干净数据
- BLIP-2 像“请了一个博士当老师”
- 自己不学语言,直接用训练好的 LLM(博士)
- 自己只学会如何把图像讲给博士听(Q-Former)
- 优点:高效、生成能力强、零样本迁移好