当前位置：首页 > news >正文

BLIP 和 BLIP2 的对比

news 2025/11/10 23:24:01

BLIP（2022）
- 目标：做一个统一的视觉-语言预训练模型
- 特点：既能做理解任务（检索/VQA），又能做生成任务（Caption）
- 难点：训练需要处理大规模图文对，而且 Web 数据噪声大
BLIP-2（2023）
- 目标：让大语言模型（LLM）学会看图，但避免昂贵的端到端训练
- 特点：冻结 ViT 和 LLM，通过一个轻量桥梁 Q-Former 连接模态

具体分享在：
（2022ICML）BLIP：用于统一视觉语言理解和生成的自引导语言图像预训练
(2023ICML)BLIP-2：使用冻结图像编码器和大语言模型引导语言-图像预训练

一、两款模型的核心创新点

在这里插入图片描述

解决了传统模型 “要么擅长理解、要么擅长生成” 的局限。

让模型能从海量低质量互联网数据中学习有效信息，减少对人工标注数据的依赖。

在这里插入图片描述

“冻结模型 + 轻量桥接” 大幅降低成本
首次采用 “冻结的图像编码器（如 ViT）+ 冻结的大语言模型（如 OPT/FlanT5）+ 轻量 Q-Former” 的架构设计。
其中，Q-Former 作为轻量模态桥梁，通过可学习 Query Token 从冻结的 ViT 中精准提取与语言相关的视觉特征，并将视觉信息压缩成大语言模型（LLM）可接受的软提示（Soft Prompt）。

这种设计实现了对大模型的冻结，无需进行端到端微调 LLM，不仅高效训练，还能完整保留其语言能力。由于仅需训练 Q-Former（188M 参数），计算成本降低 99% ，且训练参数少、计算开销低，具备极强的零样本泛化能力。

核心目标一致
都聚焦于 “视觉 - 语言跨模态任务”，希望提升模型在图像描述、视觉问答（VQA）、图文检索等任务上的性能。
基础技术底座相同
都基于 Transformer 架构，通过 “注意力机制” 实现图像和文本的特征交互（如跨模态注意力让文本关注图像关键区域）。
重视数据质量
都针对 “互联网数据噪声多” 的问题设计了优化策略：BLIP 用 CapFilt 过滤噪声，BLIP2 则在 BLIP 的基础上进一步筛选高质量数据。
支持多任务迁移
预训练后都能灵活迁移到多种下游任务（如图文检索、VQA、图像描述），无需为每个任务单独设计模型。

维度	BLIP	BLIP2
发布时间	2022	2023
模型设计思路	端到端训练（所有模块都可训练）	冻结 + 桥接（仅 Q-Former 可训练，图像编码器和语言模型冻结）
模态对齐方式	MED 架构内部共享权重	Q-Former 提取视觉 Query用作LLM软提示
核心组件	多模态混合编解码器（MED）	轻量 Q-Former（连接冻结的图像编码器和语言模型）
训练成本	较高（需训练 583M 参数，依赖大算力）	较低（仅训练 188M 参数，普通 GPU 集群可完成）
图像编码	ViT（可训练）	ViT（冻结）
对 “大语言模型” 的利用	未使用大语言模型（BERT/GPT 类 Transformer）	深度依赖大语言模型（如 OPT、FlanT5），复用其语言生成能力
性能特点	在固定任务上精度高（如 COCO 图像描述）	泛化能力强（零样本迁移到新任务表现好）