当前位置: 首页 > news >正文

BLIP 和 BLIP2 的对比

BLIP 与 BLIP-2 的研究背景

  • BLIP(2022)

    • 目标:做一个统一的视觉-语言预训练模型
    • 特点:既能做理解任务(检索/VQA),又能做生成任务(Caption)
    • 难点:训练需要处理大规模图文对,而且 Web 数据噪声大
  • BLIP-2(2023)

    • 目标:让大语言模型(LLM)学会看图,但避免昂贵的端到端训练
    • 特点:冻结 ViT 和 LLM,通过一个轻量桥梁 Q-Former 连接模态

具体分享在:
(2022ICML)BLIP:用于统一视觉语言理解和生成的自引导语言图像预训练
(2023ICML)BLIP-2:使用冻结图像编码器和大语言模型引导语言-图像预训练

一、两款模型的核心创新点

BLIP 的创新点

在这里插入图片描述

  1. 统一架构解决 “任务割裂” 问题
    提出 “多模态混合编解码器(MED)”,一个模型能同时切换三种模式:
  • 单模态编码器(处理图文检索等 “理解任务”);
  • 图像条件文本编码器(处理图文匹配等 “对齐任务”);
  • 图像条件文本解码器(处理图像描述等 “生成任务”)。

解决了传统模型 “要么擅长理解、要么擅长生成” 的局限。

  1. 用 “生成 + 过滤” 净化噪声数据
    提出 “CapFilt 策略”:
  • 先用模型为互联网图像生成 “合成描述”(Captioner);
  • 再用过滤器剔除与图像无关的噪声描述(Filter)。

让模型能从海量低质量互联网数据中学习有效信息,减少对人工标注数据的依赖。

BLIP2 的创新点

在这里插入图片描述

  1. “冻结模型 + 轻量桥接” 大幅降低成本
    首次采用 “冻结的图像编码器(如 ViT)+ 冻结的大语言模型(如 OPT/FlanT5)+ 轻量 Q-Former” 的架构设计。
    其中,Q-Former 作为轻量模态桥梁,通过可学习 Query Token 从冻结的 ViT 中精准提取与语言相关的视觉特征,并将视觉信息压缩成大语言模型(LLM)可接受的软提示(Soft Prompt)。

这种设计实现了对大模型的冻结,无需进行端到端微调 LLM,不仅高效训练,还能完整保留其语言能力。由于仅需训练 Q-Former(188M 参数),计算成本降低 99% ,且训练参数少、计算开销低,具备极强的零样本泛化能力。

  1. 两阶段预训练实现 “模态对齐 + 生成能力” 双提升
    Q-Former 依托两阶段训练策略,既保留了大语言模型的语言能力,又实现了跨模态生成。
  • 阶段 1:视觉 - 语言表征学习:通过 ITC/ITM/ITG 任务,让 Q-Former 学会从图像中提取与文本相关的特征,解决 “看明白” 问题;
  • 阶段 2:视觉到语言生成:将 Q-Former 提取的视觉特征送入 LLM,使语言模型学会基于这些特征生成文本,解决 “说清楚” 问题。

二、两款模型的相同点

  1. 核心目标一致
    都聚焦于 “视觉 - 语言跨模态任务”,希望提升模型在图像描述、视觉问答(VQA)、图文检索等任务上的性能。
  2. 基础技术底座相同
    都基于 Transformer 架构,通过 “注意力机制” 实现图像和文本的特征交互(如跨模态注意力让文本关注图像关键区域)。
  3. 重视数据质量
    都针对 “互联网数据噪声多” 的问题设计了优化策略:BLIP 用 CapFilt 过滤噪声,BLIP2 则在 BLIP 的基础上进一步筛选高质量数据。
  4. 支持多任务迁移
    预训练后都能灵活迁移到多种下游任务(如图文检索、VQA、图像描述),无需为每个任务单独设计模型。

三、两款模型的不同点

维度BLIPBLIP2
发布时间20222023
模型设计思路端到端训练(所有模块都可训练)冻结 + 桥接(仅 Q-Former 可训练,图像编码器和语言模型冻结)
模态对齐方式MED 架构内部共享权重Q-Former 提取视觉 Query用作LLM软提示
核心组件多模态混合编解码器(MED)轻量 Q-Former(连接冻结的图像编码器和语言模型)
训练成本较高(需训练 583M 参数,依赖大算力)较低(仅训练 188M 参数,普通 GPU 集群可完成)
图像编码ViT(可训练)ViT(冻结)
对 “大语言模型” 的利用未使用大语言模型(BERT/GPT 类 Transformer)深度依赖大语言模型(如 OPT、FlanT5),复用其语言生成能力
性能特点在固定任务上精度高(如 COCO 图像描述)泛化能力强(零样本迁移到新任务表现好)

理解关键点

  1. BLIP 像“多功能学生”
  • 自己学图像 + 自己学语言
  • 优点:全能
  • 缺点:训练贵,依赖干净数据
  1. BLIP-2 像“请了一个博士当老师”
  • 自己不学语言,直接用训练好的 LLM(博士)
  • 自己只学会如何把图像讲给博士听(Q-Former)
  • 优点:高效、生成能力强、零样本迁移好
http://www.dtcms.com/a/315069.html

相关文章:

  • 如何实现人机协同与人工智能的深度协同发展?
  • 【龙芯99派新世界】2.buildroot使用,连接wifi
  • 英伟达Llama - Nemotron 253B:大模型训练范式的革新与展望
  • C++多线程同步:深入理解互斥量与事件机制
  • 情感AI在医疗领域的核心应用潜力与创新方向
  • 02324-离散数学-速记宝典
  • WSL安装Ubuntu与Docker环境,比VMware香
  • Sparse4D系列算法:迈向长时序稀疏化3D目标检测的新实践
  • Flutter开发 了解Scaffold
  • FinalShell 跳板机proxyjump使用
  • 105页PPT | 麦肯锡五年战略规划方法论精要
  • SRIO入门之官方例程仿真验证
  • 系统一个小时多次Full GC,导致系统线程停止运行,影响系统的性能,可靠性
  • 活动预告丨“百胜软件胜券AI全国巡讲”8月14日首站启幕,诚邀您共聚广州
  • 【清除pip缓存】Windows上AppData\Local\pip\cache内容
  • 【核心技术二】Uvicorn:高性能 ASGI 服务器
  • C语言实现单链表的操作
  • 机器学习(11):岭回归Ridge
  • 不损失清晰度情况对图片进行压缩的工具类(可通过地址也可以通过文件调用)
  • 基于实时音视频技术的远程控制传输SDK的功能设计
  • 基于特征融合的医学图像分类算法
  • #C语言——刷题攻略:牛客编程入门训练(四):运算(二)
  • 【基于超表面实现电磁感应透明(EIT)的复现与讲解】
  • Spring P1 | 创建你的第一个Spring MVC项目(IDEA图文详解版,社区版专业版都有~)
  • [Shell编程] 零基础入门 Shell 编程:从概念到第一个脚本
  • 基于TurboID的邻近标记质谱(PL-MS)实验指南:从质粒构建到质谱鉴定
  • 【OS】操作系统概述
  • 互联网医院整体项目套表整理过程文档全流程分析
  • Stanford CS336 assignment1 | Byte-Pair Encoding (BPE) Tokenizer
  • 飞算JavaAI:颠覆传统开发的智能利器