当前位置：首页 > news >正文

BLIP论文笔记

news 2025/7/10 1:02:24

论文地址：BLIP
代码地址：BLIP

Abstract

视觉-语言预训练（VLP）已经提升了许多视觉-语言任务的性能。然而，大多数现有的预训练模型只在理解类任务或生成类任务中表现出色。此外，性能提升主要通过扩大从网络收集的噪声图像-文本对数据集来实现，这是一个次优的监督来源。在本文中，我们提出了BLIP，一个新的VLP框架，可以灵活地迁移到视觉-语言理解和生成任务。BLIP通过自举标题的方式有效利用噪声网络数据，其中标题生成器生成合成标题，过滤器移除噪声标题。 我们在广泛的视觉-语言任务上取得了最先进的结果，如图像-文本检索（平均recall@1提升2.7%）、图像标题生成（CIDEr提升2.8%）和视觉问答（VQA得分提升1.6%）。BLIP还展现了强大的泛化能力，可以零样本直接迁移到视频-语言任务。

[!tip]
这个摘要其实体现了很多当时研究的问题所在，尤其是在阅读了CLIP与VILT论文之后，存在的问题很明显：

专业化困境: 现有模型要么擅长理解（如检索），要么擅长生成（如描述），缺乏统一性

数据质量瓶颈: 依赖网络爬取的噪声数据，存在大量不准确的图像-文本配对

扩展性限制: 简单的数据量扩展并不能解决根本的数据质量问题

BLIP模型在此基础上提出了他们的解决方案：

统一架构： 设计了能同时处理理解和生成任务的模型架构
数据自举： 用模型自身来清洗和改善训练数据质量
双模块协作： Captioner负责生成，Filter负责筛选，形成闭环优化

Introduction

视觉-语言预训练最近在各种多模态下游任务上取得了巨大成功。然而，现有方法存在两个主要局限性：

(1) 模型视角： 大多数方法要么采用基于编码器的模型，要么采用编码器-解码器模型。然而，基于编码器的模型不太容易直接迁移到文本生成任务（如图像描述生成），而编码器-解码器模型尚未成功应用于图像-文本检索任务。

(2) 数据视角： 大多数最先进的方法在从网络收集的图像-文本对上进行预训练。尽管通过扩大数据集规模获得了性能提升，但我们的论文表明噪声网络文本对于视觉-语言学习是次优的。

为此，我们提出了BLIP：用于统一视觉-语言理解和生成的自举语言-图像预训练。 BLIP是一个新的VLP框架，能够支持比现有方法更广泛的下游任务。它分别从模型和数据角度引入了两个贡献：

(a) 多模态编码器-解码器混合架构（MED）： 一种用于有效多任务预训练和灵活迁移学习的新模型架构。MED可以作为单模态编码器、图像引导的文本编码器或图像引导的文本解码器运行。该模型通过三个视觉-语言目标进行联合预训练：图像-文本对比学习、图像-文本匹配和图像条件语言建模。

(b) 标题生成与过滤（CapFilt）： 一种从噪声图像-文本对中学习的新数据集自举方法。我们将预训练的MED微调为两个模块：一个标题生成器用于为网络图像生成合成标题，一个过滤器用于从原始网络文本和合成文本中移除噪声标题。

此处Claude4给出一个分析很好，也在下面补充：

[!info]
编码器模型的局限性：

典型代表： CLIP、ALBEF等

擅长任务： 图像-文本检索、分类等理解任务

局限性： 无法直接生成连贯的文本序列，因为缺乏自回归生成能力

具体问题： 当需要生成图像描述时，编码器只能产生固定长度的表示，无法逐词生成文本

下面是BLIP的模型架构MED，如下：
模型MED

整体可以分为四个主要部分，从左到右分别为：

图像编码器
文本编码器
视觉文本编码器
视觉文本解码器

图像编码器

将文本分割为多个Patch，然后输入编码器得到image embedding，此处仍然采取的是ViT架构（遵循VILT的设计），完全不使用卷积神经网络，而是用Transformer架构进行替代。
![[Drawing 2025-05-21 19.57.03.excalidraw|1000]]

文本编码器

图片上看的不是很真切，但是查了别的博客，这里直接使用的BERT的架构，BERT本身就是Transformer的编码器部分。大致结构如下图所示：
BERT
第二部分的Bi self-attention再级联前向传播的结构与论文《Attention is all you need》中的网络结构类似：

ITC损失

此处的 ITC 全称是 Image-Text Contrastive Loss（图像-文本对比损失），这是BLIP模型中三个预训练目标之一。

1. 特征提取

图像通过视觉编码器（Vision Transformer）得到图像特征 $f_v$
文本通过文本编码器得到文本特征 $f_t$

2. 相似度计算

计算图像特征和文本特征之间的余弦相似度：
$\frac{f_v \cdot f_t}{||f_v|| \cdot ||f_t||}$

3. 对比损失公式

ITC损失包含两个方向：
图像到文本方向：
$L_{i2t} = -\frac{1}{N}\sum_{i=1}^{N} \log \frac{\exp(s(v_i, t_i)/\tau)}{\sum_{j=1}^{N} \exp(s(v_i, t_j)/\tau)}$
文本到图像方向

$L_{t2i} = -\frac{1}{N}\sum_{i=1}^{N} \log \frac{\exp(s(v_i, t_i)/\tau)}{\sum_{j=1}^{N} \exp(s(v_j, t_i)/\tau)}$

总的ITC损失：

$L_{ITC} = \frac{1}{2}(L_{i2t} + L_{t2i})$

其中：

$N$ 是批次大小
$\tau$ 是温度参数
$v_i, t_i)$ 是匹配的图像-文本对
在BLIP中，视觉文本编码器和视觉文本解码器是模型的核心组件，我来详细解释它们的实现原理和设计思路：

视觉文本编码器（Multimodal Encoder）

实现方式

输入：图像特征 + 文本特征
架构：基于BERT的Transformer编码器
关键组件：Cross Attention + Self Attention

具体结构

输入处理：
- 图像特征：
  $CLS]_{img}, patch_1, patch_2, ..., patch_N]$
- 文本特征：
  $CLS]_{txt}, token_1, token_2, ..., token_M]$
- 拼接成：
  $CLS]_{img}, patches, [CLS]_{txt}, tokens]$
Transformer层：
- Self Attention：处理图像和文本的联合表示
- Cross Attention：显式建模图像-文本交互
- 前馈网络：特征变换

作用

学习图像和文本的深层交互
为ITM（Image-Text Matching）任务提供融合特征
输出用于判断图像-文本对是否匹配

视觉文本解码器（Multimodal Decoder）

实现方式

输入：图像特征 + 部分文本序列
架构：基于GPT的Transformer解码器
关键组件：Causal Self Attention + Cross Attention

具体结构

1. Causal Self Attention

对文本序列进行因果自注意力
确保生成时只能看到前面的token
掩码矩阵防止信息泄露

2. Cross Attention机制

# 伪代码示例
class CrossAttention:def forward(self, text_hidden, image_features):# Query来自文本特征Q = self.query_proj(text_hidden)# Key和Value来自图像特征K = self.key_proj(image_features)V = self.value_proj(image_features)# 计算注意力attention_weights = softmax(Q @ K.T / sqrt(d_k))output = attention_weights @ Vreturn output

3. 为什么需要Cross Attention

信息流向：

Query（Q）：来自当前生成的文本特征
Key（K）和Value（V）：来自图像编码器的输出
作用机制：

视觉引导：文本生成过程中动态关注图像的不同区域
内容对齐：确保生成的文本与图像内容一致
细节捕获：根据生成进度关注图像的相关细节

一个需要注意的点是：相同颜色的部分是参数共享的，即视觉文本编码器和视觉文本解码器共享除 Self-Attention 层之外的所有参数。每个 image-text 在输入时，image 部分只需要过一个 ViT 模型，text 部分需要过3次文本模型。

接入前面图像编码器输出的原因

1. 分层特征利用

图像编码器输出 → 提供视觉特征基础
文本编码器输出 → 提供语言特征基础
多模态编码器 → 融合交互特征
多模态解码器 → 生成任务特征

2. 信息传递路径

直接连接：保留原始单模态信息
交叉连接：建立跨模态关联
层次融合：从浅层到深层逐步融合

3. 任务特化设计

# 不同任务使用不同组件
if task == "Image-Text Retrieval":use_unimodal_encoders()  # ITC损失
elif task == "Image-Text Matching":use_multimodal_encoder()  # ITM损失
elif task == "Image Captioning":use_multimodal_decoder()  # LM损失

CapFilt模块

模块主要解决数据质量困境：

高质量人工标注数据：数量有限，如COCO数据集，标注成本极高
网络爬取数据：规模庞大但质量参差不齐，alt-text往往不能准确描述图像内容，存在大量噪声
核心思想
通过自举学习（Bootstrapping的方式，利用少量高质量数据训练模型，再用训练好的模型来改善大规模网络数据的质量。
数据符号说明
$I_h, T_h$ ：人工标注的图像-文本对（高质量，小规模）
$I_w, T_w$ ：网络爬取的图像-文本对（低质量，大规模）
$T_s$ ：模型生成的合成文本
$T̃_w, T̃_s$ ：经过过滤的高质量文本

具体工作流程：

第一阶段：模型初始化

使用人工标注数据 ${I_h, T_h}$ → 预训练基础MED模型

第二阶段：专门化微调

从同一个预训练模型分别微调出两个专门化模块：

Captioner（描述生成器）
本质： 图像引导的文本解码器（Image-grounded Text Decoder）
微调目标： 语言建模（LM）目标
功能： 为网络图像 $I_w$ 生成高质量的合成描述 $T_s$
训练数据： COCO等人工标注数据集
Filter（质量过滤器）
本质： 图像引导的文本编码器（Image-grounded Text Encoder）
微调目标： ITC（图像-文本对比）+ ITM（图像-文本匹配）目标
功能： 判断图像-文本对是否匹配，过滤噪声数据
过滤标准： ITM头预测为"不匹配"的文本被视为噪声

第三阶段：数据增强与过滤

伪代码流程

for web_image in web_images:# 1. 生成合成描述synthetic_caption = captioner.generate(web_image)# 2. 过滤原始网络文本if filter.is_matched(web_image, original_web_text):keep_original_text()# 3. 过滤合成文本if filter.is_matched(web_image, synthetic_caption):keep_synthetic_text()