【AI大模型应用宝典60题】31-35
目录
Q31:向量相似度检索不能实现关键词的精确匹配,基于倒排索引的关键词检索不能匹配语义相近的词,如何解决这对矛盾?为什么需要重排序模型?
Q32:为什么要在向量相似度检索前,对用户输入的话进行改写?
Q33:如果需要根据某长篇小说的内容回答问题,而小说的长度远远超出了上下文限制,应该如何综合利用摘要和 RAG 技术,使其能同时回答故事梗概和故事细节?
Q34:在 CLIP 训练过程中,为什么需要同时最大化匹配图文对的相似度和最小化非匹配图文对的相似度?
Q35:BLIP-2 为何不直接将视觉编码器的输出连接到语言模型,而要引入 Q-Former 这一中间层结构?

Q31:向量相似度检索不能实现关键词的精确匹配,基于倒排索引的关键词检索不能匹配语义相近的词,如何解决这对矛盾?为什么需要重排序模型?
为解决语义检索与关键词匹配的矛盾,我采用混合检索架构:
Q32:为什么要在向量相似度检索前,对用户输入的话进行改写?
(记忆:语义、风格、歧义、聚焦)
Q33:如果需要根据某长篇小说的内容回答问题,而小说的长度远远超出了上下文限制,应该如何综合利用摘要和 RAG 技术,使其能同时回答故事梗概和故事细节?
Q34:在 CLIP 训练过程中,为什么需要同时最大化匹配图文对的相似度和最小化非匹配图文对的相似度?
【答疑解析】1、什么是CLIP训练?CLIP 的训练目标:
让模型学会把图片和与之匹配的文字“对齐”在同一个语义空间中。
CLIP 由两部分组成:训练后,图像和文本都被映射到**同一个嵌入空间(joint embedding space)**中。
模块 作用 常见结构 图像编码器(Image Encoder) 将图像编码为向量表示 通常使用 ViT 或 ResNet 文本编码器(Text Encoder) 将文本(描述语句)编码为向量表示 通常使用 Transformer(类似 BERT)
Q35:BLIP-2 为何不直接将视觉编码器的输出连接到语言模型,而要引入 Q-Former 这一中间层结构?
【答疑解析】
1、什么是BLIP-2?是一种让大型语言模型(LLM)具备理解图像能力的多模态框架。
它通过一个中间模块 Q-Former,把图像特征转化为语言模型能理解的语义向量,实现了**“零样本”视觉语言任务**(如图像描述、问答、理解)。
BLIP-2 由三部分组成:
模块 作用 示例模型 视觉编码器(Vision Encoder) 提取图像的视觉特征 ViT / CLIP-ViT Q-Former(Query Transformer) 把视觉特征转换成语言可理解的表示 特有模块 语言模型(LLM) 执行文本生成、问答等任务 Flan-T5 / OPT / LLaMA 等 工作原理(整体流程)
图片 → 视觉编码器 → Q-Former → 语言模型 → 文本输出更详细地看:
图像编码
ViT 把图像转换为 patch 向量序列(dense 视觉特征)。语义抽取(Q-Former)
内部有一组 learnable queries;
通过 cross-attention 从视觉特征中提取关键信息;
输出紧凑的语义 embedding(例如 32 个 token)。
语义对齐与生成
把 Q-Former 的输出作为语言模型的输入前缀;
LLM 根据图像语义 + 文本提示生成语言结果。
创新点与优势
特点 说明 模块化设计 无需重新训练整个模型,可复用现有 ViT 和 LLM 轻量高效 只需训练 Q-Former 模块(参数量小) 语义桥接 Q-Former 实现模态对齐与压缩 多任务泛化 支持图像描述、问答、检索、推理等任务 开放性强 可以和不同语言模型组合(T5、LLaMA、OPT 等) 🖼️ 举例:BLIP-2 如何“看图说话”
输入:一张图片(狗在草地上奔跑)
提示词(Prompt):"Describe the image."输出(语言模型生成):
“A dog is running on the grass with a happy expression.”
整个生成的关键在于:
ViT 提供视觉特征;
Q-Former 从中提炼语义;
LLM 把语义转化成自然语言。
对比:BLIP vs BLIP-2
对比项 BLIP BLIP-2 时间 2022 2023 是否用 LLM 否 ✅ 使用现成 LLM 模态桥接方式 端到端融合 Q-Former 模块 训练代价 大 小(仅训练中间层) 效果 好 更好、更通用 小结表格
项目 内容 模型全称 Bootstrapped Language-Image Pretraining 2 核心组件 Vision Encoder + Q-Former + Language Model 核心思想 轻量化视觉-语言对齐,不重新训练大模型 主要作用 让 LLM 理解图像 应用场景 图像描述、视觉问答、跨模态检索、多模态推理
2、为什么要有 BLIP-2?
在 BLIP-2 之前,有两种常见的多模态方案:
方法 思路 问题 端到端训练(如 Flamingo、PaLI) 把视觉和语言模型一起训练 成本极高,需要上千 GPU 轻量拼接(如 CLIP + GPT) 直接把视觉特征拼给语言模型 特征空间不匹配,性能差 BLIP-2 想要做到:
利用预训练好的视觉模型(ViT)和语言模型(LLM);
不用大规模端到端训练;
仍能让语言模型自然地理解图像内容。
