CLIP,BLIP,SigLIP技术详解【二】
以下针对CLIP、BLIP、SigLIP三大技术的核心方案、模型结构、训练方法、数据与损失函数设计、Benchmark表现及应用场景进行深度解析
⚙️ 一、CLIP(Contrastive Language-Image Pre-training)
1. 模型结构与训练方案
- 双塔架构:
- 图像编码器:ViT(Vision Transformer)或ResNet,输出图像特征向量
- 文本编码器:Transformer,输出文本特征向量
- 共享嵌入空间:通过对比学习对齐图文特征,相似正样本对特征靠近,负样本远离。
- 训练流程:
- 数据批次构建:Batch内每张图像与所有文本描述组成正/负样本对(Batch Size需≥32k)
- 优化目标:最大化正样本对的余弦相似度,最小化负样本对相似度。
2. 训练数据与Loss设计
- 数据:4亿互联网图文对(WebImageText),覆盖开放域场景。
- Loss函数:
\mathcal{L}_{\text{InfoNCE}} = -\log \frac{\exp(\text{sim}(I_i, T_i)/\tau