少样本学习学习论文分享:多模态性帮助单模态性
Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models
一、背景
少样本学习的挑战:
在传统机器学习中,要让模型在某个任务上表现良好,通常需要大量标注数据。少样本学习 旨在解决数据稀缺的问题,即模型只能看到极少数(如1-5个)示例来学习一个新任务。这是一个非常困难的问题,因为模型很容易过拟合或无法从少量样本中泛化。
预训练范式的兴起:
近年来,一个成功的范式是:先在超大规模数据集上进行预训练,让模型学到通用的、丰富的表示,然后通过微调 来适应特定的下游任务。即使下游任务数据很少,预训练模型也能表现出强大的泛化能力。
多模态大模型(如CLIP)的突破:
像CLIP这样的模型在数亿的“图像-文本”对上进行了预训练。它学会了将一个图像和其文本描述映射到同一个语义空间。这种跨模态对齐 使得模型具有了零样本能力:无需任何示例,即可根据文本提示(如“一张狗的照片”)对图像进行分类。
二、现有研究的局限性
少样本学习方法的瓶颈:
传统的少样本学习方法通常基于单模态预训练模型(例如,只在ImageNet上预训练的ResNet)。这些模型的表示能力受限于单模态数据,当少样本示例极度有限时,其性能天花板较低。
多模态模型的潜力未被充分挖掘:
主要用途是零样本:
像CLIP这样的多模态模型,其最引人注目的能力是零样本识别,即完全不提供示例。
少样本微调策略简单:
当将它们用于少样本学习时,常见做法是只使用其中一种模态(通常是图像分支),并沿用传统的单模态少样本微调方法(例如,在有限的图像数据上微调分类头或整个模型)。这种做法“浪费”了模型在预训练中学到的宝贵跨模态知识。它相当于把一个多模态模型“降级”为一个单模态模型来使用。
核心问题:
现有方法没有思考如何在少样本微调阶段,主动地、显式地利用起来自另一模态的知识来辅助当前模态的任务。
三、本文创新性
本文的核心创新点正在于标题:“Multimodality Helps Unimodality”。
核心思想:
在(例如)图像的少样本学习任务中,虽然我们只有很少的图像标签,但我们依然可以充分利用预训练多模态模型(如CLIP)中已经对齐的文本先验知识,来辅助和提升图像模型的性能。
实现途径:
提出了一种跨模态少样本学习方法。即使在微调时只有一种模态的数据(如图像),也通过设计特定的机制,让另一种模态(如文本)的知识能够持续地、有效地“帮助”主任务模态。
四、技术亮点
论文很可能包含以下一个或多个关键技术设计:
跨模态提示学习:
问题:
在少样本场景下,固定的文本提示(如“一张[CLASS]的照片”)可能不是最优的。
解决方案:
引入可学习的提示向量。不仅为图像侧添加可学习的提示(Adapter或Visual Prompt),更重要的是为文本侧也添加可学习的提示。这些文本提示向量在少量图像样本上进行微调,目标是找到最能激发多模态模型知识、最适配当前少样本任务的文本表达方式。这样,文本模态的知识就被动态地调整来帮助图像分类。
特征分布对齐与约束:
在微调过程中,为了防止模型在少量数据上过拟合并遗忘预训练时学到的强大跨模态对齐能力,会施加跨模态约束。
例如,要求微调后图像特征与文本分类器权重(由类别名称通过文本编码器得到)之间的余弦相似度关系保持不变,或者其分布与预训练时的分布不要偏离太远。这相当于让文本模态作为一个“锚点”,稳定和引导图像特征的微调方向。
知识蒸馏与师生框架:
利用完整的、冻结的CLIP模型(包含图像和文本编码器)作为教师模型,它提供了强大的零样本预测结果。
将要微调的模型(可能只微调图像编码器)作为学生模型。
在少样本微调时,让学生模型的预测不仅要拟合真实的少数图像标签(监督损失),还要尽量向教师模型的预测分布靠拢(蒸馏损失)。这样,教师模型中蕴含的跨模态知识就被蒸馏到了学生模型中。
模态协同推理:
在推理阶段,不再是简单地将图像输入微调后的图像编码器。而是设计一个协同流程,例如,将图像特征和由文本编码器生成的所有类别文本特征进行融合或交互,最终做出决策。这确保了文本模态的知识在最终决策中依然发挥作用。
五、作用
显著提升少样本学习性能:
这是最直接的作用。通过引入另一模态的知识作为强先验和正则化器,该方法能有效防止过拟合,提升模型在极少样本下的泛化能力,实现比传统单模态少样本学习方法高得多的准确率。
为多模态模型的应用开辟新思路:
它证明了多模态模型的价值不仅在于其零样本能力或处理多模态输入的任务,更在于其内部对齐的知识可以被提取出来,赋能和增强单模态任务。这极大地拓展了多模态模型的应用场景。
提供了一种新的正则化范式:
在数据稀缺的场景下,“利用另一模态的知识” 成为一种非常强大的正则化技术,比常见的L2正则化、Dropout等技术更有效。
推动高效迁移学习:
该方法属于参数高效微调,通常只需要微调极少的参数(如提示向量),就能实现巨大性能提升,计算成本低,非常适合实际部署。