少样本学习论文分享:多模态模型和元学习
Meta Learning to Bridge Vision and Language Models for Multimodal Few-Shot Learning
一、背景
少样本学习的核心难题:监督学习需要大量标注数据,而少样本学习旨在从极少数(如1-5个)示例中学习新概念。其根本挑战是如何让模型具备强大的泛化能力,避免在少量数据上过拟合。
大规模单模态预训练模型的成功与局限:
视觉模型:
如在大规模图像数据集(如ImageNet)上预训练的ResNet、ViT,学到了丰富的视觉特征,但它们是“哑巴”,缺乏语义理解。
语言模型:
如BERT、GPT,在大规模语料库上预训练,拥有深厚的语义和世界知识,但它们是“瞎子”,无法感知视觉世界。
多模态模型(如CLIP)的启示:
CLIP通过对比学习在海量图像-文本对上训练,将两个模态的特征对齐到同一空间。这使得它具备了强大的零样本迁移能力:无需任何示例,仅通过文本提示(如“一张狗的照片”)即可对图像进行分类。
元学习:
元学习,或称“学会学习”,其目标是训练一个模型,使其在经过少量步骤的调整后,就能快速适应新任务。这与少样本学习的目标高度契合。
二、现有研究的局限性
CLIP在少样本场景下的直接应用存在不足:
提示工程敏感:
CLIP的零样本性能高度依赖于手工设计的文本提示(如“一张[CLASS]的高质量照片”)。在少样本场景下,如何为每个新任务自动找到最优提示是一个挑战。
特征空间未优化:
CLIP的共享特征空间是为零样本通用性设计的。对于某个特定的少样本任务(如区分不同种类的鸟类),这个空间可能不是最优的,两个模态的特征对齐可能不够紧密。
简单的微调策略会破坏预训练知识:
如果直接用在少量样本上对CLIP的图像或文本编码器进行端到端微调,极易导致过拟合和灾难性遗忘,破坏模型在预训练中获得的神圣的通用知识,反而损害其泛化能力。
缺乏一个通用的“适配器”:
需要一个智能的、轻量的机制,能够快速地根据少数几个示例,来调整或桥接预训练好的视觉和语言模型,使它们能更好地协作解决当前的新任务,而不是笨重地修改模型本身。
三、本文创新性
本文的核心创新点是提出了一种元学习框架,该框架学会如何为一个新的少样本任务快速生成一个“桥接”机制,从而优化预训练的视觉和语言模型之间的协同工作。
“Bridge”:
这个“桥”不是物理连接,而是一个可调节的接口或适配器。它的作用是接收来自两个模态的特征,并对它们进行处理,使它们在特定任务的特征空间中实现更佳的对齐和交互,从而提升分类性能。
“Meta Learning”:
关键之处在于,这个“桥”本身不是手工设计的,也不是在少样本任务上从头训练的。而是在一个元训练阶段,通过模拟大量少样本任务,让模型学会如何根据支持集(少量示例)来快速配置这个桥的参数。
简而言之,创新性在于:学会如何为新的少样本任务快速搭建一座连接视觉和语言模型的智能桥梁。
四、技术亮点
模型很可能包含以下关键组件和训练流程:
元学习设定:
元训练:
使用一个包含大量类别的基础数据集(如ImageNet的多个类别)。训练过程中,不断随机抽样生成“任务”。每个任务包含一个支持集(少数几个类的少量样本)和一个查询集(用于评估该任务性能的样本)。
元测试:
在包含全新类别的数据集上评估模型,同样遵循少样本学习设定。
“Bridge”模块的设计:
这个模块是轻量级的,可能是一个小型神经网络。其输入是预训练视觉和语言模型提取的特征,输出是经过调整后的、更利于当前任务分类的融合特征或相似度分数。
具体形式可能包括:
可调提示生成器:
根据支持集图像,为文本编码器生成任务自适应的提示向量,替代手工设计的固定提示。
特征变换器:
一个小型网络,接收图像特征和文本特征,输出调整后的特征,使同类别的特征更紧凑,不同类别的特征更分离。
相似度校准器:
直接对图像和文本特征之间的余弦相似度进行校准,以优化分类决策边界。
元学习器的运作:
元学习器(通常也是一个可学习的网络,如LSTM或MLP)的作用是:根据当前任务支持集的数据,快速预测出“Bridge”模块的最佳参数。
过程如下:
将支持集的图像和文本(类别标签)输入冻结的CLIP编码器,得到特征。
将这些特征输入元学习器,元学习器输出一组参数,用于初始化“Bridge”模块。
使用这个初始化后的“Bridge”模块对查询集样本进行分类,计算损失。
通过梯度下降更新元学习器的参数,而不是“Bridge”模块的参数。目标是让元学习器学会如何针对一个陌生的支持集,快速配置出好的“Bridge”。
高效且保持先验:由于视觉和语言模型的主干是冻结的,只学习和更新轻量的元学习器和“Bridge”模块,这种方法既参数高效,又最大程度地保留了预训练模型宝贵的通用知识。
五、作用
实现更高效、更鲁棒的多模态少样本学习:该方法能够快速适应新任务,性能优于直接零样本推理或简单的微调,尤其在类别区分度细粒度的任务上。
自动化提示工程:通过元学习自动生成任务相关的提示,降低了对人工设计提示的依赖,使模型更智能、更易用。
推动预训练模型的高效适配:为如何“唤醒”和高效利用大规模预训练模型解决下游小数据任务提供了一个新颖的范式(即学会如何适配,而不是直接修改模型)。
连接两大AI领域:这项工作深刻地体现了如何将元学习(一种先进的训练范式)与大规模预训练模型(一种强大的基础模型)相结合,发挥各自优势,是AI技术融合的一个优秀范例。