小样本学习
参考网站:小样本学习
什么是小样本学习:
小样本学习是具有有限监督数据的机器学习。以最少的数据,实现学习。
举个例子:
传统深度学习(大样本学习):
比如教 AI 认 “猫”,需要给它看10 万张不同角度、颜色、品种的猫照片,它才能总结出 “猫有四条腿、尖耳朵、长尾巴” 的规律。
缺点:像个 “死记硬背的学生”,必须靠大量练习才能学会,遇到没见过的猫(比如戴帽子的猫)可能就认不出了。
小样本学习(Few-Shot Learning):
现在只给 AI 看3 张猫的照片,甚至1 张,它就能学会认猫。
秘诀:
- 用以前学过的知识打底:
比如 AI 之前学过 “动物”“哺乳动物” 的共性(有毛、会动),现在只需要告诉它 “猫是一种小型哺乳动物,有尖耳朵”,就能快速联想起来。 - 找规律比记细节更重要:
不死记硬背每只猫的样子,而是抓住 “猫和狗的区别”(比如耳朵形状、胡须长度),用 “对比法” 学习。 - 自己 “脑补” 更多例子:
如果样本太少,AI 会自己 “想象” 出更多猫的样子(比如用生成技术画出不同姿态的猫),假装自己见过更多数据。
因此小样本学习重点为:数据、模型、算法,小样本学习的研究都是从这三方面着手。因此,小样本学习方法大致可分为基于数据增强的方法、基于模型改进的方法、基于算法优化的方法。
基于数据增强的方法
- 核心思想:通过几何变换(旋转、翻转)、像素扰动(噪声添加、Cutout)、特征混合(Mixup/CutMix)等方式,人为扩展样本空间,模拟真实数据分布的多样性。
- 案例:在医学影像中,对少量肺部 CT 图像进行随机裁剪、对比度调整,迫使模型学习病灶的鲁棒特征,而非依赖特定拍摄角度。
- 优势:计算成本低,可与任何模型结合,尤其适合图像、语音等结构化数据。
基于模型改进的方法
- 核心思想:利用生成模型(如 GAN、VAE、扩散模型)合成逼真样本,补充小数据集的样本量和多样性。
- 典型方法:
- FSGAN:通过生成对抗网络合成新样本,结合元学习实现少样本分类。
- 条件生成模型:在元学习框架中,根据少量样本生成特定类别的 “虚拟样本”,如 MetaGAN。
- 案例:在稀有物种图像分类中,用 GAN 生成鸟类的罕见姿态或光照条件下的图像,提升模型对新样本的泛化能力。
- 典型方法:
基于算法优化的方法
- 核心思想:从相关领域(源域)迁移数据或知识到目标任务(少样本域),利用跨域共性减少对目标数据的依赖。
- 典型方法:
- 迁移学习:在大规模图像数据集(如 ImageNet)上预训练模型,再在少样本任务(如医学图像)上微调。
- 元学习中的先验知识:通过元训练阶段学习 “如何学习” 的通用能力,快速适应新任务(如 MAML 的模型快速更新机制)。
- 典型方法:
模型层面:设计高效特征表示与度量机制
传统深度学习依赖深层网络在大量数据中 “暴力拟合” 特征,而小样本学习通过轻量化模型、度量学习、注意力机制等,显式学习更具判别性和泛化性的特征。
1. 度量学习(Metric Learning)
- 核心思想:将样本映射到高维特征空间,使同类样本距离更近、异类样本距离更远,通过度量样本间的相似度(如欧氏距离、余弦相似度)实现少样本分类。
- 典型框架:
- 原型网络(Prototypical Networks):为每个类别计算一个 “原型向量”(如类别样本特征的均值),测试样本通过与原型的距离分类。
- 孪生网络(Siamese Networks):通过对比样本对的相似度,学习适用于少样本的特征空间(如人脸识别中的小样本验证)。
- 案例:在手写字符识别中,仅用 3 个 “数字 5” 的样本生成原型向量,新样本通过计算与原型的距离完成分类。
- 典型框架:
2. 轻量化模型与注意力机制
- 核心思想:设计参数更少、特征提取更高效的模型,或通过注意力机制聚焦关键特征,减少对冗余数据的依赖。
- 典型方法:
- 神经架构搜索(NAS):自动搜索适合小样本的轻量化网络结构(如 MobileNet 变体)。
- 注意力机制:如 SENet 通过通道注意力抑制无关特征,在少样本图像分类中提升关键特征的权重。
- 典型方法:
算法层面:元学习与快速自适应机制
元学习(Meta-Learning)是小样本学习的核心技术,其目标是让模型学会 “如何从少量样本中学习”,通过元训练 - 元测试的双层优化,提升模型的快速适应能力。
1. 模型不可知元学习(MAML)
- 核心思想:在元训练阶段,通过多个少样本任务优化模型的初始化参数,使模型在新任务上仅用少量样本和梯度更新即可快速收敛。
- 数学原理:
- 元训练阶段:对每个元任务 Ti,用少量样本计算损失 LTi,更新模型参数 θ′=θ−α∇LTi(θ)。
- 元目标:最小化所有元任务更新后的损失 ∑TiLTi′(θ′),使初始化参数 θ 具备快速适应能力。
- 案例:在 5-way 1-shot 图像分类任务中,MAML 通过预训练的初始化参数,仅用 1 张新类别图像即可完成参数调整,准确率显著高于传统微调方法。
- 数学原理:
2. 基于记忆的学习(Memory-Based Learning)
- 核心思想:利用外部记忆模块存储历史任务的样本特征或知识,在新任务中通过检索记忆实现快速推理。
- 典型方法:
- 记忆网络(Memory Networks):在少样本问答中,记忆模块存储支持样本的上下文,通过注意力机制检索相关信息回答新问题。
- ** episodic 记忆 **:在元学习中,记忆模块动态存储每个类别的原型或支持样本,辅助查询样本分类。
- 典型方法:
适用场景与典型案例
- 医疗影像分析:稀有疾病的 CT 图像仅数十例,通过小样本学习结合迁移学习和数据增强,实现病灶识别。
- 自动驾驶长尾场景:对罕见障碍物(如施工标志),用度量学习快速识别新类别,避免依赖大量标注数据。
- 个性化推荐:用户行为数据稀缺时,用元学习快速适应新用户的偏好,减少冷启动问题。
- 遥感目标检测:卫星图像中稀有车辆或建筑的检测,通过原型网络结合特征金字塔网络(FPN)实现少样本目标定位。