当前位置: 首页 > news >正文

【提示学习论文】AAPL: Adding Attributes to Prompt Learning for Vision-Language Models

AAPL: Adding Attributes to Prompt Learning for Vision-Language Models(2024CVPR)

  • 问题:在unseen class上,性能提升有限
  • 解决:在提示学习中引入对抗性标记嵌入adversarial token embedding, 将低层次视觉增强特征与高层次类别信息解耦,解决传统零样本学习技术中的数据增强问题。
  • AdTriplet损失函数

对比CoCoOp和APPL

在这里插入图片描述
在这里插入图片描述

  • 1、2:类别
  • A、B:不同的随机增强
  • pull:对图像进行不同的随机增强后,即时希望图像有所不同,但它们仍然是同一个类别。因此增量元标记通过将相同类别的增量原标记拉近,来学习相似的属性特征。
  • push:对于不同类别的图像,它们的增量元标记应该学习到不同的属性特征。因此需要embedding中将它们推开来学习。

动机

meta token不能有效的捕捉语义信息
提出 delta meta token

  • 需要两个类别
  • 两种随机增强(从SimCLR提出的14种无重复增强方法种随机选择两种)

对抗性三重损失

在这里插入图片描述

constraints-2

  • Δpai 1A
  • 正对 Δpai 2A:不同类别,相同增强
  • 反对 Δpai 1B:相同类别,不同增强

在这里插入图片描述

constraints-4

![[AAPLg5.png]]

总损失

![[AAPLg6.png]]

实验

base to new 76.01

总结

  • 在CoCoOp上的改进,在原本的meta-net中,增加了Adtriplet loss。通过在两个类别,两种随机增强之间计算,更新meta-net。
  • 然后将meta token加入到Learnable prompt里面,和CoCoOp一样

疑问

为什么这样做能达到解耦的效果?

  • 增量元标记Δmeat tokens:从同一类别不同增强的图像中相减得到,主要捕捉图像增强的变化(低层次特征差异,与类别的高层语义信息无关)
  • 使得增量元标记可以专注于增强引入的低层次特征,而非类别本身的特征

对抗三重损失的作用?

  • 拉近同一类别的不同增强版本
  • 推开不同类别的增量元标记,进一步区分类别之间的特征
  • 帮助低层次的视觉特征(亮度、颜色)与高层次的语义特征(类别)之间,建立清晰的界限
  • 使得模型学会增强特征与类别特征的区分能力,有效将两者解耦

可学习提示?

  • 最后将增量元标记中的属性特定偏差引入到learnable prompt中,此时增量元标记包含低层次增强特征,让提示学习可以专注于高层次类别信息。

相关文章:

  • Spring Boot 集成 swagger 3.0 指南
  • 基于STM32开发的智能温室控制系统
  • web 3D可视化技术
  • C++码表之Unicode
  • 选择搜索引擎进行搜索
  • 在vs+QT中使用QT的库(multimedia.lib)
  • 009 批量删除
  • Linux(面试篇)
  • 虚拟机安装centos7-桥接模式
  • ChatGPT 3.5/4.0简单使用手册
  • 全感知、全覆盖、全智能的名厨亮灶开源了
  • Java SpringBoot+Vue实战教程:如何搭建高中素质评价档案系统?
  • R语言管道操作详解-高效编程
  • 为什么要构建自己的 AI 代理库
  • [医疗 AI ] 3D TransUNet:通过 Vision Transformer 推进医学图像分割
  • Aiseesoft Mac Video Converter Ultimate:高效多能的视频转换与编辑工具
  • Qt之控件介绍
  • 柔性数组
  • TCP的连接建立及报文段首部格式
  • Redis复制
  • 魔都眼|咖啡节上上海小囡忍不住尝了咖啡香,母亲乐了
  • 五一首日出沪高峰,G1503高东收费站上午车速约30公里/小时
  • 美国第一季度经济环比萎缩0.3%,特朗普:怪拜登,与关税无关
  • 美航母撞船后又遇战机坠海,专家:长时间作战部署疲于奔命是主因
  • 中国人民解放军南部战区位南海海域进行例行巡航
  • 新华保险一季度净赚58.82亿增19%,保费收入增28%