当前位置: 首页 > news >正文

深度学习·ExCEL

WSSS

ExCEL方法

在这里插入图片描述

TSE

“only indicates the presence of objects while limited providing dense knowledge for” (Yang 等, 2025, p. 20225) (pdf) 🔤仅表示物体的存在,而有限地提供密集的知识🔤

  • 传统的text prompt 只能表示物体存在,不能提供任何其他的信息,所以在语义分割这种密集任务中表现不佳.
  • 对每一个类都查询GPT获得具体的描述信息,总共n=20个特征
    在这里插入图片描述

“This knowledge base gathers descriptive properties for the whole dataset, building a strong foundation for the textual category representation” (Yang 等, 2025, p. 20226) (pdf) 🔤该知识库收集了整个数据集的描述性属性,为文本类别表示奠定了坚实的基础🔤

  • 作者不是简单的讲所有GPT生成的额外类别属性简单的融合,而是将这些属性聚类为更加通用的属性,将其转换为一种隐式属性的搜索过程

“The clustered attributes efficiently capture shared contextual knowledge from other categories, supplementing missing information for target class recognition” (Yang 等, 2025, p. 20226) (pdf) 🔤聚类属性有效地捕获来自其他类别的共享上下文知识,补充目标类识别的缺失信息🔤
“The use of attributes makes the knowledge more compact and representative, leading to precise text prompting.” (Yang 等, 2025, p. 20226) (pdf) 🔤属性的使用使知识更加紧凑和具有代表性,从而实现精确的文本提示。🔤

  • 作者对这些知识库中的属性进行聚类,得到B个聚类中心,其中B=112或者224(Pascal VOC or COCO)
    在这里插入图片描述
  • 给定一个class token,将聚类中心与其计算相似度分数,然后根据分数选取前K个进行text embedding的融合,权重就是聚类分数,然后注意有个权重λ\lambdaλ
    在这里插入图片描述

VC Visual Calibrations

  • 动机:CLIP缺乏细粒度的信息,导致补丁和文本对齐不合理。

“lack fine-grained information, leading to unreasonable localization maps via patch-text alignment.” (Yang 等, 2025, p. 20226) (pdf) 🔤缺乏细粒度信息,导致通过补丁文本对齐导致不合理的本地化映射。🔤

Static Visual Calibration

However, due to the inherent image-text alignment of CLIP, the original q-k attention produces overly uniform attention maps,
“homogenizing diverse tokens from v to capture broad semantics for global image representation (see discussions in Sec. 4.4).” (Yang 等, 2025, p. 20226) (pdf) 🔤将 V 中的不同标记同质化,以捕获全局图像表示的广泛语义(参见第 4.4 节中的讨论)。🔤

  • 将自注意力机制替换为Intra-correltation机制
  • 只在最后几层进行计算,分别对q,k,v计算,权重相等。
  • 在这里插入图片描述

Learnable Visual Calibration

  • 简单来说,就是引用一个额外的适配器adptor
  • 对通过刚才方式计算的注意图进行额外的修正
  • R矩阵的目的是:影响特征的分布,激活相关的token,避免激活无关的token

在这里插入图片描述

  • 训练适配器的损失函数:
    在这里插入图片描述

在这里插入图片描述

http://www.dtcms.com/a/329827.html

相关文章:

  • 在Ubuntu24.04中使用ssh连接本地git仓库到github远程仓库
  • [前端算法]排序算法
  • 用vscode开发和调试golang超简单教程
  • net/dial.go
  • QT之设计器组件功能(8大类55个组件)
  • 机器学习阶段性总结:对深度学习本质的回顾 20250813
  • Java 大视界 -- Java 大数据机器学习模型在金融资产配置优化与风险收益平衡中的应用(395)
  • golang语言和JAVA对比
  • Python 迭代协议与迭代器
  • 位图法(Bitmap)​​一维数据改为二维数据
  • OpenJDK 17 JIT编译器堆栈分析
  • 操作系统八股题
  • Mysql——如何做到Redolog崩溃后恢复的
  • “PDA采集→WMS智慧化分析→AGV执行”全链路管理的仓储系统
  • Qwen大模型加载与文本生成关键参数详解
  • I2c、SPI、USB驱动架构类比
  • Torch -- 卷积学习day1 -- 卷积层,池化层
  • 第四十四天:动态规划part11(第九章)
  • 存量竞争下的破局之道:品牌与IP的双引擎策略|创客匠人
  • scrapy 爬虫
  • sqli-libs通关教程(51-65)
  • YOLOv11+TensorRT部署实战:从训练到超高速推理的全流程
  • 【后端】Spring框架控制反转(IoC)与依赖注入(DI)解析
  • 从零用 NumPy 实现单层 Transformer 解码器(Decoder-Only)
  • 《红黑树驱动的Map/Set实现:C++高效关联容器全解析》
  • 基于微信小程序的生态农产销售管理的设计与实现/基于C#的生态农产销售系统的设计与实现、基于asp.net的农产销售系统的设计与实现
  • Ubuntu24.04桌面版安装wps
  • 深入分析Linux文件系统核心原理架构与实现机制
  • RS485转profinet网关接M8-11 系列 RFID 读卡模块实现读取卡号输出
  • 元数据与反射:揭开程序的“自我认知”能力