当前位置：首页 > news >正文

计算机视觉·LDVC

news 2025/11/6 12:00:40

LDVC

在这里插入图片描述

动机

之前的工作仍然有对不可见类的过拟合
这归咎于解码器的不合理设计：解码器使用文本嵌入进行查询，不适合零样本任务。因为视觉空间相比文本并不足够结构化用于分割。
让文本嵌入对齐视觉嵌入，会造成较大的嵌入空间迁移，损害分割性能。

在这里插入图片描述

方法

视觉-语言提示

就是视觉和语义编码器中都引入了提示token
初始化时，视觉提示与VPT中的初始化形式一样
语言提示的初始化有点奇怪，每层文本编码器对于手工设计的提示语产生的嵌入用于初始化。

在这里插入图片描述

文本适配器

将关系描述符表达为文本适配器，与ZegCLIP完全一致，毫无区别

在这里插入图片描述

视觉共识解码器

总体流程

$V_j$ 是视觉编码器中的某一层输出，~~作者好像没有具体给出j的取值？~~

视觉共识自注意力

基于路由注意力的机制
简单来说就是关注图片中相关的区域，例如“草”的区域关注“草”的区域。
首先要对图像窗口化，然后计算注意力权重，保留权重高的窗口，还原得到高度相关的 $K_s$ 和 $V_s$ (只有部分patch)

掩码产生机制

掩码产生机制几乎完全一样

实验

对比实验

在归纳设置下，可见类和不可见类都有一定提升
在转导设置下，几乎没有任何有效提升。

消融实验

交叉注意力图可以学习一下。

在这里插入图片描述

查看全文

http://www.dtcms.com/a/574377.html

如何用抽象语法树工具ast解析str格式的文本数据

商务网站开发流程建站之星和凡科

龙岗企业网站建设北京网站开发哪里好薇

宿迁哪里有做网站开发的wordpress 维基

手机号网站源码网站源码本地演示

Twitter热点追踪--互动飙升

安徽省级建设主管部门网站网站结构说明

科技设计网站十堰网站建设专家

大恒相机-mono12-python示例程序

线程池和单例模式

建站全过程品牌网站建站

Linux之rsyslog(3)模板配置

做网站只用前端知识可以吗热点新闻

免费夸克网盘不限速下载简单方法

本地部署网站流量分析工具 Matomo 并实现外部访问

光伏企业的智能仓储管理如何变革

上海一家做服饰包鞋穿上用品的网站网站中文域名到期有没有影响

milvus向量化数据库部署

接口测试知识总结

什么是惊群效应

装饰网站的业务员都是怎么做的做网站包括图片设计吗

网站设计要点wordpress 屏蔽插件更新

企业网站模板源代码下载wordpress 教程网

番禺做网站开发产品外观设计图片

从零开始搭建 flask 博客实验（5）

时序数据库系列（三）：InfluxDB数据写入Line Protocol详解

网站个人和公司有什么区别是什么一些做义工的旅游网站

学校门户网站建设的优势网站竞价推广哪个好

公司网站策划宣传seo入门课程

一种用于乳腺癌风险预测的新型时间衰减影像组学整合网络（TRINet）|文献速递-文献分享

LDVC

动机

方法

视觉-语言提示

文本适配器

视觉共识解码器

总体流程

视觉共识自注意力

掩码产生机制

实验

对比实验

消融实验

相关文章：