当前位置: 首页 > news >正文

计算机视觉·LDVC

LDVC

在这里插入图片描述

动机

  • 之前的工作仍然有对不可见类的过拟合
  • 这归咎于解码器的不合理设计:解码器使用文本嵌入进行查询,不适合零样本任务。因为视觉空间相比文本并不足够结构化用于分割。
  • 让文本嵌入对齐视觉嵌入,会造成较大的嵌入空间迁移,损害分割性能
    在这里插入图片描述

在这里插入图片描述

方法

视觉-语言提示

  • 就是视觉和语义编码器中都引入了提示token
  • 初始化时,视觉提示与VPT中的初始化形式一样
  • 语言提示的初始化有点奇怪,每层文本编码器对于手工设计的提示语产生的嵌入用于初始化。

在这里插入图片描述
在这里插入图片描述

文本适配器

  • 将关系描述符表达为文本适配器,与ZegCLIP完全一致,毫无区别

在这里插入图片描述

视觉共识解码器

总体流程

  • VjV_jVj视觉编码器中的某一层输出作者好像没有具体给出j的取值?
    在这里插入图片描述
    在这里插入图片描述

视觉共识自注意力

  • 基于路由注意力的机制
  • 简单来说就是关注图片中相关的区域,例如“草”的区域关注“草”的区域。
  • 首先要对图像窗口化,然后计算注意力权重保留权重高的窗口,还原得到高度相关的KsK_sKsVsV_sVs(只有部分patch)
    在这里插入图片描述

掩码产生机制

  • 掩码产生机制几乎完全一样
    在这里插入图片描述

实验

对比实验

  • 在归纳设置下,可见类和不可见类都有一定提升
  • 在转导设置下,几乎没有任何有效提升
    在这里插入图片描述
    在这里插入图片描述

消融实验

  • 交叉注意力图可以学习一下。
    在这里插入图片描述

在这里插入图片描述

http://www.dtcms.com/a/574377.html

相关文章:

  • 如何用抽象语法树工具ast解析str格式的文本数据
  • 商务网站开发流程建站之星和凡科
  • 龙岗企业网站建设北京网站开发哪里好薇
  • 宿迁哪里有做网站开发的wordpress 维基
  • 手机号网站源码网站源码本地演示
  • Twitter热点追踪--互动飙升
  • 安徽省级建设主管部门网站网站结构说明
  • 科技设计网站十堰网站建设专家
  • 大恒相机-mono12-python示例程序
  • 线程池和单例模式
  • 建站全过程品牌网站建站
  • Linux之rsyslog(3)模板配置
  • 做网站只用前端知识可以吗热点新闻
  • 免费夸克网盘不限速下载简单方法
  • 本地部署网站流量分析工具 Matomo 并实现外部访问
  • 光伏企业的智能仓储管理如何变革
  • 上海一家做服饰包鞋穿上用品的网站网站中文域名到期有没有影响
  • milvus向量化数据库部署
  • 接口测试知识总结
  • 什么是惊群效应
  • 装饰网站的业务员都是怎么做的做网站包括图片设计吗
  • 网站设计要点wordpress 屏蔽插件更新
  • 企业网站模板源代码下载wordpress 教程网
  • 番禺做网站开发产品外观设计图片
  • 从零开始搭建 flask 博客实验(5)
  • 时序数据库系列(三):InfluxDB数据写入Line Protocol详解
  • 网站个人和公司有什么区别是什么一些做义工的旅游网站
  • 学校门户网站建设的优势网站竞价推广哪个好
  • 公司网站策划宣传seo入门课程
  • 一种用于乳腺癌风险预测的新型时间衰减影像组学整合网络(TRINet)|文献速递-文献分享