当前位置: 首页 > news >正文

深度学习·Cascade-CLIP

Cascade-CLIP

  • ZegClip的改进工作
  • 创新点:级联式的结构,NGA,证明中间特征对于分割也有效。

动机

  • ZegClip忽略了中间层的关键信息,导致对于物体边缘的分割效果不好。中间层次有着多尺度的信息,Zegclip忽略了这种信息。

“while they neglect the crucial information in intermediate layers that contain rich object details” (Li 等, 2024, p. 1) (pdf) 🔤而忽略了包含丰富对象细节的中间层中的关键信息🔤
“exhibit weaknesses in segmenting object details, especially the boundaries of the semantic objects.” (Li 等, 2024, p. 2) (pdf) 🔤在分割对象细节方面表现出弱点,尤其是语义对象的边界。🔤

  • 简单的融合中间层的特征效果不佳,破坏了原有的视觉语言相关性

“However, the fusion of multi-level features disrupts these original visual-language correlations due to the significant disparity between the middle-layer and last-layer features” (Li 等, 2024, p. 2) (pdf) 🔤然而,由于中间层和最后一层特征之间的显着差异,多层特征的融合破坏了这些原始的视觉语言相关性🔤

  • 这张图是层级间的相似性分数,可见即使是相邻层相似度分数也不高,但是作者的方法相邻层的相似度分数还是不错的。
    在这里插入图片描述

方法

  • 分为多个阶段,每一个阶段有独立的text-image decoder
  • 在本文中,作者划分了3个阶段,每个阶段的设置见下。
    在这里插入图片描述

级联式的架构

  • 将阶段sss(包含lll 个transformer layers)的特征综合处理得到ZsZ_sZs,然后每一个文本编码T^\hat{T}T^(C,2D)投射到(C,D),这个投射层貌似是独立的。按照Zegclip的做法得到掩码矩阵MsM_sMs。直接相加所有阶段的掩码矩阵,并使用softmax归一化,得到最后的掩码矩阵。
  • 注意:前几层包含的语义信息太少,所以不考虑。
    在这里插入图片描述
  • stage数量的设置和划分
    在这里插入图片描述

NGA

  • 怎么综合处理这些中间特征?作者通过实验证明直接相加或者拼接效果不好
    在这里插入图片描述

  • NGA本质是一种加权

  • 注意:权重的初始化方式作者已经给出,并且在训练中可以学习

  • σ=1\sigma=1σ=1
    在这里插入图片描述

http://www.dtcms.com/a/321324.html

相关文章:

  • Linux中的内核同步源码相关总结
  • 安科瑞EMS3.0:打造“零碳工厂”的智能能源神经中枢
  • 在 Mac 上安装 IntelliJ IDEA
  • 艾体宝产品 | 从“被看见”到“被信任”:GWI 协助洞察消费者,重构品牌认知
  • day21|学习前端vue3框架和ts语言
  • 二十八天(数据结构:图的补充)
  • 璞致电子 PZ-FH8052 高性能 FMC 子卡:超高速信号链的理想解决方案
  • Agent 开发进阶路线:从基础功能到自主决策
  • C++基础学习笔记
  • 如何在simulink中双击一个模块弹出一个exe?
  • SCI论文润色一站式服务
  • 机器学习模型在订单簿大单预测与应对
  • 线程池分析与设计
  • 【设计模式】访问者模式模式
  • Claude Code 实战场景解析:从代码生成到系统重构的典型应用案例
  • 修复C++14兼容性问题 逻辑检查
  • 控制建模matlab练习11:伯德图
  • 数据大集网:重构企业贷获客生态的线上获客新范式​
  • C++信息学奥赛一本通-第一部分-基础一-第2章-第5节
  • 亚马逊 Alexa + 广告整合:智能语音交互重构电商营销范式
  • AI日报 - 2025年08月08日
  • [科普] AI加速器架构全景图:从GPU到光计算的算力革命
  • vue3 map和filter功能 用法
  • 仅需8W,无人机巡检系统落地 AI 低空智慧城市!可源码交付
  • 远期(Forward)交易系统全球金融市场解决方案报告
  • 智能体协同作战:实现工具调用成功率提升47%的架构奥秘
  • 支付宝「安全发-甲方直发」架构详解及与「安全发ISV模式」对比
  • Python训练营打卡Day26-函数专题2:装饰器
  • 可信数据空间(Trusted Data Space)的技术架构概述
  • matplotlib库和seaborn库