当前位置：首页 > news >正文

深度学习·Cascade-CLIP

news 2025/10/8 1:03:52

Cascade-CLIP

ZegClip的改进工作
创新点：级联式的结构，NGA，证明中间特征对于分割也有效。

动机

ZegClip忽略了中间层的关键信息，导致对于物体边缘的分割效果不好。中间层次有着多尺度的信息，Zegclip忽略了这种信息。

“while they neglect the crucial information in intermediate layers that contain rich object details” (Li 等, 2024, p. 1) (pdf) 🔤而忽略了包含丰富对象细节的中间层中的关键信息🔤
“exhibit weaknesses in segmenting object details, especially the boundaries of the semantic objects.” (Li 等, 2024, p. 2) (pdf) 🔤在分割对象细节方面表现出弱点，尤其是语义对象的边界。🔤

简单的融合中间层的特征效果不佳，破坏了原有的视觉语言相关性。

“However, the fusion of multi-level features disrupts these original visual-language correlations due to the significant disparity between the middle-layer and last-layer features” (Li 等, 2024, p. 2) (pdf) 🔤然而，由于中间层和最后一层特征之间的显着差异，多层特征的融合破坏了这些原始的视觉语言相关性🔤

这张图是层级间的相似性分数，可见即使是相邻层相似度分数也不高，但是作者的方法相邻层的相似度分数还是不错的。

方法

分为多个阶段，每一个阶段有独立的text-image decoder
在本文中，作者划分了3个阶段，每个阶段的设置见下。

级联式的架构

将阶段 $s$ (包含 $l$ 个transformer layers)的特征综合处理得到 $Z_s$ ，然后每一个文本编码 $T^\hat{T}$ (C,2D)投射到(C,D)，这个投射层貌似是独立的。按照Zegclip的做法得到掩码矩阵 $M_s$ 。直接相加所有阶段的掩码矩阵，并使用softmax归一化，得到最后的掩码矩阵。
注意：前几层包含的语义信息太少，所以不考虑。
stage数量的设置和划分

NGA

怎么综合处理这些中间特征？作者通过实验证明直接相加或者拼接效果不好。
NGA本质是一种加权
注意：权重的初始化方式作者已经给出，并且在训练中可以学习！
$σ=1\sigma=1$

http://www.dtcms.com/a/321324.html

相关文章：

Linux中的内核同步源码相关总结

安科瑞EMS3.0：打造“零碳工厂”的智能能源神经中枢

在 Mac 上安装 IntelliJ IDEA

艾体宝产品 | 从“被看见”到“被信任”：GWI 协助洞察消费者，重构品牌认知

day21｜学习前端vue3框架和ts语言

二十八天（数据结构：图的补充）

璞致电子 PZ-FH8052 高性能 FMC 子卡：超高速信号链的理想解决方案

Agent 开发进阶路线：从基础功能到自主决策

C++基础学习笔记

如何在simulink中双击一个模块弹出一个exe？

SCI论文润色一站式服务

机器学习模型在订单簿大单预测与应对

线程池分析与设计

【设计模式】访问者模式模式

Claude Code 实战场景解析：从代码生成到系统重构的典型应用案例

修复C++14兼容性问题逻辑检查

控制建模matlab练习11：伯德图

数据大集网：重构企业贷获客生态的线上获客新范式

C++信息学奥赛一本通-第一部分-基础一-第2章-第5节

亚马逊 Alexa + 广告整合：智能语音交互重构电商营销范式

AI日报 - 2025年08月08日

[科普] AI加速器架构全景图：从GPU到光计算的算力革命

vue3 map和filter功能用法

仅需8W，无人机巡检系统落地 AI 低空智慧城市！可源码交付

远期(Forward)交易系统全球金融市场解决方案报告

智能体协同作战：实现工具调用成功率提升47%的架构奥秘

支付宝「安全发-甲方直发」架构详解及与「安全发ISV模式」对比

Python训练营打卡Day26-函数专题2：装饰器

可信数据空间（Trusted Data Space）的技术架构概述

matplotlib库和seaborn库