深度学习·Cascade-CLIP
Cascade-CLIP
- ZegClip的改进工作
- 创新点:级联式的结构,NGA,证明中间特征对于分割也有效。
动机
- ZegClip忽略了中间层的关键信息,导致对于物体边缘的分割效果不好。中间层次有着多尺度的信息,Zegclip忽略了这种信息。
“while they neglect the crucial information in intermediate layers that contain rich object details” (Li 等, 2024, p. 1) (pdf) 🔤而忽略了包含丰富对象细节的中间层中的关键信息🔤
“exhibit weaknesses in segmenting object details, especially the boundaries of the semantic objects.” (Li 等, 2024, p. 2) (pdf) 🔤在分割对象细节方面表现出弱点,尤其是语义对象的边界。🔤
- 简单的融合中间层的特征效果不佳,破坏了原有的视觉语言相关性。
“However, the fusion of multi-level features disrupts these original visual-language correlations due to the significant disparity between the middle-layer and last-layer features” (Li 等, 2024, p. 2) (pdf) 🔤然而,由于中间层和最后一层特征之间的显着差异,多层特征的融合破坏了这些原始的视觉语言相关性🔤
- 这张图是层级间的相似性分数,可见即使是相邻层相似度分数也不高,但是作者的方法相邻层的相似度分数还是不错的。
方法
- 分为多个阶段,每一个阶段有独立的text-image decoder
- 在本文中,作者划分了3个阶段,每个阶段的设置见下。
级联式的架构
- 将阶段sss(包含lll 个transformer layers)的特征综合处理得到ZsZ_sZs,然后每一个文本编码T^\hat{T}T^(C,2D)投射到(C,D),这个投射层貌似是独立的。按照Zegclip的做法得到掩码矩阵MsM_sMs。直接相加所有阶段的掩码矩阵,并使用softmax归一化,得到最后的掩码矩阵。
- 注意:前几层包含的语义信息太少,所以不考虑。
- stage数量的设置和划分
NGA
-
怎么综合处理这些中间特征?作者通过实验证明直接相加或者拼接效果不好。
-
NGA本质是一种加权
-
注意:权重的初始化方式作者已经给出,并且在训练中可以学习!
-
σ=1\sigma=1σ=1