当前位置: 首页 > news >正文

【论文阅读】多模态——LSeg

文献基本信息

  • 标题:Language-Driven Semantic Segmentation
  • 作者:Boyi Li、Kilian Q. Weinberger、Serge Belongie、Vladlen Koltun、René Ranftl
  • 单位:Cornell University、University of Copenhagen、Apple、Intel Labs
  • 会议/期刊:ICLR
  • 发表时间:2022年4月3日
  • 代码:https://github.com/isl-org/lang-seg

背景与意义

  • 语义分割可以看做是像素级的分类,因此分类的新技术、新思路,一般可以直接用过来。
  •  本文实现了zero-shot的语义分割,实现方式与CLIP实现zero-shot的方式类似,都是通过类别prompt作为文本输入,然后计算相似度。

  • 给定一张图片,然后通过文本prompt给定任意的类别,从而实现对应的语义分割。
  • 从上图中可以看到,给定了对应的类别prompt:
  1. 对于图中明确出现了的语义类别(如dog、tree),模型能够很清楚地分割出来。
  2. 对于图中没有的类别(如vehicle),模型也不会误召回(容错率高)。
  3. 对于图中有、但是类别prompt没给的类别(如grass),也能正确分类为other。
  4. 同样可以检测类别的子类或父类(如dog、pet),模型也能够通过语义识别出来。
  • 由于CLIP类的模型实质上都是通过计算图文相似度来实现分类或分割的,因此对于“other”类的类别,prompt文本实际可以是任何无意义的文本,如“me”、“a”或“an” 等,只要与目标类别不要太接近即可。

研究方法与创新点

  • 如上图所示,模型整体看来与CLIP模型非常相似,图像先输入图像编码器(DPT ViT+decoder)得到特征向量,再进行一些upscaling,输出图像与原图像大小保持一致,输出再与ground-truth做交叉熵,其中将单个的图像文本特征换成语义分割中逐像素的密集特征
  • 文本编码器提取$N \times C$的文本特征($N$个类别,$C$为特征维度),图像编码器提取$\tilde H \times \tilde W \times C$的密集图像特征(跟原来相比有所降维,比如1/4、1/16),文本-图像二者相乘得到$\tilde H \times \tilde W \times N$的特征,再经过空间规整模块上采样回原图尺寸,完成语义分割,其中$N$$C$$\tilde H$$\tilde W$分别是类别prompt个数(可变)、通道数和特征图的高、宽。除了上面的文本编码器提取的文本特征要与密集图像特征相乘来计算像素级的图文相似度之外,整个网络与传统的有监督网络完全一致
  • 在训练过程中,模型是以有监督的方式进行训练的,也就是说训练过程中是存在标注的分割图的,模型在7个分割数据集上进行训练。
  • 在推理时,可以指定任意个数、任意内容的类别prompt来进行zero-shot的语义分割。
  • 创新:通过在传统的有监督分割模型上加入文本特征,通过特征相乘把文本特征和图像特征结合起来,学到一些languge-aware的特征,在最后就能用文本prompt得到任意的分割效果
  • LSeg整个文本编码器就是CLIP的文本编码器的模型和权重,并且训练、推理全程中都是冻结的;LSeg的图像编码器可以是任何网络(CNN/ViT),需要进行训练。
  • 空间规整模块是本文提出的一个模块,为了在计算完像素级图文相似度后有一些可学习的参数来理解计算结果,由一些卷积逐深度卷积组成。

研究结论

  • 在PASCAL-5、COCO20、FSS-1000上作评价,如PASCAL-5有20类,现在把20类分成4份,每份5类,将其中5类作为已知,其他15类未知,做zero-shot实验。

  • 由上图可知,LSeg在zero-shot的语义分割上确实大幅领先之前方法,但是与few-shot哪怕是one-shot相比,还是有很大的提升空间

  • 由上图可知,LSeg在zero-shot的语义分割上确实大幅领先之前方法,但是与few-shot哪怕是one-shot相比,还是有很大的提升空间

存在的问题

  1. 空间规整层是简单的conv卷积或者DWconv,这一层进一步学习文本图像融合后的特征,理解文本与图像如何交互。消融实验证明,两层空间规整层效果最好,但是四层空间规整层突然就崩了,本文中并没有对此解释原因,因此无法得知空间规整是否是一个稳定有效的技巧。

启发与思考

  1. 图像分类任务图像分割任务很像,无非就是把图像级别的分类转变成像素级别的分类,前者的技术往往都能直接应用到后者。
  2. 提供了一种利用CLIP的新思路,可以单独使用其中的文本或图像编码器,并且也可以用有监督的方式进行训练。

相关文章:

  • 使用 Elasticsearch 进行集成测试初始化​​数据时的注意事项
  • 9. Flink的性能优化
  • 训练 FLUX LoRA模型安装与部署
  • 高频 SQL 50 题(基础版)| 高级字符串函数 / 正则表达式 / 子句:1667. 修复表中的名字、1527. 患某种疾病的患者、196. 删除重复的电子邮箱、176. 第二高的薪水、...
  • 【UI自动化实现思路第二章】OCR 图片文字识别方法
  • NO2.C++语言基础|C++和Java|常量|重载重写重定义|构造函数|强制转换|指针和引用|野指针和悬空指针|const修饰指针|函数指针(C++)
  • 算法提升第一章:基础算法总结
  • 【JAVA架构师成长之路】【JVM实战】第1集:生产环境CPU飙高排查实战
  • DeepSeek本地调用,集成到自己的平台中,做二次集成
  • 2025-03-06 学习记录--C/C++-C 库函数 - strcat()、strncpy()
  • 【每日学点HarmonyOS Next知识】Web上传文件、监听上下左右区域连续点击、折叠悬停、字符串相关、播放沙盒视频
  • 微服务架构下的 Node.js
  • [项目]基于FreeRTOS的STM32四轴飞行器: 四.LED控制
  • vue基本功
  • Devart dbForge Studio for MySQL Enterprise 9.0.338高效数据库管理工具
  • 在线SQL转ArkTs
  • PTA 7-6 列出连通集
  • Terraform 中安全地更改 EC2 实例 instance_type 的指南
  • idea 复制代码时不带富文本背景色
  • 记录一个Circle CI出现的错误
  • wordpress 多站点建站教程/国家卫生健康委
  • 公司网站设计欣赏/安徽seo报价
  • 宣传京津风筝网站的建设目的/新产品如何快速推广市场
  • 门户网站开发 论文/如何用html制作一个网页
  • 做代购注册什么网站/电商平台推广费用大概要多少
  • 同程网 网站模板/互联网营销师考试题库