当前位置: 首页 > news >正文

多模态大语言模型LISA

LISA: Reasoning Segmentation via Large Language Model

摘要:

提出当前系统不能够很好的理解用户的真正意图,目前在执行视觉识别任务还是依赖明确的人类指令和预先定义的类别来识别物体
本文贡献:

  • 提出一个新的分割任务—reasoning segmentation(基于隐式查询文本生成涉及复杂推理的二值掩码)
  • 建立了一个包含一千多个图像-指令-掩码的数据样本
  • 最后,提出了LISA模型(它继承了多模态大语言模型的语言生成能力,同时还具有生成分割掩码的能力)

模型架构

在这里插入图片描述
具体而言,首先在原始LLM词表中添加一个特殊标记 <SEG> (代表分割输出符号)。给定文本指令 xtxtx_{txt}xtxt 和输入图像 ximgx_{img}ximg 后,两者被输入到多模态 LLM \mathcal{F},生成文本响应 y^txt\hat{y}_{txt}y^txt,该过程可以表述为:
y^txt=F(ximg,xtxt) \hat{y}_{txt} = \mathcal{F}(x_{img}, x_{txt}) y^txt=F(ximg,xtxt)
当 LLM 需要生成二值分割掩码时,其输出序列 y^txt\hat{y}_{txt}y^txt 将包含 <SEG> 标记。此时,我们提取与该 <SEG> 标记对应的最后一层隐藏状态嵌入 h^seg\hat{h}_{seg}h^seg,并通过一个 MLP 投影层 γ\gammaγ 进行处理,得到 hsegh_{seg}hseg。同时,视觉主干网络 Fenc\mathcal{F}_{enc}Fenc 从输入图像 ximgx_{img}ximg 中提取密集的视觉特征 fff。最后,将 hsegh_{seg}hsegfff 输入解码器 Fdec\mathcal{F}_{dec}Fdec 以生成最终的分割掩码 M^\hat{M}M^。解码器 Fdec\mathcal{F}_{dec}Fdec 的详细结构遵循文献 [19]。该过程可表述为:

hseg=γ(h^seg),f=Fenc(ximg),M^=Fdec(hseg,f). \begin{array}{l} h_{seg} = \gamma(\hat{h}_{seg}), \\ f = \mathcal{F}_{enc}(x_{img}), \\ \hat{M} = \mathcal{F}_{dec}(h_{seg}, f). \end{array} hseg=γ(h^seg),f=Fenc(ximg),M^=Fdec(hseg,f).
创新点

  1. “嵌入即掩码”范式:这是最大的创新点。它不依赖传统的分割头,而是利用LLM的嵌入作为控制信号,将开放词汇的语义理解与分割任务无缝衔接。
  2. 推理引领分割:模型不是简单地分割“提到的”物体,而是先进行知识推理(判断维生素C含量),再分割“推理得出的”物体。这解决了传统方法无法处理的复杂指令。
  3. 高效的训练策略冻结LLM:在训练时,多模态LLM的主体参数被冻结,只通过LoRA等技术进行高效微调,这大大降低了计算成本,防止模型遗忘已有的语言知识。可训练的解码器:主要训练视觉主干之后的解码器部分,使模型学习如何将LLM的语义指令与视觉特征对齐。
  4. 灵活性:框架中的视觉主干Fenc\mathcal{F}_{enc}Fenc和解码器Fdec\mathcal{F}_{dec}Fdec可以替换为任何先进的分割模型组件(如SAM、Mask2Former),具有良好的扩展性

数据来源

主要来自三个公共分割数据集:

  • Semantic Segmentation Dataset
  • Referring Segmentation Data
  • VQA Data

在这里插入图片描述

评价指标

  • glou:所有单张图像交并比的平均值
  • clou:累积交集与累积并集之比

多任务损失函数

LISA的训练目标是一个加权求和的多任务损失函数,这反映了其需要同时优化文本生成分割掩码生成这两个子任务。

  • 文本生成损失L_txt
  • 文本生成损失L_mask
    • 二元交叉熵损失BCE
    • DICE损失

BCE损失负责细节轮廓,DICE损失负责整体形状,总损失是文本损失和分割损失的加权和

实验结果

在这里插入图片描述
其中:

  • OVSeg: 一个典型的开放词汇分割 模型。它擅长根据给定的类别名称列表(如“猫”、“狗”、“树”)进行分割。但它的查询是“类别名”,而不是自然语言指令,因此难以处理需要常识推理的复杂指令(如“分割出最易燃的物品”)。
  • GRES: 一个生成式指代分割 模型。它已经向前迈进了一步,可以根据简短的描述性短语(如“左边的蓝衬衫”)生成分割掩码。但它仍然侧重于根据外观描述进行定位,而非深层次的推理。
  • X-DecoderSEEM: 这两个都是功能强大的通用多模态模型,集成了多种视觉任务(如分割、检测、识别)。它们具备更强的通用性,但其核心设计目标并非专门针对复杂的、需要知识推理的语言指令进行分割。
  • Grounded-SAM: 这是一个非常流行且强大的组合式基线模型。它采用“流水线”方式:先用一个模型(如GLIP)根据文本描述检测出物体的边界框。再将边界框输入分割模型(如SAM)得到掩码。它的性能很强,但LISA的端到端架构(理解、推理、分割一体化)旨在避免这种流水线系统的误差累积问题,并处理更抽象的指令。

LISA-7B/13B: 这是论文的核心模型,默认使用LLaVA v1作为多模态基础模型,(+ft表示)在LISA基础上,使用仅239个推理分割数据样本进行微调 的版本(+OVSeg)代表分双阶段分割与本文的端到端的方式进行了对比。其中LLaVA1.5-7B+OVSeg代表首先使用多模态LLM(例如LLaVA v1.5)为输入查询生成文本输出,然后采用引用或开放词汇分词模型(例如OVSeg)生成分词掩码,两阶段是独立的,之间没有反馈,一旦第一阶段文本生成错误,也无法修正。

http://www.dtcms.com/a/434686.html

相关文章:

  • 第一次训练赛题解
  • 在线购物网站 模版怎么开网店具体流程
  • 返回值:on()方法返回的是当前jQuery对象
  • 你用过快捷支付吗?这是一种什么支付方式?
  • 自己做的网页加在网站文章上为什么打不开门户网站系统架构
  • 韩国在中国做美食的视频网站有哪些企业网站建设开发服务
  • (C语言数据结构)二叉树-概念-性质-存储结构-遍历-代码实现层层刨析
  • 面试MySQL 高级问题及解答(三)
  • 网站网页转小程序教程wordpress评论框背景图片
  • 【代码随想录day 32】 力扣 70.爬楼梯
  • Leetcode 76. 最小覆盖子串 滑动窗口+哈希表
  • 深入理解HarmonyOS ArkTS语法:从基础类型到高级组件开发
  • 安卓基础组件023-SharedPerferences
  • Qt信号与槽在多线程编程中的应用与注意事项
  • Data Agent革命:智能数据分析时代的到来
  • 可观测性体系建设:Java Agent实现方法级调用链追踪实践
  • 制作企业网站新闻列表页面网页设计2021电商行业发展现状及趋势
  • 温州网站优化php wordpress漏洞
  • 网站是否必须做认证技术支持东莞网站建设
  • 如何设计量子密钥管理系统?——面向后量子时代的密钥管理架构与核心功能探讨
  • 免费网站优化软件wordpress不能登录
  • 小迪web自用笔记46
  • 第七章 卷积神经网络(CNN)
  • 利用开源软件开发应用程序的设计开发流程
  • 【深入理解计算机网络02】计算机网络的分类与性能指标
  • Linux 基本指令完整版(2)
  • 2016 年真题配套词汇单词笔记(考研真相)
  • iBizModel 实体映射模型(PSDEMAP)详解
  • 国家工程建设标准化网站一站式网站建设设计
  • k8s知识点总结5