当前位置: 首页 > news >正文

突破分割边界!多模态大模型X-SAM:从 “分割万物” 到 “任意分割”,实现全场景图像分割统一

《博主简介》

小伙伴们好,我是阿旭。
专注于计算机视觉领域,包括目标检测、图像分类、图像分割和目标跟踪等项目开发,提供模型对比实验、答疑辅导等。

《------往期经典推荐------》

一、AI应用软件开发实战专栏【链接】

项目名称项目名称
1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】
3.【手势识别系统开发】4.【人脸面部活体检测系统开发】
5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】
7.【YOLOv8多目标识别与自动标注软件开发】8.【基于深度学习的行人跌倒检测系统】
9.【基于深度学习的PCB板缺陷检测系统】10.【基于深度学习的生活垃圾分类目标检测系统】
11.【基于深度学习的安全帽目标检测系统】12.【基于深度学习的120种犬类检测与识别系统】
13.【基于深度学习的路面坑洞检测系统】14.【基于深度学习的火焰烟雾检测系统】
15.【基于深度学习的钢材表面缺陷检测系统】16.【基于深度学习的舰船目标分类检测系统】
17.【基于深度学习的西红柿成熟度检测系统】18.【基于深度学习的血细胞检测与计数系统】
19.【基于深度学习的吸烟/抽烟行为检测系统】20.【基于深度学习的水稻害虫检测与识别系统】
21.【基于深度学习的高精度车辆行人检测与计数系统】22.【基于深度学习的路面标志线检测与识别系统】
23.【基于深度学习的智能小麦害虫检测识别系统】24.【基于深度学习的智能玉米害虫检测识别系统】
25.【基于深度学习的200种鸟类智能检测与识别系统】26.【基于深度学习的45种交通标志智能检测与识别系统】
27.【基于深度学习的人脸面部表情识别系统】28.【基于深度学习的苹果叶片病害智能诊断系统】
29.【基于深度学习的智能肺炎诊断系统】30.【基于深度学习的葡萄簇目标检测系统】
31.【基于深度学习的100种中草药智能识别系统】32.【基于深度学习的102种花卉智能识别系统】
33.【基于深度学习的100种蝴蝶智能识别系统】34.【基于深度学习的水稻叶片病害智能诊断系统】
35.【基于与ByteTrack的车辆行人多目标检测与追踪系统】36.【基于深度学习的智能草莓病害检测与分割系统】
37.【基于深度学习的复杂场景下船舶目标检测系统】38.【基于深度学习的农作物幼苗与杂草检测系统】
39.【基于深度学习的智能道路裂缝检测与分析系统】40.【基于深度学习的葡萄病害智能诊断与防治系统】
41.【基于深度学习的遥感地理空间物体检测系统】42.【基于深度学习的无人机视角地面物体检测系统】
43.【基于深度学习的木薯病害智能诊断与防治系统】44.【基于深度学习的野外火焰烟雾检测系统】
45.【基于深度学习的脑肿瘤智能检测系统】46.【基于深度学习的玉米叶片病害智能诊断与防治系统】
47.【基于深度学习的橙子病害智能诊断与防治系统】48.【基于深度学习的车辆检测追踪与流量计数系统】
49.【基于深度学习的行人检测追踪与双向流量计数系统】50.【基于深度学习的反光衣检测与预警系统】
51.【基于深度学习的危险区域人员闯入检测与报警系统】52.【基于深度学习的高密度人脸智能检测与统计系统】
53.【基于深度学习的CT扫描图像肾结石智能检测系统】54.【基于深度学习的水果智能检测系统】
55.【基于深度学习的水果质量好坏智能检测系统】56.【基于深度学习的蔬菜目标检测与识别系统】
57.【基于深度学习的非机动车驾驶员头盔检测系统】58.【太基于深度学习的阳能电池板检测与分析系统】
59.【基于深度学习的工业螺栓螺母检测】60.【基于深度学习的金属焊缝缺陷检测系统】
61.【基于深度学习的链条缺陷检测与识别系统】62.【基于深度学习的交通信号灯检测识别】
63.【基于深度学习的草莓成熟度检测与识别系统】64.【基于深度学习的水下海生物检测识别系统】
65.【基于深度学习的道路交通事故检测识别系统】66.【基于深度学习的安检X光危险品检测与识别系统】
67.【基于深度学习的农作物类别检测与识别系统】68.【基于深度学习的危险驾驶行为检测识别系统】
69.【基于深度学习的维修工具检测识别系统】70.【基于深度学习的维修工具检测识别系统】
71.【基于深度学习的建筑墙面损伤检测系统】72.【基于深度学习的煤矿传送带异物检测系统】
73.【基于深度学习的老鼠智能检测系统】74.【基于深度学习的水面垃圾智能检测识别系统】
75.【基于深度学习的遥感视角船只智能检测系统】76.【基于深度学习的胃肠道息肉智能检测分割与诊断系统】
77.【基于深度学习的心脏超声图像间隔壁检测分割与分析系统】78.【基于深度学习的心脏超声图像间隔壁检测分割与分析系统】
79.【基于深度学习的果园苹果检测与计数系统】80.【基于深度学习的半导体芯片缺陷检测系统】
81.【基于深度学习的糖尿病视网膜病变检测与诊断系统】82.【基于深度学习的运动鞋品牌检测与识别系统】
83.【基于深度学习的苹果叶片病害检测识别系统】84.【基于深度学习的医学X光骨折检测与语音提示系统】
85.【基于深度学习的遥感视角农田检测与分割系统】86.【基于深度学习的运动品牌LOGO检测与识别系统】
87.【基于深度学习的电瓶车进电梯检测与语音提示系统】88.【基于深度学习的遥感视角地面房屋建筑检测分割与分析系统】
89.【基于深度学习的医学CT图像肺结节智能检测与语音提示系统】90.【基于深度学习的舌苔舌象检测识别与诊断系统】
91.【基于深度学习的蛀牙智能检测与语音提示系统】92.【基于深度学习的皮肤癌智能检测与语音提示系统】
93.【基于深度学习的工业压力表智能检测与读数系统】94.【基于深度学习的CT扫描图像肝脏肿瘤智能检测与分析系统】
95.【基于深度学习的CT扫描图像脑肿瘤智能检测与分析系统】96.【基于深度学习的甲状腺结节智能检测分割与诊断系统】

二、机器学习实战专栏【链接】,已更新31期,欢迎关注,持续更新中~~
三、深度学习【Pytorch】专栏【链接】
四、【Stable Diffusion绘画系列】专栏【链接】
五、YOLOv8改进专栏【链接】持续更新中~~
六、YOLO性能对比专栏【链接】,持续更新中~

《------正文------》

目录

  • 一、研究背景
  • 二、核心创新点
  • 三、模型架构
  • 四、实验结果
  • 五、局限性与未来工作
  • 六、其他

在这里插入图片描述

一、研究背景

  1. 现有模型局限
    • 大语言模型(LLMs):具备强大的通用知识表征能力,但在像素级感知理解上存在固有缺陷,无法直接处理图像分割等需像素级分析的任务。
    • 分割任意事物模型(SAM):虽在视觉提示驱动的图像分割领域有显著进展,但存在多掩码预测能力弱、类别特异性分割表现不足、无法整合所有分割任务于统一架构等问题。
    • 现有多模态大语言模型(MLLMs):多局限于生成文本输出,难以应对图像分割这类需像素级理解的视觉任务,且多数相关研究仍局限于特定任务,缺乏通用性。
  2. 研究目标:构建一个统一的多模态大语言模型框架X-SAM,突破现有模型限制,将分割范式从“分割任意事物”拓展到“任意分割”,实现对多种图像分割任务的统一处理。

二、核心创新点

在这里插入图片描述

  1. 统一分割框架:提出首个能整合所有图像分割任务的多模态大语言模型架构,将通用分割、指代分割、开放词汇分割等多种任务转化为标准化分割格式,支持文本查询与视觉查询两种输入类型。

  2. 新分割任务:视觉接地(VGD)分割:通过交互式视觉提示(如点、涂鸦、框、掩码)分割图像中所有实例对象,为MLLMs引入视觉接地模态,增强其像素级可解释性,且支持单图像与跨图像场景。

  3. 多阶段统一训练策略:设计三阶段训练流程,解决多源数据训练适配问题,具体包括:
    在这里插入图片描述

    • 分割器微调阶段:在COCO-Panoptic数据集上训练分割器,优化分割解码器以实现单次前向传播分割所有对象,损失函数为分类损失、掩码损失与骰子损失之和。
    • 对齐预训练阶段:在LLaVA-558K数据集上训练双投影器,使视觉特征与LLM的文本嵌入对齐,采用自回归损失函数。
    • 混合微调阶段:在混合数据集(含图像对话与多种分割数据集)上进行端到端训练,对话任务用自回归损失,分割任务结合自回归损失与分割损失。
  4. 双编码器与双投影器设计

    • 双编码器:图像编码器(采用SigLIP2-so400m)提取全局图像特征,助力图像理解;分割编码器(采用SAM-L)提取细粒度特征,支撑精准分割。
    • 双投影器:通过MLP投影器将图像特征与处理后的分割特征(经像素洗牌操作降维)映射到语言嵌入空间,再与文本嵌入拼接输入LLM。

三、模型架构

在这里插入图片描述

X-SAM整体架构包含五大核心模块,各模块协同实现多模态输入处理与统一分割输出,具体结构如下:

  1. 双编码器
    • 图像编码器:采用SigLIP2-so400m,提取全局图像特征(Z_v),用于整体图像理解。
    • 分割编码器:采用SAM-L,提取细粒度图像特征(Z_s),为精准分割提供细节支撑。
  2. 双投影器
    • 对分割编码器输出的大尺寸特征,先通过像素洗牌操作降维,再经MLP投影器(w_s)映射到语言嵌入空间(H_s)。
    • 图像编码器特征直接经MLP投影器(w_i)映射到语言嵌入空间(H_v),最终拼接(H_v)、(H_s)与文本嵌入输入LLM。
  3. 分割连接器:通过像素洗牌操作实现特征的尺度转换,将分割编码器的单尺度(1/16)特征转化为多尺度(1/8、1/16、1/32)特征,为分割解码器提供丰富的尺度信息。
  4. 分割解码器:替换SAM原解码器,借鉴Mask2Former设计,结合LLM输出的令牌嵌入、多尺度分割特征与掩码查询令牌,预测掩码及类别概率,同时引入潜在背景嵌入统一处理所有分割任务的“忽略”类别。
  5. 大语言模型(LLM):采用Phi-3-mini-4k-instruct,负责处理文本指令与视觉特征的融合理解,生成语言响应并输出令牌触发分割结果。

四、实验结果

  1. 实验设置
    • 数据集:涵盖分割器微调(COCO-Panoptic)、对齐预训练(LLaVA-558K)、混合微调(LLaVA-1.5、COCO-Panoptic、COCO-VGD等)三大类,共涉及超20个分割数据集,其中COCO-VGD为新增VGD分割数据集。
    • 评估指标:通用分割与开放词汇分割用PQ、mIoU、mAP;指代分割与推理分割用cIoU、gIoU;GCG分割用METEOR、CIDEr、AP50、mIoU;VGD分割用AP、AP50等。
    • 实现细节:基于XTuner代码库,使用16张A100 GPU训练,三阶段训练的 batch size、学习率、训练轮次等参数分别优化(如分割器微调batch size=64,学习率1e-5~1e-4,共36轮)。
  2. 核心性能表现:X-SAM在7类分割任务中均实现当前最优(SOTA)性能,部分关键结果如下:
    • 指代分割:在RefCOCO、RefCOCO+、RefCOCOg验证集上,分别比PSALM高1.5%、5.1%、10.0% cIoU;比Sa2VA-8B(更大模型)分别高3.5%、1.8%、5.1% cIoU。
    • GCG分割:Val集上METEOR 15.4、CIDEr 46.3、AP50 33.2、mIoU 69.4,比GLaMM高0.2% METEOR、3.2% CIDEr,比OMG-LLaVA高3.3% AP、3.9% mIoU。
    • VGD分割:在点、涂鸦、框、掩码四种视觉提示下,AP分别达47.9、48.7、49.5、49.7,远超PSALM(最高仅5.8 AP50)。
    • 开放词汇分割:A150-OV数据集上PQ 20.9、AP 16.2、mIoU 28.8,优于ODISE(PQ 22.6但AP 14.4)与PSALM(PQ 13.7)。
  3. 消融实验验证
    • 混合微调:使A150-OV的AP提升6.0%、Reason-Val的gIoU提升8.9%,证明其对跨任务泛化能力的增强作用。
    • 双编码器:采用SAM分割编码器时,GCG-Val的mIoU提升4.6%、COCO-VGD的AP提升7.2%,优于Swin编码器。
    • 多阶段训练:加入分割器微调(S1)使COCO-Pan的PQ提升9.3%,加入对齐预训练(S2)使对话任务准确率提升2.1%。
    • 数据集平衡重采样:当超参数t=0.1时,推理分割gIoU从44.1%提升至56.6%,整体性能最优。

五、局限性与未来工作

  1. 局限性
    • 分割数据集与对话数据集的联合训练会对部分分割任务(如COCO-Pan)性能产生轻微负面影响(PQ下降0.8%),需优化数据集混合策略。
    • 模型在部分任务(如推理分割的cIoU)上未达绝对最优,统一模型的任务适配性仍需提升。
  2. 未来方向
    • 整合SAM2模型,将X-SAM的应用场景从图像分割拓展到视频分割。
    • 把VGD分割任务延伸至视频领域,引入视觉接地的时序信息,开发视频级视觉接地分割任务。

六、其他

  • 代码开源:https://github.com/wanghao9610/X-SAM
  • 论文地址:https://arxiv.org/abs/2508.04655
  • 模型参数:总参数量约5B,兼顾性能与部署效率。
  • 适用场景:涵盖通用分割、指代分割、推理分割、GCG分割、交互式分割、VGD分割等,可应用于图像编辑、视觉问答、场景理解等计算机视觉领域。

在这里插入图片描述

好了,这篇文章就介绍到这里,喜欢的小伙伴感谢给点个赞和关注,更多精彩内容持续更新~~
关于本篇文章大家有任何建议或意见,欢迎在评论区留言交流!

http://www.dtcms.com/a/615031.html

相关文章:

  • 网站后台登录界面代码洛阳制作网站的公司吗
  • 个人可以建设头条网站吗关键词搜索指数
  • 西安网站建设推广专家安徽网站建设seo优化
  • 网站建设合同要求绍兴 网站建设
  • 字节技术总监笔记:linux多线程>>进程线程互斥管道
  • 个人网站备案 内容黑龙江建设兵团知青网站
  • AI 大模型如何给 CAD 3D 模型“建立语义”?
  • MYSQL指令合集
  • 北京企业网站百度wordpress结构化数据插件 sign 检测失败
  • 网站建设需要注意哪些事项前端网站开发课程
  • 周期购那个网站做的比较好太原seo整站优化
  • 加强网站安全建设说明报告范文湖南长沙招聘
  • 精品成品网站源码关键词优化易下拉效率
  • 做网站前期框架图怎么做解析视频网站
  • 终端能力等级Category介绍
  • 计算机网站建设论文总结农村自建房设计图 户型图
  • 做爰网站下载地址品牌如何推广
  • 云南文山网站建设制作WordPress不使用MySQL数据库
  • 全椒县城乡建设局网站纯注册app拉新平台
  • 合肥家居网站建设怎么样广告联盟平台系统
  • PID调参实战:Ziegler–Nichols(Z-N)搜索方案全解析
  • AES加密,前端加密,后端解密
  • SK Keyfoundry增加Sic产能
  • 温州建站平台wordpress 七牛云
  • Spring Boot与MyBatis
  • 大区直播间网站开发制作研究网站开发意义
  • 西安网站建设价格明细北京西城注册公司
  • 提升知识索引性能的技术手段
  • 【数据结构】【xjtuse】八股文单元小测
  • 无锡网站建设开发网站建设终身不用维护