当前位置: 首页 > news >正文

当SAM遇到声纳图像时之论文阅读

摘要

Segment Anything Model(SAM)革新了图像分割领域。然而,当将 SAM 应用于与自然图像不同的领域时,其性能可能会下降。通过微调技术,SAM 在医学和行星科学等特定领域显示出了良好的适应性。然而,目前尚缺乏关于将 SAM 应用于声纳成像的研究。本文旨在填补这一空白,对 SAM 在声纳图像上的性能进行全面评估。具体而言,我们在不同设置下测试了 SAM 在声纳图像上的表现;此外,还分别针对带提示分割和语义分割任务对 SAM 进行了微调,以扩展其在自动化分割任务中的应用。实验结果表明,微调后的 SAM 性能显著提升。代码将于稍后在 https://github.com/wangsssky/SonarSAM 上公开。

1. 引言

在水下环境中,由于光波的高吸收和散射,光学检测的有效距离受到限制 [1],必须依赖声波成像等替代传感方式。声波在水中传播几乎不受水体及溶解杂质影响,因而检测距离更长,广泛应用于科学研究、渔业和军事等领域。

图像分割是将图像划分为多个区域的过程,每个区域对应不同的目标。与检测和分类提供的边界框或类别标签相比,分割能够提供更为精细的目标描述。然而,声纳图像分割具有噪声高、分辨率低以及目标形状复杂等挑战。

自 2012 年 AlexNet [2] 在 ImageNet [3] 上大幅提升分类性能以来,深度学习技术在自然语言处理、计算机视觉、语音识别等众多领域取得了长足进展。在声纳图像分割方面,深度学习同样取得了鼓舞人心的成果,但整体水平常落后于最新技术数年 [4]。

Segment Anything Model(SAM)[5] 是迄今为止基于最大规模数据集(1100 万张图像和 10 亿个掩码)训练的通用分割模型。SAM 在众多分割任务上表现优异,曾一度让人们认为图像分割难题已被“终结”。但后续研究表明,对于边界不清晰、形状不规则、小目标或低对比度等特定场景,SAM 的性能可能显著下降,如医学影像 [7,8,9]、伪装目标 [10] 等,这可能归因于训练集中缺乏相应样本。为此,多种微调方法被提出,以提升 SAM 在特定任务上的表现 [11–16]。

然而,截至目前,尚无文献探讨 SAM 在声纳图像上的表现,也缺乏针对该领域所需微调策略的相关研究。

为填补上述研究空白,本文将 SAM 引入声纳图像领域并评估其性能,系统考察多种主流的微调方法在声纳图像上的定性与定量表现,旨在搭建大模型与声纳成像应用之间的桥梁,促进该领域的进一步研究。我们聚焦于前视声纳图像,发现与其他非自然图像领域类似,SAM 在原始形式下效果大幅下降(见图 1(b) 和 ©),因此迫切需要针对声纳图像对 SAM 进行微调。我们选取了近期颇具潜力的微调方法进行了全面评估,并在此基础上探索无需人工交互的语义分割微调策略,以实现自动化分割。

本文的主要贡献如下:

首次将 SAM 应用于声纳图像,并对其性能展开深入研究,为声纳成像社区带来新的视角。

在声纳图像上采用并评估了多种微调 SAM 的方法,为小样本和领域差异较大的任务提供实践经验。

除了常规的带提示分割外,还提出并验证了 SAM 的语义分割微调方案,实现无需额外交互的自动分割。

2. 相关工作

2.1 声纳图像分割

作为图像分割的一个子领域,声纳图像分割方法整体沿袭了自然图像分割的思路,常用模型包括 UNet [17]、FCN [18]、SegNet [19] 和 DeeplabV3 [20]。例如,Zheng 等人 [21] 引入 DeeplabV3+ 来区分水柱与海底;Song 等人 [22] 在声纳图像上应用 FCN,将图像分为高光、阴影和背景三类区域;Rahnemoonfar 和 Dobbs [23] 则使用类 UNet 结构对海草床中的坑洞进行分割。

2.2 Segment Anything Model

SAM [5] 是一款基于大规模自然图像数据集训练的最先进通用图像分割模型。该模型可利用多种提示(如点、框、掩码和文本)进行目标分割,并具备出色的零样本学习能力,因此在各类成像应用中备受关注。SAM 架构由三大组件组成:图像编码器、提示编码器和掩码解码器。图像编码器采用基于 Vision Transformer(ViT)[24] 的特征提取器来生成图像嵌入;提示编码器负责处理分割提示;掩码解码器最终输出分割掩码。图 2(a) 展示了该架构的示意图。
在这里插入图片描述

在这里插入图片描述

尽管 SAM 展现了强大的通用化能力,但在某些特定任务上,其性能仍会下降。为此,研究者提出了多种微调方法。Ma 等人 [11] 提出的 MedSAM 仅微调掩码解码器,并以边界框作为提示,其他网络部分保持冻结,以适配医学图像。Li 等人 [14] 则对整个网络进行微调,相较于仅微调掩码解码器,在 DICE 分数上有小于 3% 的边际提升。

Zhang 等人 [15] 提出了 SAMed,通过低秩适配(LoRA)[25] 对少量参数进行微调,并在掩码解码器中引入语义信息;Wu 等人 [12] 引入了一种适配技术 [26],将 SAM 微调至医学影像场景;Chen 等人 [10] 提出的 SAM-Adapter 则针对伪装和阴影等低性能场景进行优化。Qiu 等人 [13] 针对眼科图像提出了视觉提示微调方法:冻结 ViT 主干的 Transformer 层权重,并在层间添加可调卷积层以学习任务特定信息,同时用自定义头替换提示编码器和掩码解码器。Julka 和 Granitzer [16] 将 SAM 应用于行星科学中的地形分割,发现仅微调掩码解码器虽可取得部分结果,却需要大量额外提示才能达到最佳性能,不利于自动化部署;他们因此采用轻量级自定义解码器,并利用 SAM 解码器对增量样本进行标注。

总的来看,现有 SAM 微调方法主要集中于三方面:(1)通过适配技术微调图像编码器;(2)微调轻量级提示编码器和/或掩码解码器;(3)针对特定任务使用自定义头,见图 2(b)。然而,这些方法在声纳图像上的性能及最佳实践尚不明确。因此,本工作对 SAM 在声纳图像上的应用进行了系统实验,为未来将大型视觉模型微调至特定图像领域提供参考。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3. 方法

本节介绍我们用于微调 SAM 的框架。我们精心挑选了一组当前在 SAM 的图像编码器和掩码解码器上应用的有前景的微调方法。具体而言,对于图像编码器,我们评估四种微调设置:冻结(Frozen)、全量微调(Full-tuning)、LoRA 微调(Fine-tuning with LoRA)和提示层微调(Fine-tuning with Prompt layer)。对于掩码解码器,我们采用三种设置:全量微调、LoRA 微调和自定义分割头(Custom segmentation head)。图 3 展示了这些微调方法的结构示意图。
在这里插入图片描述

3.1 图像编码器的微调设置

冻结(Frozen)
在训练过程中,常用的迁移学习策略是冻结图像编码器的所有参数,仅微调提示编码器和掩码解码器 [11]。该方法可以大幅减少计算量,因为图像编码器占据了 SAM 绝大部分参数。

全量微调(Full-tuning)
与冻结编码器相反,全量微调会更新图像编码器中的所有参数 [14]。这种方式通常需要更高的计算资源和更长的训练时间。

LoRA 微调(Fine-tuning with LoRA)
LoRA(低秩适配)允许仅通过微调少量参数来实现模型更新,而无需调整编码器中的所有权重。图 3(b) 展示了在图像编码器的 Transformer 层中应用 LoRA 的结构 [15]。LoRA 层由两层线性变换构成,内部维度(秩)较小(如本文中使用的秩为 4)。

提示层微调(Fine-tuning with Prompt layer)
提示层微调引入了视觉提示调优(Visual Prompt Tuning)到 SAM 中 [13,27]。与 LoRA 微调类似,仅对少量参数进行训练。图 3© 展示了提示层的结构示意

3.2 掩码解码器的微调设置

对于掩码解码器,我们同样采用三个设置:全量微调、LoRA 微调和自定义分割头。前两种方法的原理可参考第 3.1 节。

自定义分割头(Custom Segmentation head)
由于 SAM 生成的掩码缺乏语义类别信息,不利于需要类别标注的任务。为此,我们将图像编码器与自定义的分割头结合 [16,15,13]。本方法基于 [13,28] 中提出的简单分割头设计,包含反卷积层(transpose convolution)、分组卷积层(grouped convolution)和全连接层。

3.3 损失函数

在这里插入图片描述

4. 实验与结果

为了全面评估 SAM 在声纳图像场景下的能力,我们从三个方面展开实验:

评估原始 SAM 在声纳图像上的表现;

针对声纳图像,以多种设置微调 SAM;

针对特定任务(语义分割)对 SAM 进行微调和适配。

4.1 数据集

本实验使用 Marine Debris 数据集 [29],这是目前最大的公开可得的真实前视声纳语义分割数据集。该数据集由 ARIS Explorer 3000 传感器采集,共包含 1868 张图像,标注了 11 类物体:瓶子(bottle)、罐头(can)、链条(chain)、饮料盒(drink‑carton)、钩子(hook)、螺旋桨(propeller)、洗发水瓶(shampoo‑bottle)、立式瓶(standing‑bottle)、轮胎(tire)、阀门(valve)和墙面(wall)。由于数据集没有官方划分,我们将其按 6:2:2 的比例随机分为训练集、验证集和测试集。

4.2 实现细节

输入预处理:为保持与 SAM 的输入一致,将灰度声纳图像转换为 RGB,并统一缩放至 1024×1024。

数据增强:随机翻转和颜色抖动。

训练配置:批大小 4,优化器为 ADAM [30],初始学习率 3×10⁻⁴,采用余弦退火学习率调度器 [31] 并进行 1 轮预热。

训练轮数:所有模型在训练集上训练 30 个 epoch,超参数在验证集上调优,最终性能在测试集上评估。

运行环境:PyTorch 实现,使用两块 NVIDIA A100 GPU。

4.3 原始 SAM 在声纳图像上的评估

本节首先将未微调的 SAM(vit‑h 版本)应用于 Marine Debris 数据集的分割任务,并与常见分割模型(UNet [17]、SegResNet [32]、FCN [18]、DeeplabV3 [20])进行对比。我们对 SAM 采用两种提示设置:

默认网格点提示;

目标边界框提示。

量化结果见表 1。结果表明,SAM 在声纳图像上性能显著下降,默认提示下仅达 7.24% 的平均 DICE 分数。这主要源于 SAM 预训练所用的高质量自然图像与灰度、低分辨率且噪声较多的声纳图像之间存在巨大领域差距。使用边界框提示后,DICE 分数迅速提升至 40.27%,与 UNet 相当,但仍低于 FCN 的表现。图 1(b)© 展示了直接应用 SAM 的分割结果,在结构复杂或强度不均匀区域的分割效果尤为欠佳。
在这里插入图片描述
在这里插入图片描述
Figure 1: Results of applying SAM to forward-looking sonar images. From left to right: (a) the ground truth; (b) results of the original SAM with default settings; © results of the original SAM with box prompts; (d) results of the fine-tuned SAM for semantic segmentation task; (e) results of the fine-tuned SAM with
box prompts

4.4 针对声纳图像微调 SAM

针对原始 SAM 在声纳图像上的低性能,我们提出并评估了若干微调策略:

图像编码器:冻结、LoRA 微调、提示层微调
掩码解码器:LoRA 微调、全量微调。

均采用 vit‑l 主干,训练时仅使用边界框提示。结果见表 2。与直接应用 SAM 相比,所有微调策略都至少提升了 44% 的 DICE 分数。冻结编码器与两种适配方法之间的差距约 2–3%,凸显了在存在领域差距时微调编码器的重要性;而这两种方法的性能相差不足 0.3%,均表现良好。对于掩码解码器,完全微调略优于 LoRA 微调,这可能是因为解码器参数量更少、易于收敛,全量微调也能更充分地适应新领域。图 1(e) 给出了微调后 SAM(编码器:vit‑l,解码器:全量微调)在声纳图像上的分割效果。
在这里插入图片描述

4.5 针对声纳图像的语义分割微调

虽然使用边界框提示的微调模型在 DICE 分数上已优于 FCN 和 DeeplabV3,但提示输入限制了自动化部署的可行性。本节中,我们评估了在无提示(全自动)情况下,针对语义分割对 SAM 的微调效果。实验中,图像编码器采用冻结、全量微调、LoRA 微调、提示层微调四种方式;掩码解码器采用自定义分割头、全量微调和 LoRA 微调三种方式,均以 vit‑l 为主干。结果见表 3。
在这里插入图片描述
微调编码器相比冻结编码器性能并无提升,甚至显著下降(全量微调仅 11.31% DICE),可能因语义分割数据不足而过拟合

冻结编码器下,不同解码器设置性能相近,全量微调解码器最佳,LoRA 解码器最差,与第 4.4 节结论一致。

整体来看,针对语义分割单独优化的 SAM 模型仍逊于传统网络 [18,20] 及带框提示的模型,这与以往对 SAM 微调的研究结果相符 [11,13,15]。池化 SAM 架构在语义分割任务中的充分利用仍待进一步探索。图 1(d) 展示了相应结果。

4.6 模型规模对性能的影响

通常在自然图像任务中,主干网络越大性能越好 [5,34];但在迁移学习中,目标域样本有限也会影响效果。本节对比了不同规模主干(vit‑b、vit‑l、vit‑h)下的微调表现。以冻结、提示层微调和 LoRA 微调三种图像编码器策略为例,实验结果见表 4(各组最佳结果下划线标注)。
在这里插入图片描述
最小主干 vit‑b 性能最低;
较大主干(vit‑l、vit‑h)平均 DICE 分别较 vit‑b 提升约 9%、6% 和 3%;
从 vit‑l 到 vit‑h 性能提升不明显,暗示目标域样本量不足已导致参数增多的模型达到性能瓶颈。

结论:针对具体任务选择合适规模的主干网络,才能在计算效率和性能间取得均衡。

5. 结论

在本研究中,我们提出将 SAM 引入声纳成像场景,并重点探讨了针对声纳图像分析对 SAM 进行微调的方法。由于 SAM 预训练所用样本与声纳图像之间存在显著领域差距,直接应用 SAM 于声纳图像分割任务面临挑战。为此,我们采用了多种微调策略来使 SAM 适配声纳成像。实验结果表明,经微调后的 SAM 模型在性能上获得了显著提升。此外,我们还探讨了针对语义分割任务的 SAM 微调,并评估了主干网络规模对分割性能的影响。我们的实验结果证明了 SAM 这一大型视觉模型在声纳成像场景中的潜力,并为后续研究提供了有价值的见解。

论文的主要论点可归纳如下:

领域差距显著

直接将 SAM 应用于前视声纳图像时,因训练时使用的大量高质量自然图像与灰度、低分辨率、高噪声的声纳图像存在巨大领域差距,导致分割性能急剧下降(默认提示下平均 DICE 仅 7.24%)。

多种微调策略提升性能

针对声纳图像对 SAM 进行微调,包括冻结/全量微调/LoRA/视觉提示层四种图像编码器策略,以及全量微调/LoRA/自定义分割头三种掩码解码器策略。

微调后,模型最低可提升约 44% DICE 分数,其中全量微调解码器略优于 LoRA,编码器 LoRA 与提示微调效果相近。

语义分割场景的局限

在无需任何交互提示的语义分割任务中,各种微调策略表现仍低于带框提示的分割与传统网络(如 FCN、DeeplabV3),主要因可用标注数据有限,SAM 架构在纯语义分割场景下尚未被充分利用。

主干网络规模影响

在迁移到声纳图像时,较大的 ViT 主干(vit‑l、vit‑h)相比小规模(vit‑b)能带来约 6–9% 的性能提升;但从 vit‑l 到 vit‑h 的边际收益有限,提示目标域样本量已成制约。

首次将 SAM 引入声纳成像

本文首次在声纳图像上系统评估 SAM,并比较了多种前沿微调方法,为大规模视觉模型在特殊领域(小样本、高噪声场景)中的应用与再训练提供了实践经验和参考。

相关文章:

  • TreeMap源码分析 红黑树
  • mac系统快捷键及命令安装
  • LSNet: 基于侧向抑制的神经网络
  • 预测性 SRE 与自动化修复
  • fvcom 网格文件grd制作
  • yolov11安装,训练模型,tensorrtx加速,Qt预测图像
  • mac触摸板设置右键
  • python pyecharts 数据分析及可视化(2)
  • 八股文——JAVA基础:hashCode()方法的作用与意义以及与equals方法的联动
  • 通过阿里云部署n8n工作流自动备份GitHub
  • Gartner《Everything Technical Professionals Need to KnowAbout DA Strategy》学习心得
  • RuoYi-Vue学习环境搭建
  • docker compose基本使用以及示例
  • 云端可视化耦合电磁场:麦克斯韦方程组的应用-AI云计算数值分析和代码验证
  • 学习使用Visual Studio分析.net内存转储文件的基本用法
  • MybatisPlus-03.快速入门-常用注解
  • 横向移动01
  • leetcode437-路径总和III
  • FLOPS、FLOP/s、TOPS概念
  • 手机流量监控App(GlassWire)使用指南