当前位置：首页 > news >正文

当SAM遇到声纳图像时之论文阅读

news 来源：原创 2025/6/30 12:18:38

摘要

Segment Anything Model（SAM）革新了图像分割领域。然而，当将 SAM 应用于与自然图像不同的领域时，其性能可能会下降。通过微调技术，SAM 在医学和行星科学等特定领域显示出了良好的适应性。然而，目前尚缺乏关于将 SAM 应用于声纳成像的研究。本文旨在填补这一空白，对 SAM 在声纳图像上的性能进行全面评估。具体而言，我们在不同设置下测试了 SAM 在声纳图像上的表现；此外，还分别针对带提示分割和语义分割任务对 SAM 进行了微调，以扩展其在自动化分割任务中的应用。实验结果表明，微调后的 SAM 性能显著提升。代码将于稍后在 https://github.com/wangsssky/SonarSAM 上公开。

1. 引言

在水下环境中，由于光波的高吸收和散射，光学检测的有效距离受到限制 [1]，必须依赖声波成像等替代传感方式。声波在水中传播几乎不受水体及溶解杂质影响，因而检测距离更长，广泛应用于科学研究、渔业和军事等领域。

图像分割是将图像划分为多个区域的过程，每个区域对应不同的目标。与检测和分类提供的边界框或类别标签相比，分割能够提供更为精细的目标描述。然而，声纳图像分割具有噪声高、分辨率低以及目标形状复杂等挑战。

自 2012 年 AlexNet [2] 在 ImageNet [3] 上大幅提升分类性能以来，深度学习技术在自然语言处理、计算机视觉、语音识别等众多领域取得了长足进展。在声纳图像分割方面，深度学习同样取得了鼓舞人心的成果，但整体水平常落后于最新技术数年 [4]。

Segment Anything Model（SAM）[5] 是迄今为止基于最大规模数据集（1100 万张图像和 10 亿个掩码）训练的通用分割模型。SAM 在众多分割任务上表现优异，曾一度让人们认为图像分割难题已被“终结”。但后续研究表明，对于边界不清晰、形状不规则、小目标或低对比度等特定场景，SAM 的性能可能显著下降，如医学影像 [7,8,9]、伪装目标 [10] 等，这可能归因于训练集中缺乏相应样本。为此，多种微调方法被提出，以提升 SAM 在特定任务上的表现 [11–16]。

然而，截至目前，尚无文献探讨 SAM 在声纳图像上的表现，也缺乏针对该领域所需微调策略的相关研究。

为填补上述研究空白，本文将 SAM 引入声纳图像领域并评估其性能，系统考察多种主流的微调方法在声纳图像上的定性与定量表现，旨在搭建大模型与声纳成像应用之间的桥梁，促进该领域的进一步研究。我们聚焦于前视声纳图像，发现与其他非自然图像领域类似，SAM 在原始形式下效果大幅下降（见图 1(b) 和 ©），因此迫切需要针对声纳图像对 SAM 进行微调。我们选取了近期颇具潜力的微调方法进行了全面评估，并在此基础上探索无需人工交互的语义分割微调策略，以实现自动化分割。

本文的主要贡献如下：

首次将 SAM 应用于声纳图像，并对其性能展开深入研究，为声纳成像社区带来新的视角。

在声纳图像上采用并评估了多种微调 SAM 的方法，为小样本和领域差异较大的任务提供实践经验。

除了常规的带提示分割外，还提出并验证了 SAM 的语义分割微调方案，实现无需额外交互的自动分割。

2. 相关工作

2.1 声纳图像分割

作为图像分割的一个子领域，声纳图像分割方法整体沿袭了自然图像分割的思路，常用模型包括 UNet [17]、FCN [18]、SegNet [19] 和 DeeplabV3 [20]。例如，Zheng 等人 [21] 引入 DeeplabV3+ 来区分水柱与海底；Song 等人 [22] 在声纳图像上应用 FCN，将图像分为高光、阴影和背景三类区域；Rahnemoonfar 和 Dobbs [23] 则使用类 UNet 结构对海草床中的坑洞进行分割。

2.2 Segment Anything Model

SAM [5] 是一款基于大规模自然图像数据集训练的最先进通用图像分割模型。该模型可利用多种提示（如点、框、掩码和文本）进行目标分割，并具备出色的零样本学习能力，因此在各类成像应用中备受关注。SAM 架构由三大组件组成：图像编码器、提示编码器和掩码解码器。图像编码器采用基于 Vision Transformer（ViT）[24] 的特征提取器来生成图像嵌入；提示编码器负责处理分割提示；掩码解码器最终输出分割掩码。图 2(a) 展示了该架构的示意图。
在这里插入图片描述

在这里插入图片描述

尽管 SAM 展现了强大的通用化能力，但在某些特定任务上，其性能仍会下降。为此，研究者提出了多种微调方法。Ma 等人 [11] 提出的 MedSAM 仅微调掩码解码器，并以边界框作为提示，其他网络部分保持冻结，以适配医学图像。Li 等人 [14] 则对整个网络进行微调，相较于仅微调掩码解码器，在 DICE 分数上有小于 3% 的边际提升。

Zhang 等人 [15] 提出了 SAMed，通过低秩适配（LoRA）[25] 对少量参数进行微调，并在掩码解码器中引入语义信息；Wu 等人 [12] 引入了一种适配技术 [26]，将 SAM 微调至医学影像场景；Chen 等人 [10] 提出的 SAM-Adapter 则针对伪装和阴影等低性能场景进行优化。Qiu 等人 [13] 针对眼科图像提出了视觉提示微调方法：冻结 ViT 主干的 Transformer 层权重，并在层间添加可调卷积层以学习任务特定信息，同时用自定义头替换提示编码器和掩码解码器。Julka 和 Granitzer [16] 将 SAM 应用于行星科学中的地形分割，发现仅微调掩码解码器虽可取得部分结果，却需要大量额外提示才能达到最佳性能，不利于自动化部署；他们因此采用轻量级自定义解码器，并利用 SAM 解码器对增量样本进行标注。

总的来看，现有 SAM 微调方法主要集中于三方面：（1）通过适配技术微调图像编码器；（2）微调轻量级提示编码器和/或掩码解码器；（3）针对特定任务使用自定义头，见图 2(b)。然而，这些方法在声纳图像上的性能及最佳实践尚不明确。因此，本工作对 SAM 在声纳图像上的应用进行了系统实验，为未来将大型视觉模型微调至特定图像领域提供参考。

在这里插入图片描述

3. 方法

本节介绍我们用于微调 SAM 的框架。我们精心挑选了一组当前在 SAM 的图像编码器和掩码解码器上应用的有前景的微调方法。具体而言，对于图像编码器，我们评估四种微调设置：冻结（Frozen）、全量微调（Full-tuning）、LoRA 微调（Fine-tuning with LoRA）和提示层微调（Fine-tuning with Prompt layer）。对于掩码解码器，我们采用三种设置：全量微调、LoRA 微调和自定义分割头（Custom segmentation head）。图 3 展示了这些微调方法的结构示意图。
在这里插入图片描述

3.1 图像编码器的微调设置

冻结（Frozen）
在训练过程中，常用的迁移学习策略是冻结图像编码器的所有参数，仅微调提示编码器和掩码解码器 [11]。该方法可以大幅减少计算量，因为图像编码器占据了 SAM 绝大部分参数。

全量微调（Full-tuning）
与冻结编码器相反，全量微调会更新图像编码器中的所有参数 [14]。这种方式通常需要更高的计算资源和更长的训练时间。

LoRA 微调（Fine-tuning with LoRA）
LoRA（低秩适配）允许仅通过微调少量参数来实现模型更新，而无需调整编码器中的所有权重。图 3(b) 展示了在图像编码器的 Transformer 层中应用 LoRA 的结构 [15]。LoRA 层由两层线性变换构成，内部维度（秩）较小（如本文中使用的秩为 4）。

提示层微调（Fine-tuning with Prompt layer）
提示层微调引入了视觉提示调优（Visual Prompt Tuning）到 SAM 中 [13,27]。与 LoRA 微调类似，仅对少量参数进行训练。图 3© 展示了提示层的结构示意

3.2 掩码解码器的微调设置

对于掩码解码器，我们同样采用三个设置：全量微调、LoRA 微调和自定义分割头。前两种方法的原理可参考第 3.1 节。

自定义分割头（Custom Segmentation head）
由于 SAM 生成的掩码缺乏语义类别信息，不利于需要类别标注的任务。为此，我们将图像编码器与自定义的分割头结合 [16,15,13]。本方法基于 [13,28] 中提出的简单分割头设计，包含反卷积层（transpose convolution）、分组卷积层（grouped convolution）和全连接层。

3.3 损失函数

在这里插入图片描述

4. 实验与结果

为了全面评估 SAM 在声纳图像场景下的能力，我们从三个方面展开实验：

评估原始 SAM 在声纳图像上的表现；

针对声纳图像，以多种设置微调 SAM；

针对特定任务（语义分割）对 SAM 进行微调和适配。

4.1 数据集

本实验使用 Marine Debris 数据集 [29]，这是目前最大的公开可得的真实前视声纳语义分割数据集。该数据集由 ARIS Explorer 3000 传感器采集，共包含 1868 张图像，标注了 11 类物体：瓶子（bottle）、罐头（can）、链条（chain）、饮料盒（drink‑carton）、钩子（hook）、螺旋桨（propeller）、洗发水瓶（shampoo‑bottle）、立式瓶（standing‑bottle）、轮胎（tire）、阀门（valve）和墙面（wall）。由于数据集没有官方划分，我们将其按 6:2:2 的比例随机分为训练集、验证集和测试集。

4.2 实现细节

输入预处理：为保持与 SAM 的输入一致，将灰度声纳图像转换为 RGB，并统一缩放至 1024×1024。

数据增强：随机翻转和颜色抖动。

训练配置：批大小 4，优化器为 ADAM [30]，初始学习率 3×10⁻⁴，采用余弦退火学习率调度器 [31] 并进行 1 轮预热。

训练轮数：所有模型在训练集上训练 30 个 epoch，超参数在验证集上调优，最终性能在测试集上评估。

运行环境：PyTorch 实现，使用两块 NVIDIA A100 GPU。

4.3 原始 SAM 在声纳图像上的评估

本节首先将未微调的 SAM（vit‑h 版本）应用于 Marine Debris 数据集的分割任务，并与常见分割模型（UNet [17]、SegResNet [32]、FCN [18]、DeeplabV3 [20]）进行对比。我们对 SAM 采用两种提示设置：

默认网格点提示；

目标边界框提示。

量化结果见表 1。结果表明，SAM 在声纳图像上性能显著下降，默认提示下仅达 7.24% 的平均 DICE 分数。这主要源于 SAM 预训练所用的高质量自然图像与灰度、低分辨率且噪声较多的声纳图像之间存在巨大领域差距。使用边界框提示后，DICE 分数迅速提升至 40.27%，与 UNet 相当，但仍低于 FCN 的表现。图 1(b)© 展示了直接应用 SAM 的分割结果，在结构复杂或强度不均匀区域的分割效果尤为欠佳。
在这里插入图片描述

Figure 1: Results of applying SAM to forward-looking sonar images. From left to right: (a) the ground truth; (b) results of the original SAM with default settings; © results of the original SAM with box prompts; (d) results of the fine-tuned SAM for semantic segmentation task; (e) results of the fine-tuned SAM with
box prompts

4.4 针对声纳图像微调 SAM

针对原始 SAM 在声纳图像上的低性能，我们提出并评估了若干微调策略：

图像编码器：冻结、LoRA 微调、提示层微调；
掩码解码器：LoRA 微调、全量微调。

均采用 vit‑l 主干，训练时仅使用边界框提示。结果见表 2。与直接应用 SAM 相比，所有微调策略都至少提升了 44% 的 DICE 分数。冻结编码器与两种适配方法之间的差距约 2–3%，凸显了在存在领域差距时微调编码器的重要性；而这两种方法的性能相差不足 0.3%，均表现良好。对于掩码解码器，完全微调略优于 LoRA 微调，这可能是因为解码器参数量更少、易于收敛，全量微调也能更充分地适应新领域。图 1(e) 给出了微调后 SAM（编码器：vit‑l，解码器：全量微调）在声纳图像上的分割效果。
在这里插入图片描述

4.5 针对声纳图像的语义分割微调

虽然使用边界框提示的微调模型在 DICE 分数上已优于 FCN 和 DeeplabV3，但提示输入限制了自动化部署的可行性。本节中，我们评估了在无提示（全自动）情况下，针对语义分割对 SAM 的微调效果。实验中，图像编码器采用冻结、全量微调、LoRA 微调、提示层微调四种方式；掩码解码器采用自定义分割头、全量微调和 LoRA 微调三种方式，均以 vit‑l 为主干。结果见表 3。
在这里插入图片描述
微调编码器相比冻结编码器性能并无提升，甚至显著下降（全量微调仅 11.31% DICE），可能因语义分割数据不足而过拟合。

冻结编码器下，不同解码器设置性能相近，全量微调解码器最佳，LoRA 解码器最差，与第 4.4 节结论一致。

整体来看，针对语义分割单独优化的 SAM 模型仍逊于传统网络 [18,20] 及带框提示的模型，这与以往对 SAM 微调的研究结果相符 [11,13,15]。池化 SAM 架构在语义分割任务中的充分利用仍待进一步探索。图 1(d) 展示了相应结果。

4.6 模型规模对性能的影响

通常在自然图像任务中，主干网络越大性能越好 [5,34]；但在迁移学习中，目标域样本有限也会影响效果。本节对比了不同规模主干（vit‑b、vit‑l、vit‑h）下的微调表现。以冻结、提示层微调和 LoRA 微调三种图像编码器策略为例，实验结果见表 4（各组最佳结果下划线标注）。
在这里插入图片描述
最小主干 vit‑b 性能最低；
较大主干（vit‑l、vit‑h）平均 DICE 分别较 vit‑b 提升约 9%、6% 和 3%；
从 vit‑l 到 vit‑h 性能提升不明显，暗示目标域样本量不足已导致参数增多的模型达到性能瓶颈。

结论：针对具体任务选择合适规模的主干网络，才能在计算效率和性能间取得均衡。

5. 结论

在本研究中，我们提出将 SAM 引入声纳成像场景，并重点探讨了针对声纳图像分析对 SAM 进行微调的方法。由于 SAM 预训练所用样本与声纳图像之间存在显著领域差距，直接应用 SAM 于声纳图像分割任务面临挑战。为此，我们采用了多种微调策略来使 SAM 适配声纳成像。实验结果表明，经微调后的 SAM 模型在性能上获得了显著提升。此外，我们还探讨了针对语义分割任务的 SAM 微调，并评估了主干网络规模对分割性能的影响。我们的实验结果证明了 SAM 这一大型视觉模型在声纳成像场景中的潜力，并为后续研究提供了有价值的见解。

论文的主要论点可归纳如下：

领域差距显著

直接将 SAM 应用于前视声纳图像时，因训练时使用的大量高质量自然图像与灰度、低分辨率、高噪声的声纳图像存在巨大领域差距，导致分割性能急剧下降（默认提示下平均 DICE 仅 7.24%）。

多种微调策略提升性能

针对声纳图像对 SAM 进行微调，包括冻结／全量微调／LoRA／视觉提示层四种图像编码器策略，以及全量微调／LoRA／自定义分割头三种掩码解码器策略。

微调后，模型最低可提升约 44% DICE 分数，其中全量微调解码器略优于 LoRA，编码器 LoRA 与提示微调效果相近。

语义分割场景的局限

在无需任何交互提示的语义分割任务中，各种微调策略表现仍低于带框提示的分割与传统网络（如 FCN、DeeplabV3），主要因可用标注数据有限，SAM 架构在纯语义分割场景下尚未被充分利用。

主干网络规模影响

在迁移到声纳图像时，较大的 ViT 主干（vit‑l、vit‑h）相比小规模（vit‑b）能带来约 6–9% 的性能提升；但从 vit‑l 到 vit‑h 的边际收益有限，提示目标域样本量已成制约。

首次将 SAM 引入声纳成像

本文首次在声纳图像上系统评估 SAM，并比较了多种前沿微调方法，为大规模视觉模型在特殊领域（小样本、高噪声场景）中的应用与再训练提供了实践经验和参考。

TreeMap源码分析红黑树

mac系统快捷键及命令安装

LSNet: 基于侧向抑制的神经网络

预测性 SRE 与自动化修复

fvcom 网格文件grd制作

yolov11安装,训练模型,tensorrtx加速,Qt预测图像

mac触摸板设置右键

python pyecharts 数据分析及可视化（2）

八股文——JAVA基础：hashCode()方法的作用与意义以及与equals方法的联动

通过阿里云部署n8n工作流自动备份GitHub

Gartner《Everything Technical Professionals Need to KnowAbout DA Strategy》学习心得

RuoYi-Vue学习环境搭建

docker compose基本使用以及示例

云端可视化耦合电磁场：麦克斯韦方程组的应用-AI云计算数值分析和代码验证

学习使用Visual Studio分析.net内存转储文件的基本用法

MybatisPlus-03.快速入门-常用注解

横向移动01

leetcode437-路径总和III

FLOPS、FLOP/s、TOPS概念

手机流量监控App（GlassWire）使用指南

摘要

1. 引言

2. 相关工作

2.1 声纳图像分割

2.2 Segment Anything Model

3. 方法

3.1 图像编码器的微调设置

3.2 掩码解码器的微调设置

3.3 损失函数

4. 实验与结果

4.1 数据集

4.2 实现细节

4.3 原始 SAM 在声纳图像上的评估

4.4 针对声纳图像微调 SAM

4.5 针对声纳图像的语义分割微调

4.6 模型规模对性能的影响

5. 结论

论文的主要论点可归纳如下：

相关文章：