显著性预测 SUM
论文链接: [2406.17815] SUM: Saliency Unification through Mamba for Visual Attention Modeling
1. Introduction
视觉注意力是人类视觉系统的重要功能,它能够帮助我们在视觉场景中选择最相关的信息。对这一机制的建模,即显著性预测(Saliency Prediction),在许多应用中扮演了关键角色,例如市场营销、多媒体、计算机视觉与机器人等。
目前的显著性预测模型普遍存在 “模型专用性强,缺乏通用性” 的问题:模型往往只能适用于某一种图像类型。例如: 自然场景:观众的注意力通常受颜色和运动影响; 电商图片:文字信息通常更吸引眼球; UI界面:由于阅读习惯,用户更容易关注左上角。虽然已经有一些针对特定数据集(如电商或UI)的模型取得了不错的效果,但“统一适用于各种图像类型”的显著性建模研究仍较为欠缺。因此,有必要开发一个 通用的、能适应多种图像类型的显著性预测模型。
本文提出了 SUM(Saliency Unification through Mamba)模型,该模型基于最近提出的 Mamba 状态空间建模方法,结合 U-Net 架构:使用 Mamba 捕捉图像中的长距离依赖,同时具备线性计算复杂度;引入了一个 条件视觉状态空间模块(C-VSS),可以使模型根据不同图像类型(自然场景、电商、UI等)动态调整自身行为;在六个大规模数据集上进行了评估,SUM 模型在不同的视觉上下文中展现出强大的适应性与性能,超过了现有的 SOTA 方法。
2. 相关工作
- 显著性预测(Saliency Prediction)
本文的主要研究方向。
- Mamba 状态空间模型(Mamba)
Mamba 是一种新型的选择性状态空间模型(Selective State Space Models, SSMs),由 Gu 等人提出,它能以线性时间复杂度处理长序列,成为对传统注意力机制的高效替代。然而,Mamba 在显著性图预测任务中的应用仍属首次探索,这正是本研究的创新之处。
- 统一模型(Unified Models)
统一的显著性预测模型,旨在用一个模型同时适用于图像与视频,或不同类型的图像。代表性工作有: UNISAL:通过领域自适应实现图像和视频显著性统一建模,但它主要依赖 SALICON 数据集,模型轻量,通用性有限; UniAR:使用多模态 Transformer,兼顾自然图像与 UI,但忽视了电商图像;其模型参数达到 848M,计算开销大、实用性差。总的来看,现有统一模型 在效率、全面性和实际可用性之间存在权衡不足,缺乏一个同时高效、全面且适用于各种图像类型的通用模型。
3. 关键技术
3.1 模型架构(Model Architecture)
SUM 的整体架构基于经典的 U-Net,融合了 Mamba 模型强大的长距离依赖建模能力。整体流程如下:
- 输入图像:尺寸为 H×W×3,首先经过 Patch Embedding 层,维度缩减为 H/4 × W/4 × 3;
- 编码器部分:包含 4 层,每层通过 Patch Merging 下采样,同时通道数翻倍;
- 解码器部分:包含 4 层,每层使用 C-VSS(条件视觉状态空间)模块,同时通过 Patch Expanding 上采样并减半通道数;
- 输出层:最终通过线性层生成预测的显著性图。
此外,SUM 初始化使用 预训练的 VMamba 权重(基于 ImageNet),以提高泛化能力和训练效率。
3.2 视觉状态空间模块(VSS:Visual State Space)
VSS 是基于 Mamba 模型的视觉建模组件,其目的是以线性复杂度高效建模图像的长距离依赖信息。 Mamba 本质是 1D 序列建模器,但原始形式不适合图像(2D)建模; VMamba 引入了 交叉扫描模块(Cross-Scan Module),沿水平方向和垂直方向扫描图像形成四个序列,整合全图信息; 然后再将序列还原成原始图像形状,称为 2D-Selective-Scan(SS2D)。
3.3 条件视觉状态空间模块(C-VSS)
为提高模型对多种图像类型的适应性,作者在解码器中引入了 C-VSS 模块,核心思想是:
- 针对不同图像类型(自然场景-鼠标、自 然场景-眼动、电商、UI),设计了 4 个可学习的 token,而非简单的 one-hot 编码;
- 使用这些 token 作为输入,通过一个 MLP(多层感知机) 输出动态缩放(α)和偏移(β)参数;
- 用于调节 LayerNorm 和 SS2D 模块内的特征分布,从而动态适应图像类型。
这样设计能有效区分鼠标数据与眼动数据在注意力分布上的差异(如鼠标更分散、不准确)。
3.4 损失函数(Loss Function)
作者提出了一个综合损失函数,由以下五部分组成,每部分优化显著性预测的不同方面:
各个部分的作用:
-
KL 散度(Kullback-Leibler):衡量预测与真实分布的差异;
-
CC(线性相关系数):衡量预测图与真实图的线性一致性;
-
SIM(相似性):关注预测图与真实图在空间重叠上的相似程度;
-
NSS(归一化扫描路径显著性):评估预测图与实际注视点的相关性;
-
MSE(均方误差):惩罚像素级的预测误差。
通过调整各个权重系数 λi\lambda_iλi,模型可以同时优化多种指标,实现准确的显著性预测。
4. 实验
4.1 数据集(Datasets)
SUM 在六个大型 benchmark 数据集上进行了训练和测试,这些数据覆盖了不同类型的图像场景与注视记录方式:
数据集 | 图像类型 | 注视方式 | 图像数量 | 分辨率 | 训练样本数 |
---|---|---|---|---|---|
Salicon | 自然场景 | 鼠标轨迹 | 15,000 | 640×480 | 10,000 |
MIT1003 | 自然场景 | 眼动 | 1003 | 不定(多样) | 904 |
CAT2000 | 自然场景 | 眼动 | 2000 | 1080×1920 | 1600 |
OSIE | 自然场景 | 眼动 | 700 | 800×600 | 500 |
U-EYE | 网页界面(UI) | 眼动 | 1979 | 不定 | 1583 |
SalECI | 电商广告图像 | 眼动 | 972 | 720×720 | 871 |
4.2 评估指标(Evaluation Metrics)
采用两类评估标准衡量显著性图的质量:
位置相关指标(Location-based):
- NSS(Normalized Scan-path Saliency):预测图与注视点的相关性;
- AUC(Area under Curve):ROC曲线下的面积。
分布相关指标(Distribution-based):
-
CC(线性相关系数):预测图和真实图的线性一致性;
-
SIM(Similarity):预测图与真实图的重叠程度;
-
KLD(KL散度):预测图与真实图的分布差异。
其中,除了 KLD 越小越好,其余指标数值越大表示性能越优。
4.3 实验结果(Experiment Results)
SUM 在六个数据集中的 30 项指标中,有 27 项排名第一,另外 3 项排名第二;表明该方法在准确性与通用性上都具有领先优势。
SUM 在多个 benchmark 数据集上实现了 精度领先、适应多场景、模型相对紧凑 的综合优势,证明了其作为通用显著性建模器的强大潜力。
5. Conclusion
论文提出的 SUM 模型 针对传统显著性预测模型存在的“高计算成本”与“类型特定性强”问题,提出了一套创新的通用架构。
高效长程依赖建模:SUM 将 Mamba 状态空间模型 融入 U‑Net 架构,实现了以 线性复杂度 有效建模图像中长距离依赖关系;
动态图像类型适应能力:通过引入 Conditional Visual State Space(C‑VSS)模块,模型在测试阶段可以根据图像类型(自然场景鼠标/眼动、电商、UI 等)自动调整特征尺度与偏移,实现了 跨场景的统一预测;
全面评估与 SOTA 性能:在六个包含多种视觉类型的 benchmark 数据集上的实验中,SUM 在 30 项评估指标中取得了 27 项第一、3 项第二 的优异成绩;同时模型参数控制在合理范围内,证明其在 高性能与高效率之间取得了良好平衡。