当前位置：首页 > news >正文

显著性预测 SUM

news 2025/7/1 12:25:15

论文链接: [2406.17815] SUM: Saliency Unification through Mamba for Visual Attention Modeling

1. Introduction

        视觉注意力是人类视觉系统的重要功能，它能够帮助我们在视觉场景中选择最相关的信息。对这一机制的建模，即显著性预测（Saliency Prediction），在许多应用中扮演了关键角色，例如市场营销、多媒体、计算机视觉与机器人等。
        目前的显著性预测模型普遍存在 “模型专用性强，缺乏通用性” 的问题：模型往往只能适用于某一种图像类型。例如： 自然场景：观众的注意力通常受颜色和运动影响； 电商图片：文字信息通常更吸引眼球； UI界面：由于阅读习惯，用户更容易关注左上角。虽然已经有一些针对特定数据集（如电商或UI）的模型取得了不错的效果，但“统一适用于各种图像类型”的显著性建模研究仍较为欠缺。因此，有必要开发一个 通用的、能适应多种图像类型的显著性预测模型。
        本文提出了 SUM（Saliency Unification through Mamba）模型，该模型基于最近提出的 Mamba 状态空间建模方法，结合 U-Net 架构：使用 Mamba 捕捉图像中的长距离依赖，同时具备线性计算复杂度；引入了一个 条件视觉状态空间模块（C-VSS），可以使模型根据不同图像类型（自然场景、电商、UI等）动态调整自身行为；在六个大规模数据集上进行了评估，SUM 模型在不同的视觉上下文中展现出强大的适应性与性能，超过了现有的 SOTA 方法。

2. 相关工作

显著性预测（Saliency Prediction）

本文的主要研究方向。

Mamba 状态空间模型（Mamba）

Mamba 是一种新型的选择性状态空间模型（Selective State Space Models, SSMs），由 Gu 等人提出，它能以线性时间复杂度处理长序列，成为对传统注意力机制的高效替代。然而，Mamba 在显著性图预测任务中的应用仍属首次探索，这正是本研究的创新之处。

统一模型（Unified Models）

统一的显著性预测模型，旨在用一个模型同时适用于图像与视频，或不同类型的图像。代表性工作有： UNISAL：通过领域自适应实现图像和视频显著性统一建模，但它主要依赖 SALICON 数据集，模型轻量，通用性有限； UniAR：使用多模态 Transformer，兼顾自然图像与 UI，但忽视了电商图像；其模型参数达到 848M，计算开销大、实用性差。总的来看，现有统一模型 在效率、全面性和实际可用性之间存在权衡不足，缺乏一个同时高效、全面且适用于各种图像类型的通用模型。

3. 关键技术

3.1 模型架构（Model Architecture）

SUM 的整体架构基于经典的 U-Net，融合了 Mamba 模型强大的长距离依赖建模能力。整体流程如下：

输入图像：尺寸为 H×W×3，首先经过 Patch Embedding 层，维度缩减为 H/4 × W/4 × 3；
编码器部分：包含 4 层，每层通过 Patch Merging 下采样，同时通道数翻倍；
解码器部分：包含 4 层，每层使用 C-VSS（条件视觉状态空间）模块，同时通过 Patch Expanding 上采样并减半通道数；
输出层：最终通过线性层生成预测的显著性图。

此外，SUM 初始化使用 预训练的 VMamba 权重（基于 ImageNet），以提高泛化能力和训练效率。

3.2 视觉状态空间模块（VSS：Visual State Space）

VSS 是基于 Mamba 模型的视觉建模组件，其目的是以线性复杂度高效建模图像的长距离依赖信息。 Mamba 本质是 1D 序列建模器，但原始形式不适合图像（2D）建模； VMamba 引入了 交叉扫描模块（Cross-Scan Module），沿水平方向和垂直方向扫描图像形成四个序列，整合全图信息；然后再将序列还原成原始图像形状，称为 2D-Selective-Scan（SS2D）。

3.3 条件视觉状态空间模块（C-VSS）

为提高模型对多种图像类型的适应性，作者在解码器中引入了 C-VSS 模块，核心思想是：

针对不同图像类型（自然场景-鼠标、自然场景-眼动、电商、UI），设计了 4 个可学习的 token，而非简单的 one-hot 编码；
使用这些 token 作为输入，通过一个 MLP（多层感知机） 输出动态缩放（α）和偏移（β）参数；
用于调节 LayerNorm 和 SS2D 模块内的特征分布，从而动态适应图像类型。

这样设计能有效区分鼠标数据与眼动数据在注意力分布上的差异（如鼠标更分散、不准确）。

3.4 损失函数（Loss Function）

作者提出了一个综合损失函数，由以下五部分组成，每部分优化显著性预测的不同方面：

各个部分的作用：

KL 散度（Kullback-Leibler）：衡量预测与真实分布的差异；
CC（线性相关系数）：衡量预测图与真实图的线性一致性；
SIM（相似性）：关注预测图与真实图在空间重叠上的相似程度；
NSS（归一化扫描路径显著性）：评估预测图与实际注视点的相关性；
MSE（均方误差）：惩罚像素级的预测误差。

通过调整各个权重系数 λi\lambda_iλi，模型可以同时优化多种指标，实现准确的显著性预测。

4. 实验

4.1 数据集（Datasets）

SUM 在六个大型 benchmark 数据集上进行了训练和测试，这些数据覆盖了不同类型的图像场景与注视记录方式：

数据集	图像类型	注视方式	图像数量	分辨率	训练样本数
Salicon	自然场景	鼠标轨迹	15,000	640×480	10,000
MIT1003	自然场景	眼动	1003	不定（多样）	904
CAT2000	自然场景	眼动	2000	1080×1920	1600
OSIE	自然场景	眼动	700	800×600	500
U-EYE	网页界面（UI）	眼动	1979	不定	1583
SalECI	电商广告图像	眼动	972	720×720	871