当前位置：首页 > news >正文

【论文笔记】2025年图像处理顶会论文

news 2025/10/5 5:22:01

2025年图像处理顶会论文

v-CLR: View-Consistent Learning for Open-World Instance Segmentation

2025年4月2日在arXiv上发布

理解

v-CLR：面向开放世界实例分割的视图一致性学习

开放世界实例分割：实例分割需同时完成目标的检测（定位边界框）和像素级分割（区分每个实例的具体轮廓）；开放世界区别于传统 “封闭世界”（训练和测试数据的类别固定且已知），开放世界场景中存在大量训练时未见过的新类别，模型需具备对未知类别的泛化能力，即不仅能分割已知类别，还能识别和分割新增的、未标注的类别实例

视图一致性学习：视图指对同一物体或场景的不同观测角度、模态或表征方式，例如同一物体的多视角图像（左 / 右 / 俯视）、不同分辨率的图像，或同一图像的不同数据增强版本（旋转、裁剪等）；一致性学习通过约束模型在不同视图下对同一实例的表征结果保持 “一致性”，例如同一物体在不同视角下的分割结果应对应相同的语义类别和轮廓特征，避免因视角变化导致的预测偏差

v-CLR：通过构建视图一致性的学习框架，让模型在训练时学习跨视图的特征对齐，增强对实例的鲁棒表征，从而提升其在开放世界场景中对未知类别的分割能力

摘要

在本文中，我们探讨了开放世界实例分割这一具有挑战性的问题。现有研究表明，传统视觉网络倾向于学习纹理等外观信息来识别物体。这种隐性偏差导致模型在开放世界场景中难以检测具有未知纹理的新物体。为解决这一挑战，我们提出了一种名为视图一致性学习（view-Consistent LeaRning, v-CLR）的学习框架，旨在促使模型学习外观不变性表征，以实现鲁棒的实例分割。在 v-CLR 中，我们首先为每张图像引入额外视图，在保留图像底层结构的同时对纹理进行显著改变。然后，通过强制不同视图间的物体特征保持一致性，推动模型学习外观不变性表征。为此，我们使用具有强物体感知能力的现成无监督模型获取与类别无关的物体提议（proposals），这些提议支持跨视图的物体特征匹配，从而大幅降低对外观的依赖，同时增强物体感知能力。我们在跨类别和跨数据集场景下的公共基准上对方法进行了全面评估，取得了最先进的性能。项目页面：https://visual-ai.github.io/vclr

理解1

现有研究表明，传统视觉网络倾向于学习纹理等外观信息来识别物体。这种隐性偏差导致模型在开放世界场景中难以检测具有未知纹理的新物体。

隐性偏差的核心：将外观等同于物体本质

模型在训练过程中 “隐性地” 将 “外观特征” 与 “物体身份” 绑定，而忽略了物体的结构、轮廓、几何形态等本质特征。

传统模型的 “纹理依赖症” 本质上是特征学习的片面性—— 将非本质的外观信息作为主要识别依据，而缺乏对物体通用特征（如形状、结构）的提取能力。这导致它们在开放世界中一旦遇到外观变化的新物体就会失效

理解2

为解决这一挑战，我们提出了一种名为视图一致性学习（view-Consistent LeaRning, v-CLR）的学习框架，旨在促使模型学习外观不变性表征，以实现鲁棒的实例分割。

外观不变性表征：表征指模型对物体提取的特征向量（如数值化的特征描述）；外观不变性即特征向量中剔除了纹理、颜色等外观信息，仅保留物体的结构、轮廓、几何形态等通用特征（对于一只猫，不变性表征应包含 “四肢、尾巴的相对位置”“头部轮廓” 等结构特征，而不包含 “毛发是条纹还是纯色” 等外观细节）

目标：让模型学会 “透过外观看本质”，无论物体的纹理、颜色如何变化，只要结构不变，就能识别为同一类或相似物体。

理解3

在 v-CLR 中，我们首先为每张图像引入额外视图，在保留图像底层结构的同时对纹理进行显著改变。

目的：打破模型对纹理的依赖

传统模型依赖纹理等外观特征，因此需要人为创造 “同一物体不同外观” 的样本，迫使模型区分 “必须保留的结构特征” 和 “可忽略的外观特征”

核心原则：保留底层结构和改变外观纹理

理解4

然后，通过强制不同视图间的物体特征保持一致性，推动模型学习外观不变性表征。

目的：让模型学会 “不同外观 = 同一物体”

若两个视图是同一物体的不同外观版本，模型对它们提取的特征应具有一致性，否则视为错误。通过这种约束，模型会主动过滤掉导致特征差异的外观信息，保留共性的结构特征。

理解5

为此，我们使用具有强物体感知能力的现成无监督模型获取与类别无关的物体提议（proposals），这些提议支持跨视图的物体特征匹配，从而大幅降低对外观的依赖，同时增强物体感知能力。

在封闭世界任务中，模型通过有监督标签（如 “这是猫”“这是车”）学习物体特征，但这会导致：

模型将 “猫” 的标签与训练数据中的外观（如虎斑纹理）绑定，形成 “标签 = 特定外观” 的偏差；

当开放世界中出现新类别或新外观时，有监督标签失效，模型无法定位物体。

因此需要 “类别无关的物体提议”。

类别无关提议：仅关注 “是否是物体”，而非 “是什么物体”

“类别无关” 指提议不涉及具体类别（如不区分 “猫” 或 “车”），仅根据物体的通用属性（如轮廓完整性、形状紧凑性）定位区域；示例：无监督模型会将图像中 “一个独立的、有闭合轮廓的区域” 视为一个物体提议，无论它是已知的猫还是未知的新物种。

提议（Proposal）指的是模型对图像中可能包含物体的区域的预测，也称为 “候选区域”。它是目标检测和实例分割等任务中的关键中间输出，其核心作用是缩小模型需要关注的范围，提高检测效率和准确性。

无监督模型的训练方式：自监督学习捕捉通用特征

常用方法（如对比学习、掩码自动编码器）：

不依赖类别标签，通过 “预测图像被掩码的部分”“判断两个视图是否属于同一物体” 等自监督任务学习特征；

这类模型会自然捕捉物体的结构、轮廓等通用特征（如物体的边界、部件关系），因为这些是完成自监督任务的关键。

强物体感知能力

即使对训练时未见过的新物体，无监督模型也能通过以下特征定位：

几何特征：闭合轮廓、对称结构、部件相对位置（如 “头部 + 四肢” 的分布）；

视觉显著性：与背景区分明显的区域、纹理或颜色的突变边界。

跨视图匹配的核心问题：如何确认不同视图中的区域对应同一物体

例如：原图中的猫和纹理变换后的猫，如何让模型知道这两个区域是同一物体？

解决方案：

对原图 (V_1) 和变换视图 (V_2)，分别用无监督模型提取物体提议 (P_1) 和 (P_2)；
通过几何变换关系（如视图 (V_2) 由 (V_1) 旋转 / 缩放生成）或特征相似度，匹配 (P_1) 和 (P_2) 中的对应区域（如同一猫的不同视图区域）；
强制匹配区域的特征保持一致，实现跨视图约束。

类别无关性的关键作用：避免标签偏差干扰匹配

若使用有监督类别标签，模型会优先匹配 “同类物体”，但开放世界中未知类别无标签；

类别无关提议仅基于 “物体性”（objectness）匹配，无论物体属于什么类别，只要结构相似就视为 “可能对应”，这更符合开放世界的泛化需求。

理解6

我们在跨类别和跨数据集场景下的公共基准上对方法进行了全面评估，取得了最先进的性能。

跨类别场景：测试数据中包含训练时未见过的新类别物体，模型需在 “已知类别” 和 “未知类别” 混合的场景中完成实例分割。

跨数据集场景：训练和测试数据来自不同数据集，两者的物体分布、拍摄场景、图像风格差异显著。

PolarNeXt: Rethink Instance Segmentation with Polar Representation

CVPR 2025年6月

理解

PolarNeXt：用极坐标表示重新思考实例分割

极坐标表示：在传统的实例分割中，通常使用笛卡尔坐标（x, y）来表示物体的位置和形状。而 PolarNeXt 采用极坐标表示法，即通过极坐标中的半径和角度来定位点，从原点出发，轮廓上的点由距离和角度确定。这种表示方法具有天然的方向性，便于将点连接成一个整体轮廓，简化了问题的难度。

PolarNeXt 的相关研究借鉴了之前一些基于极坐标的实例分割方法，如 PolarMask。

PolarMask 将实例分割转换为实例中心分类和极坐标中的密集距离回归两个并行任务，PolarNeXt 在此基础上进一步改进和优化，解决了之前方法中存在的一些问题，推动了极坐标表示法在实例分割领域的发展。

PolarMask 的核心思路

任务拆解：实例中心分类：检测图像中物体的中心点，并判断是否为 “实例中心”；极坐标距离回归：以中心点为原点，预测轮廓上每个角度 θ 对应的径向距离 r，形成极坐标下的掩码表示

将二维像素级掩码转化为一维距离回归问题，减少计算量，尤其适合径向对称物体（如圆形、椭圆形）

摘要

如今，实例分割的主要障碍之一是巨大的计算开销和模型参数量。先前基于极坐标表示的方法首次尝试通过将实例分割表述为多边形检测来应对这一挑战，但在性能上未能与主流方法看齐。在本文中，我们强调了长期被忽视的表征误差问题 —— 其源于多边形捕捉边界细节的能力有限，会导致性能严重退化。通过观察到最优起始点选择能有效缓解这一问题，我们提出了自适应多边形采样决策策略，以动态捕捉不同样本间表征误差的位置变化。此外，我们设计了联合对齐光栅化模块，将这些误差纳入多边形评估，进一步完善所提出的策略。借助这些组件，我们的框架 PolarNeXt 相比其他基于极坐标的方法实现了超过 4.8% 的平均精度（AP）提升。PolarNeXt 与最先进的实例分割方法相比显著更轻量高效，同时实现了相当的分割精度。我们期望这项工作能为高分辨率图像和资源受限场景下的实例分割开辟新方向。代码可在https://github.com/Sun15194/PolarNeXt获取。

理解1

如今，实例分割的主要障碍之一是巨大的计算开销和模型参数量。

实例分割需为每个像素判断 “是否属于某物体实例”，相比目标检测（仅预测边界框），计算量随图像分辨率呈平方增长；主流模型（如 Mask R-CNN、SOLO）通常包含 “骨干网络 + 检测头 + 分割头” 的多层级结构，参数量动辄数千万

理解2

先前基于极坐标表示的方法首次尝试通过将实例分割表述为多边形检测来应对这一挑战，但在性能上未能与主流方法看齐。

极坐标表示法的核心思路：将二维掩码转化为一维多边形：以物体中心点为极坐标原点，用 “角度 θ- 径向距离 r” 的映射关系表示轮廓，将实例分割转化为 “多边形检测” 任务

PolarMask的性能瓶颈：

边界细节丢失：多边形（尤其是边数较少时）难以精确表示复杂形状（如凹形、分叉结构），导致轮廓误差。例如：用 64 边形表示齿轮轮廓时，齿状细节会被平滑化，分割精度下降；

表示误差累积：极坐标下的距离回归误差会沿轮廓传播，尤其在物体边缘变化剧烈的区域（如树叶锯齿边缘），误差会显著放大。

理解3

在本文中，我们强调了长期被忽视的表征误差问题 —— 其源于多边形捕捉边界细节的能力有限，会导致性能严重退化。通过观察到最优起始点选择能有效缓解这一问题，我们提出了自适应多边形采样决策策略，以动态捕捉不同样本间表征误差的位置变化。

当用极坐标多边形表示物体轮廓时，因多边形边数有限、采样策略固定，导致表示结果与真实轮廓存在几何差异，这种差异称为表征误差

示例：真实轮廓：齿轮的锯齿状边缘；极坐标多边形表示：平滑后的近似轮廓，锯齿细节丢失，误差集中在齿尖区域。

“起始点选择” 是缓解误差的关键

早期方法（如 PolarMask）统一从 0°（图像水平向右方向）作为极坐标起始角度，未考虑物体形状的天然对称性或关键特征点。例如：对圆形物体，起始点不影响表示；对钥匙等非对称物体，固定从 0° 开始采样会导致多边形与轮廓的对齐偏差（如钥匙齿的起始角度与 0° 不匹配，需旋转后才能贴合）。

几何对齐优化：选择物体轮廓的 “最凸点”“拐角点” 等作为起始点，可使多边形边更贴合轮廓的关键转折处，减少整体误差；例如：用多边形画人脸时，以鼻尖为起始点比以耳垂为起始点更易捕捉面部轮廓的对称性，减少误差。

自适应多边形采样决策（APSD）策略：动态误差捕捉机制：不再使用固定起始点和均匀采样密度，而是根据每个样本的轮廓特征，动态确定：

最佳起始角度：使多边形与轮廓对齐误差最小的角度；
采样权重分布：在轮廓误差大的区域（如拐角）分配更高采样密度，在平滑区域降低密度。

理解4

此外，我们设计了联合对齐光栅化模块，将这些误差纳入多边形评估，进一步完善所提出的策略。

早期极坐标方法（如 PolarMask）使用 Polar IoU 评估模型性能，其仅基于极坐标距离计算：

对每个角度 θ，计算预测距离 (r{pred}(\theta)) 与真实距离 (r{gt}(\theta)) 的偏差；
通过积分或求和得到整体 IoU，未考虑多边形与真实轮廓的空间对齐误差。

预测多边形与真实轮廓整体形状相似，但存在旋转偏差；Polar IoU 因仅计算距离偏差，可能给出较高分数，但实际像素级重叠率（RMask IoU）很低

模型按 Polar IoU 优化时，可能学到 “距离正确但空间错位” 的虚假最优解，导致实际分割精度低下

联合对齐光栅化模块（URM）的核心设计：从 “距离评估” 到 “空间对齐评估”

联合对齐机制：无论预测多边形起始点如何，都转换到联合框内与真实轮廓对齐，类似将两张错位的地图校准到同一坐标系。

确定联合包围框：计算预测多边形与真实轮廓的最小联合包围框（Union Bounding Box），确保两者在同一空间范围内比较；

极坐标→笛卡尔坐标转换：将极坐标多边形和真实轮廓都映射到联合包围框的笛卡尔坐标系中，消除起始点和旋转带来的对齐偏差；

光栅化后评估：通过光栅化（Rasterization）将对齐后的多边形和真实轮廓都转换为像素级掩码，再计算传统的 RMask IoU（即像素重叠率）

在 URM 的约束下，模型不仅学习极坐标距离的准确性，还会主动调整多边形的空间位置和朝向，使其与真实轮廓对齐：

传统方法：可能生成 “距离正确但整体偏移” 的多边形；

URM 约束后：多边形会自动向真实轮廓 “靠拢”，减少空间错位。

Foveated Instance Segmentation

2025年3月27日在arXiv上发布

理解

中央凹实例分割

核心思想源于人眼视觉机制，通过模仿生物视网膜的 “中央高分辨率、周边低分辨率” 特性来优化实例分割的计算效率与精度

人眼中央凹：人眼视网膜中央的小区域，直径约 1.5mm，集中了大量视锥细胞，负责高分辨率、色彩精细感知；视网膜周边区域视锥细胞稀疏，主要用于低分辨率、运动检测

优势：仅对关键区域（如视线焦点）投入高分辨率处理，周边区域降低分辨率，大幅减少大脑视觉皮层的计算负荷；根据注意力焦点实时调整高分辨率区域，实现 “按需分配”。

中央凹实例分割：将图像划分为 “中央凹区域” 和 “周边区域”

中央凹区域：物体密集或关键区域（如图像中心、物体轮廓附近），使用高分辨率特征进行精细分割；

周边区域：背景或简单区域，使用低分辨率特征快速处理。

目标：用 20% 的计算量实现接近传统方法 90% 的分割精度。

摘要

实例分割对于增强现实和虚拟现实（AR/VR）至关重要，因为它支持精确的物体识别与交互，从而强化虚拟与现实世界元素的融合，带来沉浸式体验。然而，分割任务的高计算开销限制了其在资源受限的 AR/VR 设备上的应用，会导致显著的处理延迟并降低用户体验。与传统场景不同，AR/VR 用户在切换视角前通常只关注视野内的少数区域，这使得分割可集中于注视特定区域。这一洞察催生了对高效分割方法的需求：优先处理感兴趣实例，以降低计算负载并提升实时性能。在本文中，我们提出了中央凹实例分割（FovealSeg）框架，该框架利用实时用户注视数据，仅对感兴趣实例执行实例分割，从而实现显著的计算开销节省。评估结果显示，FSNet 在 ADE20K 数据集上实现了 0.56 的 IoU，在 LVIS 数据集上实现了 0.54 的 IoU，显著优于基线方法。代码可在https://github.com/SAI-Lab-NYU/Foveated-Instance-Segmentation获取。

理解1

实例分割对于增强现实和虚拟现实（AR/VR）至关重要，因为它支持精确的物体识别与交互，从而强化虚拟与现实世界元素的融合，带来沉浸式体验。

AR/VR 的本质需求：构建 “真假难辨” 的交互场景

AR: 增强现实（Augmented Reality）；VR: 虚拟现实（Virtual Reality）

AR/VR 的核心目标是将虚拟物体（如 3D 模型、UI 界面）自然融入真实场景，这要求：精确识别真实物体：知道 “哪里有物体、是什么物体”，才能避免虚拟元素与真实物体重叠或穿模；准确分割物体边界：虚拟元素需贴合真实物体的轮廓（如虚拟帽子戴在真实头部时，需沿头发边缘精准对齐）

理解2

在本文中，我们提出了中央凹实例分割（FovealSeg）框架，该框架利用实时用户注视数据，仅对感兴趣实例执行实例分割，从而实现显著的计算开销节省。

数据流向：注视点追踪→感兴趣区域（ROI）生成→ ROI 内高分辨率分割→周边区域低分辨率过滤

用户注视点是 “对焦点”，FovealSeg 仅对 “对焦点” 附近的物体进行精细分割，背景则 “虚化” 处理

Spatial Frequency Modulation for Semantic Segmentation

2025年7月16日在arXiv上发布

理解

用于语义分割的空间频率调制（SFM）

一种从信号处理视角优化语义分割的创新思路，其核心在于通过操控特征的 “空间频率成分” 解决分割任务中的细节丢失与类别混淆问题

空间频率：在图像信号中，空间频率描述像素值的变化速率

低频成分：像素值缓慢变化的区域，对应物体的整体形状、大尺度结构（如房屋的轮廓）；

高频成分：像素值快速变化的区域，对应物体的边缘、纹理、细节（如树叶的脉络、砖墙的纹理）

低频如同素描的 “轮廓线”，高频如同素描的 “排线细节”，两者共同构成完整的视觉表征。

语义分割中的频率困境：分割道路与草地时，低频特征可区分 “道路” 与 “草地” 的语义类别，但高频特征（如道路的裂缝、草地的草叶边缘）缺失会导致分割边界出现 “锯齿” 或 “毛边”

SFM 的核心技术：频率分解与动态调制

特征的频率域分解：频域分离方法：

傅里叶变换分解：通过 2D 傅里叶变换将特征图分为低频（中心区域）和高频（边缘区域）成分；
卷积滤波分解：使用低通滤波器（如高斯核）提取低频特征，通过原图与低频特征的差值得到高频特征。

动态频率调制机制：自适应权重学习：

通过注意力模块（如 SE 模块、CBAM）学习不同场景下高频与低频特征的融合权重：对小物体（如鸟类）：增加高频权重，保留羽毛细节；对大物体（如建筑）：增加低频权重，强化整体结构表征。

频率对齐优化：跨尺度频率融合：

在特征金字塔各层中，对不同分辨率的特征进行频率域对齐 —— 例如，将底层高频特征与高层低频特征通过频率调制实现语义与细节的统一

摘要

高空间频率信息（包括纹理等精细细节）对语义分割的准确性至关重要。然而，根据奈奎斯特 - 香农采样定理，当高频分量通过步长卷积等下采样层传播时，容易出现混叠或失真。在此，我们提出一种新颖的空间频率调制（SFM）方法，该方法在下采样前将高频特征调制到较低频率，并在上采样期间将其解调回原频率。具体而言，我们通过自适应重采样（ARS）实现调制，并设计了一个轻量级附加模块，该模块可对高频区域进行密集采样以放大信号，从而根据频率缩放特性降低其频率。我们还提出了多尺度自适应上采样（MSAU）来解调调制后的特征，并通过非均匀上采样恢复高频信息。该模块通过显式利用多尺度下密集重采样区域与稀疏重采样区域之间的信息交互，进一步提升了分割效果。这两个模块均可无缝集成到从卷积神经网络到 Transformer 的各种架构中。特征可视化和分析证实，我们的方法有效缓解了混叠问题，同时在解调后成功保留了细节。实验结果表明，该方法显著提升了现有先进分割模型的性能（例如，在 ADE20K 数据集上，Mask2Former-Swin-T 模型的 mIoU 提升 1.5，InternImage-T 模型提升 1.4）。此外，ARS 通过在非均匀采样过程中保持相对位置顺序，还提升了强大的可变形卷积的性能（在 Cityscapes 数据集上 mIoU 提升 0.8）。最后，我们通过将 SFM 扩展到图像分类、对抗鲁棒性、实例分割和全景分割任务，验证了其广泛的适用性和有效性。代码可在https://github.com/Linwei-Chen/SFM获取。