【自监督检测】HASSOD:Hierarchical Adaptive Self-Supervised Object Detection
论文地址
摘要
人类视觉感知系统在无需明确监督的情况下学习以及理解对象的部分到整体的构成方面表现出卓越的能力。受这两种能力的启发,我们提出了层次自适应自监督目标检测(HASSOD),这是一种无需人工监督即可学习检测目标并理解其构成的新方法。HASSOD采用层次自适应聚类策略,基于自监督视觉表示将区域分组成目标掩码,并自适应地确定每张图像中的目标数量。此外,HASSOD通过分析掩码之间的覆盖关系并构建树结构,识别目标在构成方面的层次级别。这一额外的自监督学习任务带来了改进的检测性能和增强的可解释性。最后,我们摒弃了先前方法中使用的低效多轮自训练过程,转而采用半监督学习中的平均教师框架,从而实现了更平稳、更高效的训练过程。通过在流行的图像数据集上进行广泛实验,我们证明了HASSOD优于现有方法,从而推动了自监督目标检测领域的最新发展。值得注意的是,我们在LVIS上将Mask AR从20.2提高到22.5,在SA-1B上从17.0提高到26.0。项目页面:https://HASSOD-NeurIPS23.github.io。
图1:在流行的图像数据集上进行完全自监督的目标检测和实例分割。我们的方法,HASSOD,在发现更全面的目标范围方面,相较于先前的最先进方法CutLER[38],展现出了显著的改进。此外,HASSOD能够像人类一样理解目标的部分到整体的构成,而先前的方法则无法做到这一点。
引言
人类视觉感知的发展因其两项关键能力而引人注目:1)人类仅通过观察就开始学习感知其环境中的物体[25],无需从外部监督中学习这些物体的名称。2)此外,人类感知以一种分层的方式运作,使个体能够识别物体的部分到整体的构成[2, 23]。这些特征能力为物体检测器的学习过程提供了宝贵的见解,而物体检测器仍然严重依赖于细粒度训练数据的可用性和质量。例如,最先进的检测/分割模型,Segment Anything Model(SAM)[18],是在包含1100万张图像和10亿个物体掩码的数据集上开发的。如何有效地从更大规模的数据集(例如LAION-5B [26])中学习检测物体并识别其构成,而不使用这种物体级注释,仍然是一个有待解决的问题。
在先前的自监督目标检测工作中[37, 38],采用了一个两阶段的发现和学习范式:1)获得自监督视觉表示[5, 15],并采用基于显著性的方法提取最突出的一个或几个目标。2)随后,基于这些伪标签训练一个目标检测器,有时涉及多轮自训练以进行细化。然而,尽管有这些尝试以消除对外部监督的需求,但这些方法仍然存在几个弱点:1)目标覆盖范围狭窄。先前方法中对每张图像中仅一个或几个突出目标的关注削弱了它们充分利用包含数十个目标的自然场景图像中的学习信号的能力,例如MS-COCO数据集[20]中的图像。这种狭窄的关注也限制了这些方法在图像内准确检测和分割多个目标的能力。2)缺乏构成。先前的工作常常忽视目标的构成,忽略了识别整体目标、部分目标和子部分目标的层次级别(例如,考虑一张自行车的图像;自行车是一个整体目标,其车轮和车把是部分,辐条和轮胎是子部分)。这种疏忽不仅限制了学习目标检测器的可解释性,还阻碍了模型处理分割任务中固有模糊性的能力。3)效率低下。早期方法依赖于多轮自训练,可能导致效率低下且不平稳的训练过程,这进一步限制了自监督目标检测和理解目标构成的潜力。
受无监督、分层人类视觉感知系统的启发,我们提出了层次自适应自监督目标检测(HASSOD),旨在解决上述限制,并更好地利用自监督目标检测的潜力,如图1所示。首先,与以往方法不同,以往方法将注意力限制在每张图像中的一个或几个突出目标上,HASSOD采用层次自适应聚类策略,基于自监督视觉表示将区域分组成目标掩码。通过调整终止聚类过程的阈值,HASSOD能够有效地确定每张图像中适当的目标数量,从而更好地利用包含多个目标的图像中的学习信号。
HASSOD的第二个关键组成部分是其识别目标在构成方面的层次级别(整体/部分/子部分)的能力。通过分析掩码之间的覆盖关系并构建树结构,我们的方法成功地将目标分类为整体目标、部分目标或子部分目标。这种新颖的自监督学习任务不仅提高了检测性能,还增强了学习目标检测器的可解释性和可控性,这是以往自监督检测器所缺乏的。因此,HASSOD用户可以理解检测到的整体目标是如何由较小的组成部分组装而成的。同时,他们可以控制HASSOD在其首选的层次级别上执行检测,从而更有效地满足他们的需求。
最后,HASSOD摒弃了以往方法中缺乏效率和平稳性的多轮自训练。相反,我们从半监督学习中的平均教师[22, 31]框架中汲取灵感,采用教师模型和学生模型相互学习。这种创新的适应促进了更平稳、更高效的训练过程,从而实现了一种更有效的自监督目标检测方法。
总之,HASSOD的关键贡献包括:一种基于自监督视觉表示将区域分组成目标掩码的层次自适应聚类策略,自适应地确定每张图像中的目标数量,并有效地从自然场景中发现更多目标。通过分析掩码之间的覆盖关系并构建树结构,识别目标在构成方面的层次级别(整体/部分/子部分),从而提高检测性能和增强可解释性。从半监督学习中对平均教师框架的创新性适应,取代了以往方法中的多轮自训练,从而实现更平稳、更高效的训练。在自监督目标检测方面取得了最先进的性能,在LVIS [11] 上将Mask AR从20.2提高到22.5,在SA-1B [18] 上从17.0提高到26.0。值得注意的是,这些结果是通过仅使用以往工作所需图像的1/5和迭代次数的1/12进行训练而实现的。
相关工作
无监督检测
在不使用任何人类标注的情况下识别和定位图像中的目标是一项具有挑战性的任务,因为它需要在没有任何外部监督的情况下从图像数据中学习目标的概念。OSD[33]将此任务表述为图上的优化问题,其中节点是由选择性搜索生成的目标提议,边是基于视觉相似性构建的。rOSD[34]通过基于显著性的区域提议算法和两阶段策略改进了OSD的可扩展性。LOD[35]将无监督目标发现表述为排名优化问题,以提高计算效率。
鉴于DINO[5](一种自监督预训练方法)可以分割每幅图像中最突出的目标,LOST[29]、FOUND[30]和FreeSOLO[37]使用基于显著性的伪标签来训练目标检测器。TokenCut[39]和CutLER[38]也使用自监督表示,但通过扩展归一化切割[28]来生成伪标签。基于显著性的区域提议和归一化切割都专注于每幅图像中最突出的目标,通常每幅图像只提议一个或几个目标。与这些方法不同,HASSOD使用层次自适应聚类策略生成初始伪标签,该策略可以根据图像内容自适应地确定目标的数量。
基于部件的目标检测
通过识别组成部件来检测目标在计算机视觉中已被广泛研究。可变形部件模型(DPM)[9]是一种开创性的方法,它利用基于部件的判别模型进行目标检测,有效地模拟了复杂的目标结构,并优于单一的整体检测器。后续的一种方法[6]不仅检测目标,还同时使用身体部件来表示它们,突出了整体模型和基于部件的表示的重要性。这一观点通过利用整体目标和部件检测来推断人类行为和属性得到了扩展[10],表明了综合方法的优势。在本工作中,我们在自监督学习的背景下重新审视了表示和检测整体目标及其部件这一经典观点。
方法
在本节中,我们介绍我们提出的方法——层次自适应自监督目标检测(HASSOD)中的学习过程。遵循先前在无监督目标检测方面的研究[29, 30, 37–39],HASSOD采用了一个两阶段的发现和学习过程来学习一个自监督目标检测器,如图2所示。在第一阶段,我们使用自监督表示从未标记的图像中发现目标,并生成一组初始伪标签。然后在第二阶段,我们基于这些初始伪标签学习一个目标检测器,并通过自训练平稳地优化模型。第一阶段基于预训练的、固定的视觉特征,而第二阶段则学习一个目标检测器,以改进固定的视觉特征和伪标签。在接下来的小节中,我们将详细描述HASSOD的三个核心组成部分。
图2:HASSOD中的两阶段发现和学习过程。第一阶段使用冻结的自监督DINO[5] ViT主干从未标记的图像中发现初始伪标签。第二阶段学习一个目标检测器,以改进预训练的特征和初始伪标签。
图3:层次自适应聚类和目标的层次级别。在没有任何人类标注的情况下为训练目标检测器创建初始伪标签的过程包括以下步骤:(初始化)通过使用DINO[5]预训练的ViT从给定图像中提取视觉特征,每个8×8的块被初始化为一个独立的区域。(合并)具有最高特征相似度的相邻区域被逐步合并成目标掩码,直到达到预设的阈值θmergei。 (后处理)使用简单的后处理技术选择和优化目标掩码。 (集成)来自多个阈值{θmergei}3i=1的结果被结合起来,以确保更好地覆盖潜在目标。 (分割)通过分析覆盖关系将目标划分为三个层次级别:整体、部分和子部分。右侧的例子说明了目标构成的树结构:整个飞机由上部和下部组成。上部进一步由左翼、右翼和站在其上的人组成。
层次自适应聚类
在第一阶段,HASSOD创建了一组伪标签作为初始的自监督源。我们提出了一种层次自适应聚类策略,仅使用无标签图像和冻结的自监督视觉主干网络来发现目标掩码作为伪标签。图3提供了这一过程的概述。我们的层次自适应聚类算法扩展了凝聚聚类[12],基于自监督视觉表示的相似性,将相邻的图像块聚合成语义连贯的掩码。具体来说,我们使用一个在无标签ImageNet[7]上通过DINO[5](一种自监督表示学习方法)预训练的冻结的ViT-B/8模型[8]来提取视觉特征。对于每张图像,我们取该模型在其最终Transformer层[32]生成的特征图。特征图中的每个空间元素对应于原始图像中的一个8×8的块。
为了启动层次自适应聚类过程,我们将每个块视为一个独立的区域。然后,我们计算相邻区域特征之间的成对余弦相似度,以衡量它们在语义特征空间中的接近程度。通过迭代执行以下步骤,区域逐渐合并成代表目标的掩码:1)识别特征相似度最高的相邻区域对。2)如果相似度小于预设的合并阈值θmerge,则停止合并过程。3)合并这两个区域,并通过平均其中的所有块级特征来计算合并区域的特征。4)更新这个新合并区域与其邻居之间的成对相似度。这一合并过程在图3的第1-3列中进行了可视化。
合并过程完成后,我们执行一系列自动化的后处理步骤来优化和选择掩码,包括条件随机场(CRF)[19]以及过滤掉小于100像素或包含图像两个以上角的掩码。这些步骤基于先前工作[38]中的标准实践,无需人工干预。我们的层次自适应聚类策略能够基于自监督图像将区域分组成目标掩码,这些图像包含具有异质语义特征的多个目标。在包含多个具有异质语义特征的目标的图像中,合并过程会更早停止,从而产生更多对应于不同目标的区域。相反,在高度同质的图像中,更多区域被合并,导致目标掩码数量减少。这种自适应方法使HASSOD能够覆盖更多目标以进行自监督学习,而不是像先前的工作[38, 39]那样受限于每张图像中的一个或几个突出目标。
在实践中,我们并不局限于使用单一固定的阈值θmerge来确定聚类过程的停止标准。相反,我们发现使用多个(例如3个)预设阈值{θmergei}3i=1来集成结果是有益的。当当前最高的特征相似度达到这些阈值之一时,我们记录该步骤中从合并区域得出的目标掩码。使用多个阈值使我们能够捕捉到各种大小和不同构成层次的目标,从而更全面地覆盖场景图像中的目标。后处理和集成在图3的第4-5列中进行了可视化。
层次级别预测
在接下来的第二阶段,HASSOD使用在第一阶段生成的初始伪标签学习一个目标检测和实例分割模型,例如级联掩码R-CNN[4]。通过在这些伪标签上进行训练,模型学会了识别不同训练图像中的常见目标,从而实现了对模型在训练期间未见过的图像的增强泛化能力。
除了标准的目标检测目标外,我们还希望使我们的检测器具备理解目标及其组成部分之间层次结构的能力。在HASSOD中,我们通过利用它们之间的覆盖关系,将层次级别的概念引入目标掩码。正式地说,当满足三个条件(相对于预设的覆盖阈值θcover%)时,我们说掩码A被掩码B覆盖:1)掩码A中的像素有超过θcover%也在掩码B中。2)掩码B中的像素有不到θcover%在掩码A中。3)掩码B是满足前两个条件的所有掩码中最小的一个。直观地说,如果掩码B覆盖掩码A,这表明A是B的一部分,而B比A处于更高的层次。如果我们把A和B看作树节点,A应该是B的孩子。利用所有这样的覆盖关系,我们可以构建一个包含图像中所有掩码的树的森林。最终,这幅图像中所有树的根被认为是“整体”目标,它们的直接子节点是“部分”目标,而所有其余的后代都是“子部分”目标。图3的右侧展示了一个例子。
在识别伪标签中目标掩码的层次级别之后,我们为对象检测器附加了一个新的分类头部,用于级别预测,将每个预测对象分类为整体对象、部分对象或子部分对象。这个新组件使HASSOD能够有效地建模对象组合,与以前的自监督对象检测方法相比,提高了对象检测性能并增强了可解释性。层次级别预测头部与现有的前景/背景分类头部、框回归头部和掩码预测头部一起添加。随后,我们使用从层次自适应聚类过程中获得的初始目标掩码伪标签集合以及额外的级别预测任务来训练对象检测器。
带有自适应目标的平均教师训练
图4:HASSOD中的平均教师自训练与自适应目标。两个具有相同架构的检测器,教师和学生,相互学习以改进初始伪标签。教师作为学生的指数移动平均(EMA)进行更新。学生从两个分支获得监督:教师到学生的分支(顶部)鼓励学生模仿教师的预测;标签到学生的分支(底部)最小化学生预测与初始伪标签之间的差异。在训练过程中,我们提出的自适应目标策略增加了教师到学生分支的权重αteacher,并减少了标签到学生分支的权重αlabel,因为与初始伪标签相比,教师成为一个越来越可靠的自监督源。
值得注意的是,第一阶段生成的初始伪标签存在噪声,并不能完美地与真实目标对齐。为了改进这种带有噪声的伪标签,先前的研究[37, 38]通常采用多轮自训练来优化模型,即使用经过良好训练的检测器重新生成伪标签并重新训练一个新的检测器。HASSOD首次将半监督学习中的平均教师学习范式[22, 31]引入到完全自监督的环境中,从而高效且平稳地优化目标检测器。
在介绍我们在自监督环境中对平均教师的创新性应用之前,我们首先简要总结平均教师中的相互学习过程(见图4)。平均教师使用两个模型:教师和学生,它们相互学习。教师以弱增强的无标签图像作为输入,并提供检测输出作为学生的学习目标。学生的权重会更新,以最小化其预测结果与教师在相同无标签图像上但经过强增强后给出的目标之间的差异。在半监督环境中,学生同时从两个来源获得监督。一个来源是上述的“教师到学生”分支,另一个是“标签到学生”分支的检测损失(例如,边界框分类和回归),学生被优化以最小化总损失。教师的权重是学生权重的指数移动平均值,确保训练目标平稳且稳定。
在HASSOD中,我们没有任何来自人工监督的标记图像,而是利用两种自监督来源。一个来源是我们通过层次自适应聚类获得的初始伪标签,这在半监督环境中类似于“标签到学生”分支。另一个来源是教师模型做出的检测预测,这对应于平均教师中的“教师到学生”分支。与标准的平均教师方法不同,我们的方法采用自适应训练目标,因为我们逐渐调整两个分支的损失权重。这是因为初始伪标签可能无法有效地覆盖所有可能的目标,而教师模型将逐渐改进,成为一个更好的监督来源。因此,在平均教师自训练过程中,我们持续降低使用初始伪标签的分支的损失权重αlabel,并根据教师的预测增加基于教师的分支的损失权重αteacher,遵循余弦时间表。