DECOUPLING REPRESENTATION AND CLASSIFIER FOR LONG-TAILED RECOGNITION
摘要
在本文中,我们将学习过程解耦为表征学习和分类,系统地探究不同的平衡策略如何对长尾识别产生影响。研究结果令人惊讶:(1)数据不平衡在学习高质量表征时可能并非问题;(2)通过最简单的实例平衡(自然)采样学习得到的表征,仅通过调整分类器也有可能实现强大的长尾识别能力。我们进行了大量实验,并在常见的长尾基准测试(如ImageNet-LT、Places-LT和iNaturalist)上创造了新的最先进性能,表明通过使用一种将表示与分类解耦的简单方法,有可能超越精心设计的损失函数、采样策略,甚至是带有记忆的复杂模块。
引言
大多数方法都是将用于识别的分类器与数据表示联合学习。然而,这种联合学习方案使得长尾识别能力是如何实现的变得不明确——它是来自于学习更好的表示,还是通过移动分类器决策边界更好地处理数据不平衡问题呢?为了回答这个问题,我们退一步,将长尾识别解耦为表征学习和分类。
具体来说,我们首先训练模型,使用不同的采样策略来学习表征,包括标准的基于实例的采样、类别平衡采样以及两者的混合。接下来,我们研究三种不同的基本方法,以便在所学表征的基础上,获得具有平衡决策边界的分类器。
1、以类别平衡的方式对参数化线性分类器进行重新训练
2、非参数最近类均值分类器,它根据数据与训练集中特定类别的最近均值表示来对数据进行分类。
3、对分类器权重进行归一化,这直接调整权重大小以使其更加平衡,并引入一个温度参数来调节归一化过程。
我们进行了大量实验,将上述解耦学习方案的实例与同时训练分类器和表征的传统方案进行比较。
贡献
1、我们发现,将表征学习与分类解耦会产生惊人的结果,这对长尾识别的常见观点提出了挑战:实例均衡采样能够学习到最佳且最具泛化性的表征。
Instance-balanced sampling 是指在训练过程中 每一个样本(instance)被采样的概率是均等的,而不管其所属类别的频率如何。
2、 在长尾识别中,在表征学习过程中重新调整联合学习的分类器所指定的决策边界是有利的:我们的实验表明,这可以通过使用类别平衡采样重新训练分类器来实现,或者通过一种简单但有效的分类器权重归一化方法来实现,该方法只有一个控制“温度”的超参数,并且不需要额外的训练。
3、通过将解耦学习方案应用于标准网络(如ResNeXt),我们在多个长尾识别基准数据集(包括ImageNet-LT、Places-LT和iNaturalist)上,取得了比成熟的最先进方法(不同的采样策略、新的损失设计和其他复杂模块)显著更高的准确率。
Learning representations for long-tailed recognition
对于长尾识别问题,训练集在类别上遵循长尾分布。由于在训练过程中,我们对于出现频率较低的类别数据较少,因此使用不平衡数据集训练的模型往往在少样本类别上表现出欠拟合的情况。 但在实际应用中,我们感兴趣的是获得能够很好地识别所有类别的模型。
在本节中,我们考虑在长尾识别中将表征与分类解耦。我们提出了一些学习分类器的方法,旨在通过采用不同的采样策略进行微调,或通过诸如最近类均值分类器等其他非参数方法,来修正头部类别和尾部类别的决策边界。
Classifier Re-training
一种直接的方法是使用类别平衡采样重新训练分类器。也就是说,在保持特征表示不变的情况下,我们随机重新初始化并使用类别平衡采样在少量轮次内优化分类器权重W和b。
最近,类似的方法也在(Zhang等人,2019年)中用于长尾视频数据集上的动作识别。
Nearest Class Mean classifier
另一种常用的方法是,首先在训练集上计算每个类别的平均特征表示,然后使用余弦相似度或在L2归一化平均特征上计算的欧几里得距离来执行最近邻搜索。尽管它很简单,但这是一个强大的基线(参见第5节中的实验评估);余弦相似度通过其固有的归一化缓解了权重不平衡问题。
τ -normalized classifier (τ -normalized).
我们研究了一种高效地重新平衡分类器决策边界的方法。每个分类器权重wj的范数和该类别的样本数量nj呈明显关系:
1、哪个类的样本多,它的分类器权重就大,这就会导致softmax层中该类拥有更强的竞争力,容易被模型预测为这个类。
然而,如果我们在特征提取部分固定之后,对分类器进行微调,且微调过程中使用class-balanced sampling,即每类样本等量训练,那么各类别的分类器权重范数就会趋于一致。
再训练一遍分类头部,样本均衡采样,每类“发言权”相同,
➤ 所以每类分类器权重就不会因为样本多寡而出现偏差;
➤ 从而修正原本偏向头部类的决策边界。
受上述观察结果的启发,我们考虑通过以下τ归一化过程直接调整分类器权重范数,来纠正决策边界的不平衡问题。
实验
无论是整体性能,还是中样本和少样本类别,趋势都是一致的,渐进平衡采样的效果最佳。正如预期,实例平衡采样在多样本类别上表现最佳。这是可以预料到的,因为最终得到的模型严重偏向于多样本类别。我们在联合训练中对不同采样策略的研究结果,验证了相关工作中尝试设计更好的数据采样方法的有效性。
联合学习还是解耦学习?对于图1中展示的大多数情况,就整体性能以及除多示例情况外的所有类别划分而言,使用解耦方法的性能明显更好。即使是非参数的最近类均值(NCM)方法在大多数情况下也极具竞争力,而对比关系变换(cRT)和τ归一化方法在很大程度上优于联合训练的基线(即比联合学习的分类器高出5%),甚至在整体准确率上比采用渐进平衡采样的最佳联合训练设置还要高出2%。对于中示例和少示例类别,提升幅度甚至更高,分别达到5%和11%。
为了进一步证明我们关于解耦特征表示与分类器是有益的这一观点,我们进行了将主干网络(ResNeXt - 50)与线性分类器联合微调的实验。在表1中,我们展示了使用标准学习率或较小(0.1倍)学习率对整个网络进行微调、仅微调主干网络的最后一个模块,或者仅重新训练线性分类器并固定特征表示时的结果。对整个网络进行微调会产生最差的性能(46.3%和48.8%),而保持特征表示固定的性能最佳(49.5%)。对于中/少样本类别,这种趋势更加明显。该结果表明,对于长尾识别而言,解耦特征表示与分类器是可取的。
实例平衡采样能给出最具泛化性的表征。在所有解耦方法中,就整体性能以及除了多示例类之外的所有划分而言,我们发现实例平衡采样能给出最佳结果。这一点尤为有趣,因为这意味着在学习高质量表征时,数据不平衡可能并非问题。