当前位置：首页 > news >正文

【文献阅读】Deep Clustering with Self-supervision usingPairwise Data Similarities

news 2025/10/14 14:02:33

基于成对数据相似性的自监督深度聚类

摘要——深度聚类通过将嵌入技术融入聚类过程，旨在找到适合聚类的低维空间。现有的大多数方法通常采用自编码器（AE），通过同时最小化聚类损失和重建损失来实现相似数据点的分组。然而，这些方法均忽略了成对数据关系中蕴含的有用信息。为此，本文提出了一种基于自监督学习、利用成对数据相似性的新型深度聚类框架——DCSS。该方法分为两个连续阶段：首先，我们提出了一种新颖的基于AE的方案，旨在将相似数据点在AE的潜在空间中聚集到共同的簇中心附近；具体而言，通过最小化数据点的加权重建损失与簇中心损失来获得AE的潜在空间，其中权重依据数据点与簇中心的相似性动态定义。在第二阶段，我们利用一个全连接网络MNet，将AE的潜在空间映射到一个K维空间，最终用于确定数据的聚类分配，其中K为聚类的数量。MNet经过训练，能够强化（弱化）相似样本（不相似样本）之间的相似性。在多个基准数据集上的实验结果表明，DCSS在数据聚类任务中表现出色，并可作为通用框架，有效提升当前最先进的聚类方法的性能。

1 INTRODUCTION

在许多科学和实际应用中，数据样本的类别（即标签）信息往往无法获取，或者收集这些信息的成本非常高昂。作为模式识别与机器学习领域中一种重要的数据分析工具，聚类方法致力于从无标签的数据样本中提取关键信息。聚类技术能够有效解决现实世界中诸多领域的难题，例如天体数据分析[1]、医学分析[2]、肿瘤基因分析[3]，以及数据检索[4, 5, 6, 7]。聚类方法的主要目标是根据某种相似性度量，将数据点划分为不同的簇。尽管近年来已涌现出多种多样的聚类算法，但传统的k-means算法[8]和模糊c均值算法[9]因其简单易用，依然备受青睐。然而，当面对样本分布不均的情况时，这些传统算法往往难以达到理想的聚类效果；此外，由于“维度灾难”问题，它们通常无法有效处理高维数据点，这使得这些算法在许多现代应用中显得力不从心——尤其是在数据点拥有大量特征的场景下[10]。如今，基于深度学习的新型聚类方法已在多个领域得到广泛应用，如图像分割[11]、社交网络分析[12]、人脸识别[13]以及机器视觉[14]。这些方法的最终目标是将原始数据样本嵌入到一个低维空间（即潜在空间）中，从而实现对数据的高效分组。通过应用k-means和模糊c-means等常见算法，可以区分出大量数据点。在相关文献中，许多研究致力于利用不同结构的自编码器（AE），以无监督方式寻找最优的低维空间[15, 16, 17]。这种方法能够实现对数据点的高度非线性转换。一个自编码器由两个网络组成：1）编码器网络，负责将原始输入空间映射到低维空间；2）解码器网络，尝试利用编码器网络的输出重建原始空间。因此，编码器和解码器网络会经过训练，以最小化重建误差。如第2节所述，几乎所有基于深度学习的传统算法都旨在借助自编码器，将数据点聚类到各自对应的簇中心附近。这些算法还尝试在自编码器的重建损失基础上，加入聚类损失，从而使潜在表示更适合于数据聚类[18, 19, 20]。然而，这些算法普遍存在的主要缺点是：(1)在每个训练时期，首先执行CRISH聚类分配，即将每个数据点只分配给一个聚类，然后在假设它们是正确的分配的情况下，使用所获得的CRISP分配来计算数据聚类损失。这不是正确的假设，因为在训练阶段中，真实的簇标签是未知的，这是因为聚类任务的无监督性质。当在捕捉到一热向量之前获得的非CRISP(也称为软)K维聚类分配向量远离CRISP分配施加的一热向量时，该问题将更加严重，因为这会导致训练过程的误导。K是簇数。(2)在以往的所有方法中，所有的数据聚类都使用一个共同的损失函数，而没有考虑不同聚类特征之间可能存在的差异。(3)所有传统的基于深度学习的聚类算法都在寻找一个适合于数据聚类的最优潜在空间。为此，他们试图将数据点定位在靠近其相应集群中心的位置，而不考虑数据点之间的关系，这种关系例如成对数据相似性。

本文提出了一种基于配对数据相似度的自监督深度聚类方法。DCSS使用相似和不相似的成对样本来监督训练过程，其中相似性是在可靠的子空间中衡量的。DCSS分两个阶段执行集群。首先，将原始数据点映射到可靠的潜在空间u，即声发射的潜在空间，在该空间中，同一聚类的样本通过坐在对应的群中心附近而被鼓励形成一组。第二阶段是创建一个改进的子空间Q，它是在相似和不相似的成对样本的监督下训练的。由于在原始输入特征空间中不能识别相似和不相似的样本，由于维度灾难[21]，我们提出使用(部分)训练子空间u和q来进行相似性度量。更具体地说，在Q训练开始时，在先前在第一阶段中训练的u子空间内确定相似和不相似的成对样本。经过几个训练周期后，当子空间Q成为可靠空间时，在Q子空间本身中测量相似性。对子空间Q进行训练，使得相似的成对样本在Q空间中紧密地堆积在一起，而不同的成对样本尽可能远离地位于Q中。既不相似也不不相似的两两样本，即那些位于歧义区的样本，在DCSS的第二阶段不起作用。我们的实验结果证实，随着第二阶段训练的进行，通过执行越来越多的训练周期，越来越多的成对样本对训练做出贡献，即在训练阶段结束时，极少数对留在模糊区域。我们的实验表明，这种训练过程在Q空间中产生的样本表示非常接近于一个热点向量，其中向量的活动元素表示真实的簇分配，假设Q子空间的维度等于数据簇K的真实数量K。图1说明了所提出方法的直观动机。附录A提供了对所提出的DCSS方法的理论支持。在DCSS的两个阶段的训练都是以端到端的方式执行的，采用梯度下降和反向传播的方式。在以Q训练为主的第二阶段，u空间也会收到小的更新进行细化，更有利于Q空间的训练。

图1。所提出的DCSS方法的动机。箭头表示使用声发射从原始输入空间到声发射的潜在空间(即u空间)的非线性映射。在DCSS的第一阶段，我们的目标是在u空间中收集其对应的群中心附近的数据点。在第二阶段，DCSS利用成对样本的相似性和差异性来创建一个新的空间Q，在这个空间中，相似的成对样本紧密地堆积在一起，而不相似的成对样本尽可能地远离。相似的样品用实线连接，虚线表示不同的样品/簇。

在DCSS的第一阶段，为了得到子空间u，我们提出了通过同时最小化两个损失：样本重建损失和中心损失来训练自动编码器，这两个损失以加权的方式线性组合，形成最终的损失函数。然后，将训练后的声发射的潜在空间作为DCSS的u子空间。最小化重建损失有助于保持数据点[20]的局部结构，并限制通过中心损失对声发射潜在空间的过多操纵。由于在u空间测量的成对相似性用于监督q空间的训练，因此u空间中的数据分布应该接近q空间中的期望数据分布，即在q中具有密集的纯相似数据组。这一目标是通过将数据中心损失纳入第一阶段的损失函数来实现的。子空间u在K个连续运行中被训练，其中在每个运行中，对应于特定数据组的特定损失函数被最小化。更具体地说，在第k次运行时，k∈1，...，K，AE网络集中于更可能属于第k次数据组的那些样本的中心和重建。这隐含地意味着，在第k次运行时，那些AE参数被优化，这些参数对第k个数据组在u空间中围绕其相应中心的居中有更大的影响。尽管以前的深度聚类方法使用其估计的清晰分配来训练潜在空间，但我们建议使用原始的软组分配来训练u子空间(不捕捉到0和1)。在计算重构和对中损失时，软分配被用作样本权重。图2(A)示出了用于训练u空间的阶段1的框图。在本文中，我们将所提出的求u的方法称为深度连续学习(DSL)。第3.1节介绍了DSL公式的详细信息。

在DCSS方法的第二阶段，尽管传统的基于AE的聚类方法是基于AE的潜在空间[18，19，20，22]中的数据表示来定义最终的聚类分配，但我们提出利用数据点之间的成对关系作为监督者，将u空间表示映射到改进的空间Q。这种映射是通过称为相互网络(MNet)的全连通网络来实现的，其目的是加强成对的相似性和差异性，其中内积用于相似性度量。DCSS方法第二阶段的概述如图2(B)所示。然后在区分空间Q中执行最终的簇分配(参见图2(C))。

综上所述，本工作的主要贡献是：

·我们发现了一种新的框架，该框架利用成对样本的相似性作为数据聚类的自我监督手段。

·为了实现这一点，由于原始数据空间受到维度灾难的影响，我们提出了在连续训练的两个可靠的子空间u和q中衡量相似度。

·为了创造可靠的空间u，我们提出了一种新的AE基于子空间学习方法DSL，通过最小化加权重构和数据点的中心损失来训练AE，其中软组分配作为样本权重。参见图2(A)。AE的潜在空间被用作DCSS中所需的u空间。

·我们建议通过在DSL训练的AE的编码部分附加一个完全连通的网络MNet来创建更可靠的子空间Q，其中训练Q(和精化u)的过程通过成对样本的相似性来监督。参见图2(B)。

·通过将给定数据点映射到Q空间来实现给定数据点的最终精确聚类分配。通过将数据馈送到训练的编码器，然后是训练的MNet，来执行映射。我们的实验表明，样本在Q空间中的表示非常接近于一热向量。假设Q空间的维度被设置为真实的簇数K，则Q向量的最大元素的索引指示输入数据簇标签。参见图2(C)。

·提出的方法可以作为一个通用的框架，用于改进现有的基于子空间的聚类方法的性能，如[22，20，19，18]。更具体地说，可靠的子空间u可以用所提出的MNet之后的其他最先进的方法(而不是DSL)来获得。

·我们在七个基准数据集上进行了一系列广泛的实验，以证明所提出的DCSS(和DSL)的有效性。我们的结果优于传统的和最先进的基于深度网络的聚类方法。

附录A给出的数学证明表明，在一定的假设条件下，DCSS可以有效地捕捉成对的相似和不同之处，从而执行最终合理的簇分配。我们证明了样本的Q向量非常接近于一个热向量(推论1.2)，相似的样本被分配到同一簇(定理2)，不相似的样本被分配到不同的簇(推论1.3)，并且如果两个样本与另一个样本相似，则两个样本没有不同(定理3)。

本文的其余部分组织如下。在第二节中，我们简要回顾了传统的和基于深度学习的聚类方法。第3节介绍了我们建议的DCSS框架的详细信息。第四节给出了大量的实验结果，证明了DCSS的有效性。第五节传达了本文的主旨。

2 RELATED WORK

聚类在机器学习中得到了广泛的研究，如特征选择[23，24，25]、距离度量[26，27]和分类方法[28，29，30]。K-均值[8]和模糊c-均值[9]是两种流行的传统方法，适用于广泛的任务[31，32，33]。然而，由于它们的距离度量，它们只能提取处理高维特征空间的数据的局部信息。一些传统的算法，如[34]，旨在通过以迭代的方式联合执行子空间选择和聚类算法来解决这一困难。在每一次迭代中，他们使用k-均值对数据点进行分组，并使用在低维空间中投影的数据来努力最大化簇间方差。他们重复这一过程，直到收敛。另一组称为谱聚类的传统方法，例如[35，36]，通过将高维数据嵌入较低维空间来解决高维输入问题。然后，他们在新的空间中应用集群算法。对于它们的嵌入阶段，首先构造一个加权图，其中的节点是数据样本，权重是根据它们在原始空间中的成对关系来定义的。然后，他们利用加权图的拉普拉斯矩阵定义了一个最小化问题。虽然它们可以在不同的应用中超越k-均值算法的聚类性能，但求解优化问题的复杂性限制了这些算法仅适用于小数据集。为了使谱聚类更适用于大数据集，[37，38]提出了随机优化方法，试图对原始优化问题进行估计。然而，这些传统的方法只考虑线性嵌入，这在处理复杂数据集时并不成功。为了考虑数据点的非线性嵌入，深度聚类在过去的几年中得到了广泛的研究。它们利用深度自动编码器将原始数据点嵌入较低维度的空间。在一些算法中，学习数据点的较低表示与聚类任务是分开的。例如，深度嵌入网络(DEN)[39]通过强制组稀疏性和局部保持约束来使用AE来寻找数据点的低维表示。然后，他们通过将k-均值算法应用于所获得的低维空间来获得簇分配。作为另一个例子，[40]利用深度自动编码器来寻找图的低维表示；然后利用k-均值算法来定义簇。为了进一步提高聚类性能，最近的算法将数据点同时嵌入到较低维的特征空间中，并执行聚类算法，使用新的特征空间将数据点分配到不同的簇。例如，深度嵌入聚类(DEC)[22]使用[41，42]逐层初始化堆叠自动编码器的参数。在移除解码器部分之后，它通过最小化由软分配和估计目标分布组成的Kullback-Leibler(KL)发散损失来更新AE的编码器部分。软作业使用遵循[43]的学生t分布来衡量数据点和聚类中心之间的相似程度。在无监督学习问题中，由于数据点的真实聚类分配(又称目标分布)是未知的，它们执行一种形式的自我训练[44]以使用软聚类分配来估计目标分布。已经有一些研究，例如[19，18，20]，提出利用声发射的译码部分来结合重建损失和聚类损失来保持原始数据点的局部结构。例如，改进的深度嵌入聚类(IDEC)[20]改进了聚类DEC的性能，除了考虑DEC的KL发散损失外，还考虑了AE的重建损失，以保持原始数据点之间的局部相关性和结构。深度卷积嵌入分簇(DCEC)[45]通过将IDEC的全连接结构改变为深度卷积自动编码器来提高IDEC的性能。此外，DCEC提出了一种端到端的预训练方案，通过最小化重建损失来代替DEC和IDEC中提出的堆叠自动编码器的预训练。其他一些工作不是使用软聚类分配进行自我训练，而是通过提出一种独立的发现目标分布的方法来提高DEC的聚类性能。例如，改进的带模糊监督的深度嵌入聚类(IDECF)[46]旨在通过训练专门为此目的而设计和训练的深度模糊c-均值网络来估计目标分布。深度聚类网络(DCN)[19]方法联合学习低维特征表示并进行聚类，旨在通过k-均值算法找到数据点可分离的新的数据点表示。为此，DCN通过最小化重构损失和k-Means算法的目标函数的组合来更新自动编码器的参数，这是为了找到一个k-Means友好空间。DCN分别更新声发射参数和簇中心。后者是基于解决离散优化问题。然而，在深度k-均值(DKM)[18]中，它与DCN具有相同的目标函数，同时最小化AE的参数，通过使用随机梯度下降(SGD)最小化连续优化问题来更新权值和聚类中心。最近的一些工作，如深度谱聚类(DCSS)[47]，提出了一个联合学习框架，使用双自动编码器来创建可区分的嵌入空间。他们为他们的自动编码器设计了一个通用的编码器部分和两个译码部分。第一个解码器试图重建原始输入，而第二个编码器努力去噪编码器的潜在空间。它们在更新网络参数的同时考虑重建、互信息和频谱聚类损失。他们利用相互信息来利用投入中更具区别性的信息。在此基础上，采用深谱聚类方法提取潜在空间中数据点之间的相互关系。对比学习方法，如[48，49]，由于其良好的性能，近年来引起了研究者的广泛关注。他们首先通过在数据点上应用数据增强来构建负和正对。然后，他们将它们映射到特征空间中，并努力最大化正(负)对之间的相似性(最小化差异)。例如，对比聚类(CC)[48]分别在特征空间的行和列上定义实例级和簇级损失，以便在最小化相异的同时最大化相似性。

3 PROPOSED METHOD

考虑K-聚类问题，其目的是将给定数据集X={x1，x2，...xN}划分成K个不相交的簇，其中xi表示第i个数据样本，N是数据点的数目，K是预定义的用户可设置的参数。DCSS采用了一个自动编码器（AE），由编码器和解码器网络组成，分别用f（·）和g（·）表示。X的潜在表示记为U = {u1，u2，...，uN }，其中ui = f（xi；θe）∈Rd，d表示潜在空间的维度，θe表示编码器网络的参数。自编码器（AE）的重构输出表示为xˆi=g（u_i；θd），其中θd代表解码器参数。在u空间中，第k个数据组的中心点用µ(k)表示。如前文所述，在DCSS的第二阶段，为了探究数据点间的相互关系，我们提出采用全连接网络MNet。该网络以每个数据点的潜在表示ui作为输入，并将其映射为K维向量qi，其中第k个元素表示xi属于第k个数据簇的概率。本文中，MNet对第i个数据点的输出表示为qi=M（u_i；θM），其中M（.）和θM分别表示MNet及其对应参数。

3.1 The first phase of DCSS (DSL)

为了获得一个可靠的低维空间u，使得样本相似与不相似的检测成为可能，我们提出采用一种新型有效的损失函数来训练自动编码器（AE），该损失函数由加权重构损失和中心化损失组成。实际上，自动编码器的潜在空间正是DCSS的u空间。在每个训练数据批次中，我们建议对自动编码器进行K次连续迭代训练。在第k次迭代时，自动编码器会专注于重建和集中那些更可能属于该第k个数据组的数据点。需要说明的是，数据聚类属于无监督任务，因此在问题初始阶段，数据点的所属群组或聚类归属是未知的。因此，在第k次DSL运行时，我们使用ui与µ(k)之间的欧氏距离（该距离在前一次训练迭代中获得），即||ui−µ(k)||²，作为衡量xi在u空间中第k个数据组成员度的指标。组成员身份在第（k+1）次运行中用作样本权重。更具体地说，样本越接近组中心µ(k)，该样本在第k次运行中最小化损失函数的贡献就越高。

本文提出的DSL方法公式如方程组(1)所示。（1a）展示了第k次运行时DSL的损失函数，即L（u_k），其中样本重构损失和中心化损失的加权求和分别用L（r_k）和L（c_k）表示。

在每个T1训练迭代中，我们更新群组中心至u空间中加权样本的平均值，如(3)所示；即更接近µ(k)的样本对更新贡献更大。

DSL框架的框图如图2(a)所示，DSL的初步版本在[50]中给出。

图2。(a)DCSS第一阶段的训练方案，称为深度连续学习（DSL）。(b)DCSS第二阶段的训练流程。初始阶段（当迭代次数iter2≤T2时），MNet基于u空间定义的成对相似度进行训练——即通过pi与pj的点积来确定两个数据点xi和xj之间的相似度。在MNet训练的后期阶段，当迭代次数超过T2时，成对相似度测量将在q空间本身进行，即通过qi与qj的乘积来计算。(c)使用DCSS算法对最终聚类结果的可视化展示。完成(a)和(b)所示的训练阶段后，我们通过定位qi中的最大值来对数据点xi进行聚类。

3.2 The second phase of DCSS

完成DCSS方法的第一阶段后，我们移除了DSL自编码器的解码器模块，并在已训练的编码器基础上添加了一个全连接网络MNet。具体来说，MNet的输入是DSL编码器的潜在空间（即u空间）。我们采用成对样本相似度作为监督指标来指导MNet的训练过程。MNet的输出空间q用于数据聚类，因此其训练目标是增强样本间的相似性和差异性特征。MNet的输出层（即q空间）由K个神经元构成，每个神经元对应一个数据簇。我们通过在输出层使用softmax函数来获取簇分配的概率值。具体来说，对于输入样本xi，其在第j个神经元的输出值qij，即表示该样本属于第j个簇的概率。

在问题初始阶段，MNet参数θM被初始化为随机值。因此，在q训练过程的前几个epoch中，当q尚未形成可靠空间时，我们通过公式(2)所示的群组分配内积来测量u空间中的成对相似度。具体而言，已知pi=[pi₁，..，piₖ]T表示第i个数据点xi在u空间中不同数据组的分配向量，那么pi与pj的内积就反映了数据点xi和xj之间的成对相似度。在MNet训练的前T2个训练周期中，提出的损失函数如(4)所示，其中ζ和γ是两个用户可设置的超参数，✶{。}是指示函数。

根据(4)可以推断，在MNet训练阶段，只有相似和不相似的样本才有贡献——即，如果一对样本的相似度大于ζ或小于γ，则这对样本会对训练有贡献。相似度值在ζ到γ之间的样本对，即处于模糊区域的样本对，则不会对当前训练轮次产生贡献。因此，最小化LM会增强（减弱）相似（不相似）样本之间的相似性。需要注意的是，在训练MNet参数的同时，编码器参数θe也会通过反向传播以端到端的方式进行更新。u空间中的群组中心，即µ(k)，在每个训练周期完成后也会使用公式(3)进行更新。

在通过最小化LM损失函数完成T2轮次的MNet（及编码器优化）参数训练后，当q空间成为可靠的成对相似度测量基准时，我们采用公式(5)定义的L 0M损失函数来完成MNet的后续训练。与公式(4)类似，若某对的对应相似度值不在模糊区域，则该对会被纳入L 0M的贡献范围。如第4节所示，随着MNet训练的推进，参与训练的配对数量会持续增加。同样地，在最小化L 0M的过程中，u空间会通过反向传播过程获得微小更新。

正如附录A所证明的，超参数ζ和γ的一个合适选择是2/3<ζ和γ < ζ2。在我们的实验中，ζ和γ分别设置为0.8和0.2。

图2(b)展示了DCSS系统第二阶段的整体训练流程。此外，附录A提供了若干数学证明，表明在特定假设条件下，查询样本的最终q向量会非常接近独热编码向量——其中向量最大元素的索引值即代表所属的聚类标签。该结果还揭示了一个有趣现象：相似（差异）的样本往往会被归入相同（不同）的数据聚类中。

3.3 Final cluster assignments

为确定数据点xi的最终聚类归属，我们通过训练好的编码器和MNet网络，在K维q空间中计算数据表示qi。系统会将xi分配到概率最高的聚类类别，即对应最高qi值的索引。该聚类分配过程如图2(c)所示。

DCSS算法的伪代码如算法1所示。

4 EXPERIMENTS

本节通过一系列严谨的实验，在七个基准数据集上验证了我们提出的DCSS框架的有效性。DCSS在这些基准数据集上的聚类性能表现与十种传统的和最先进的基于深度学习的聚类方法进行了比较。

4.1 Datasets

我们在七个常用数据集上验证了所提方法的有效性。考虑到聚类任务的无监督特性，我们根据实际情况将训练集与测试集合并使用。这种数据集合并的做法在聚类研究领域已是常规操作[22,18,20,19,47]。具体数据集包括：

(1) MNIST数据集[51]包含6万张训练集和1万张测试集的灰度手写图像，图像尺寸均为28×28像素，共包含10个类别。

(2) Fashion MNIST [52]与MNIST在图像尺寸和样本数量上保持一致，但数据集内容从手写图像转变为各类时尚商品，这使得其数据聚类任务比MNIST更具挑战性，同样包含10个类别。

(3) 2MNIST是通过合并两个MNIST数据集构建的高难度数据集，最终包含来自MNIST和Fashion MNIST的14万张灰度图像，共计20个类别。

(4)美国邮政服务（USPS）数据集[53]包含9,298张16×16像素的手写图像，涵盖10个数据类别。

(5) CIFAR-10数据集[54]由10种不同物品的60,000张RGB图像组成，每张图像尺寸为32×32像素。

(6) STL-10数据集[55]是一个10类图像识别数据集，包含13,000张96×96像素的RGB图像。

(7) CIFAR-100数据集[54]与CIFAR-10类似，但其基于图像相似性划分了20个超级类别，而非原有的10个类别。

4.2 Evaluation Metrics

我们采用两个标准指标评估聚类性能，包括聚类准确率（ACC）[57]和归一化互信息（NMI）[58]。ACC用于寻找真实标签与预测标签之间的最佳映射关系，而NMI则通过标准化方式衡量同一数据点不同标签间的相似度。ACC和NMI的具体计算公式如下：

其中，li和ci分别表示数据点xi的真实标签与预测标签。map（·）表示预测标签与真实标签之间的最佳映射关系。I（l；c）表示所有数据点真实标签l={l₁，l₂，...，lₙ}与预测聚类分配c={c₁，c₂，...，cₙ}之间的互信息。H（·）表示熵函数。ACC和NMI的取值范围在[0,1]区间内，数值越高表明聚类效果越理想。

4.3 Networks Architecture

本文提出的DCSS方法包含一个自动编码器和一个全连接MNet网络。本节将详细阐述这两个网络的结构设计。在训练DCSS框架时，我们会根据数据集的特性（如RGB或灰度图像），采用两种不同类型的自动编码器进行适配。

针对灰度数据集，我们提出采用非对称自动编码器架构。参照文献[56]的方法，我们在编码器结构中引入了图3(c)所示的瓶颈层。图3(a)和(b)分别展示了该非对称自动编码器的编码器与解码器结构。这种非对称设计能有效提升潜在空间的判别能力。各数据集对应的自动编码器超参数设置详见第4.4节。

图3.所提非对称自动编码器的结构。在编码器部分，为了获得数据点的信息性低维表示，我们提出使用瓶颈层。根据文献[56]，我们在5×5和3×3卷积层之后使用了瓶颈层。超参数的具体数值详见第4.4节。

针对RGB数据集，我们首先采用在ImageNet [59]上预训练的ResNet-152 [56]提取抽象特征。随后将这些特征输入对称全连接自编码器进行处理。受文献[22]启发，我们将RGB数据集的自编码器架构设置为2048-500-500-2000-d，并在所有层中均使用ReLU激活函数。

MNet是一个全连接网络，以自动编码器（AE）的d维潜在空间（u空间）作为输入，生成K维输出q。除CIFAR-100数据集外，MNet的架构均为d-128-128-128-K。由于CIFAR-100数据集更为复杂，需要更复杂的MNet架构，因此我们为CIFAR-100数据集设置了d-1000-1000-1000-K的MNet架构。除最后一层使用softmax函数外，MNet所有数据集的所有层均采用批量归一化和ReLU激活函数。

4.4 Implementation Details

在本节中，我们讨论DCSS的超参数值和实现细节。

网络的超参数n、p1、s1、p2、s2、p3、s3、f1和f2（如图3所示）分别设置为28、2、2、1、MNIST、Fashion MNIST和2MNIST的数据集参数设置为2、2、2、5和4；USPS数据集的参数设置为16、1、1、2、2、0、1、4和5。灰度图像的潜在空间维度d设为10，RGB图像则设为20。

根据文献[18,19,20,22]的研究方法，为初始化DSL模型的参数（即θe、θd和µ(k)，其中k=1，...，K），我们采用端到端训练方式，仅通过最小化样本重构损失来完成参数优化。训练过程中采用Adam优化算法[60]，其参数设置与原论文所述一致。随后将训练完成的自动编码器参数用于初始化θe和θd，再将µ(k)（k=1，...，K）的初始值设为k-means算法[8]在训练后自动编码器潜在空间中确定的中心点。

对于所有数据集，在DCSS的第一阶段，α、Maxiter1、T1和m分别设置为0.1、200、2和1.5。第二阶段的超参数ζ、γ、T2和MaxIter2分别设置为0.8、0.2、5和20。我们使用Adam优化器来更新AE和MNet的权重，它们的学习率分别设置为10−5和10−3。

所有算法均采用Python语言通过PyTorch框架实现。所有代码均在配备12GB内存的谷歌协作实验室GPU（特斯拉K80)上运行，相关算法代码已收录于补充材料中。

4.5 Clustering Performance

我们提出的DCSS方法的有效性与10个众所周知的算法进行了比较，包括传统的和最先进的基于深度学习的聚类方法，使用常用的评估指标ACC和NMI。

传统的聚类方法包括k均值[8]、大规模谱聚类（LSSC）[61]以及局部保持非负矩阵分解（LPMF）[62]。基于深度学习的算法则涵盖深度嵌入聚类（DEC）[22]、改进型深度嵌入聚类（IDEC）[20]、深度聚类网络（DCN）[19]、深度k均值（DKM）[18]、深度谱聚类（DSC）[47]，以及最新提出的对比聚类法（CC）[48]。此外，我们还报告了基线方法AE+k均值的聚类性能——该方法直接将k均值算法应用于自动编码器（AE）的潜在表示层，其架构与DCSS方法中使用的自动编码器相似，并基于最小化数据集重构损失进行训练。更多算法对比细节可参见第2节。

我们在第3.1节中展示的DSL方法成功创建了一个可靠的子空间u，其中数据点能有效围绕对应中心进行分组。为此，我们仅实现了DCSS算法的第一阶段——即通过最小化公式(1)所示损失函数来训练DCSS的自动编码器（AE），其架构和初始化方式与第4.3节所述相似。完成u空间训练后，我们通过将每个数据组视为独立聚类，并将每个数据点分配到中心最近的聚类（组）中，实现了精准的聚类分配。

表1展示了我们提出的DSL和DCSS算法与对比方法的聚类性能。对于未在原始论文中报告ACC和NMI结果的数据集，我们使用与原论文相同的超参数运行公开代码进行测试。各数据集的最佳结果以粗体显示，次优结果用*标注。通过该表可以得出以下结论：(1)DCSS方法在所有数据集上均优于其他对比方法；(2)DSL方法能有效将数据集中心定位在群组中心，这从其ACC和NMI结果中可见一斑。值得注意的是，DSL在7个数据集中有4个优于DSC（这是最新基于自动编码器的前沿聚类方法之一），其余3个数据集则展现出具有竞争力的结果。(3)通过将MNet附加到DSL的潜在空间后，我们可以对比DCSS与DSL的性能，从而验证所提出的DCSS框架第二阶段的有效性。实验结果表明，DCSS在所有数据集上的表现均显著优于DSL。(4)通过将公式(1)中提出的AE损失函数与仅使用重构损失训练的AE方法进行对比，可以发现DSL的性能明显优于AE+K-means方法。具体而言，在所有测试数据集上，DSL的表现都明显优于AE+K-means。

4.6 t-SNE visualization

图4展示了我们提出的DCSS框架在不同数据集上的各阶段效果，其中采用t-SNE [63]将DCSS的编码器/MNet输出映射到二维空间。不同颜色对应不同的数据组/聚类。

图4展示了不同基准数据集上使用t-SNE对DCSS各阶段进行分组与聚类的可视化结果。首行呈现了DCSS第一阶段的分组效果，样本通过最小化加权重构损失和中心化损失，被精准定位到对应组中心。第二行展示了通过完成DCSS第一、第二阶段后获得的最终u空间。第二阶段DCSS的目标是优化第一阶段生成的u空间，并通过数据点间的成对相似性来训练q空间。末行则展示了所有数据点经过MNet处理后的最终输出结果（q空间）。坐标轴范围设定在-100到100之间。

图4的第一行展示了不同数据点在u空间（即模型的潜在空间）中的分布情况。DCSS的自动执行器（AE）需在完成第3.1节所述的第一阶段后才能启动。如图所示，完成DCSS第一阶段后，不同数据组已实现有效分离并靠近各自群组中心。但需注意，该阶段尚不足以完成聚类分配的定义。以美国邮政服务（USPS）数据集为例，粉色、紫色和品红色标注的数据组仍存在混合现象，这表明重建效果不足且中心化处理存在缺陷。

图4第二行展示了完成第3.2节所述DCSS第二阶段后，u空间中的数据呈现结果。通过最小化公式(4)和(5)对u空间进行优化处理后，可以明显看到采用成对相似性进行优化后的u空间呈现出更清晰、更独立的组别分布。例如，USPS数据集中的粉红、紫色和品红组在优化后的u空间中已能清晰区分。再以2MNIST数据集为例，三组样本分别显示为红色、橄榄色和棕色。相较于图4第一行的原始呈现，优化后的u空间中这三个组别呈现出更显著的分离效果。

图4的最后一行展示了MNet的输出空间（q空间），我们在此空间中对数据点进行聚类分配决策。正如预期，该空间中的聚类具有较低的内部距离和较高的聚类间距离。以Fashion MNIST数据集为例，在第二阶段结束时，深蓝色和紫色组在u空间中相互混杂，但在q空间中却完全独立。

4.7 Effect of Pre-trained Network

本节重点研究预训练网络结构对RGB图像特征提取的影响。为此，我们采用四个不同的ResNet架构（即ResNet-34 [56]、ResNet-50 [56]、ResNet-101[56]和ResNet-152[56]）对第4.5节所述的各类深度学习算法进行聚类性能对比。所有ResNet均基于ImageNet数据集[56]完成预训练，其对应的ACC和NMI指标详见表3。各数据集中的最优结果以粗体标示，次优结果则用*标注。实验表明，无论采用何种网络架构，本文提出的DCSS方法均展现出显著优势。在所有数据集上，算法均表现优异。此外，在报告的24项指标中，DSL方法有19项位列第二。

4.8 Loss function convergence

图5展示了不同批次数据点中各组别在DCSS第一阶段（即DSL)对应的重构损失、中心化损失和总损失的平均值对比（如公式(1)所示）。可以看出，所有损失项在训练结束时均已收敛。中心化损失的显著降低表明，我们提出的方法在构建可靠u空间方面效果显著——该空间中的数据点能够围绕组中心聚集。此外，数据显示在训练初期阶段，我们的方法通过牺牲重构损失来换取更优的中心化性能。这证明了单纯依赖重构损失难以有效构建可靠的潜在空间。

图5展示了DCSS（DSL）第一阶段的重构损失Lr、中心化损失Lc和总损失Lu随训练轮次的变化趋势，针对不同数据集进行了对比分析。在早期训练阶段，数据点的潜在表示在群组中心周围呈现不规则分布，导致中心化损失值较高。在DCSS算法的第一步中，我们提出的算法旨在同时最小化中心化损失和重构损失，这使得在后续训练轮次中重构损失逐渐增加（而中心化损失则相应降低）。当第一阶段训练完成后，数据点的潜在表示会紧密聚集在群组中心附近，从而使中心化损失收敛至较小值。

在图6中，我们研究了所提出的DCSS方法第二阶段损失函数的收敛情况（如公式(4)和(5)所示）。由于MNet是随机初始化的，在最初几个训练周期内，MNet对q空间中数据点的低维表示一无所知，因此损失值较高。随着q训练过程的推进，损失值逐渐下降，并在训练结束时收敛至零。前5个周期中，算法最小化公式(4)所示的损失函数，其余周期则最小化公式(5)。损失值随训练周期持续递减的趋势，以及第5个周期出现的陡峭下降曲线，充分验证了我们提出的策略有效性：在早期阶段采用可靠空间u进行监督，在后期阶段则转向技能空间q进行监督。

图6展示了DCSS在不同基准数据集上的第二阶段损失函数变化。在前两个T2周期（即训练轮次）中，由于MNet尚未¨ıve完成训练，我们采用u空间来测量成对相似度，因此前两个T2 = 5周期的损失值如公式(4)所示。当我们将成对相似度的计算方式从u空间切换到更可靠的q空间时，所有数据集的损失值都出现了显著下降——此时公式(5)定义的损失函数被最小化。

4.9 DCSS as a General Framework

在本节中，我们展示了DCSS框架的有效性，该框架允许使用其他基于自编码器（AE）的聚类技术对u空间进行训练。为此，我们将第3.1节提出的DSL技术替换为其他基于深度学习的技术，通过使用AE训练有效的子空间来实现数据聚类。在我们的对比方法中，DEC、IDEC、DCN和DKM算法均基于自编码器。针对每个数据集，我们使用这些算法训练AE，然后提取其编码器部分，并将我们提出的MNet附加到它们的潜在空间中。随后运行DCSS的第二阶段。表2展示了该实现方案的实验结果，其中X+MNet表示将X方法的潜在空间作为DCSS的u空间时的性能表现。需要说明的是，在RGB数据集上我们使用预训练的ResNet-152构建特征。通过对比表1、3和2中的聚类结果，可以验证DCSS作为通用框架的有效性，其显著优于现有的基于自动编码器的先进聚类方法。具体而言，MNet分别将DEC、IDEC、DCN和DKM的聚类性能平均提升3.58%（1.87%）、2.93%（1.54%）。

4.10 Performance on Imbalanced Dataset

为了证明我们提出的DCSS方法在不平衡数据集上的有效性，我们随机收集了五个子集。MNIST数据集采用不同保留率r（∈{0.1,0.2,0.3,0.4,0.5}）进行分类，其中第一类样本以r的概率被选中，最后一类样本以1的概率被选中，其余类别则按线性比例分布。因此，平均而言，第一类簇的样本数量为r。相较于最后一个聚类的时间消耗。如图7所示，我们提出的DCSS框架在所有r值下均显著优于对比方法。这表明DCSS在处理数据不平衡时具有较强鲁棒性。正如预期，总体而言所有方法的性能都会随着r值增大而提升——这是因为数据集逐渐趋向平衡状态。

图7.不同方法在MNIST不平衡样本上的聚类性能。

4.11 Visualization of representations in the q space

图9展示了来自不同数据簇的样本对应的q向量。可以看出，所提出的方法通常会导致q空间表示接近独热向量。需要注意的是，qi的第k个元素表示样本xi属于第k个聚类的概率。qi越接近独热向量，就能更准确地进行明确的分类判定。如附录A推论1.2所示，若数据点至少有一个相似邻居，则其对应q值的最大元素会大于ζ。在我们的实验中，ζ被设定为0.8。这可以证明在q空间中对接近独热表示的数据点进行聚合的合理性。

图9展示了MNIST、Fashion MNIST、STL-10和CIFAR-10数据集样本的q值可视化结果。每张图像旁均标注了对应的q向量（即MNET网络输出结果），纵轴数值范围为0到1。

为进一步验证q表示向量化为独热向量的收敛性，图8展示了所有数据集的残差直方图Ri =‖Ii−qi‖1（i=1，...，N）。其中‖.‖1表示`范数，Ii是对应qi的独热清晰映射——即Ii中非零元素的索引与qi最大值的索引相等。如图8所示，几乎所有数据点的q表示向量都与其对应的独热向量高度吻合。

图8.Ri=||Ii−qi||1的直方图，其中Ii是对应于qi的单值非对称分配，i = 1，...，N。

4.12 Hyperparameters Sensitivity

在图10中，我们研究了不同超参数对DCSS聚类性能的影响。对于第一阶段的超参数（即α、m和T1)，我们报告了使用DSL进行聚类的效果（如第4.5节所示）。

在图10(a)中，我们通过改变MNIST数据集第一阶段损失函数（公式1）中的α值∈{0,0.01,0.1,1}，探究了中心化损失的重要性。如图所示，当α从0逐步增加至0.01时，我们的DCSS性能在ACC和NMI指标上显著提升，这充分证明了在第一阶段损失函数中引入中心化损失与重构损失相结合的有效性。对于MNIST数据集而言，当α = 0.1时获得了最佳聚类效果。

图10(b)展示了模糊度参数m对DSL聚类性能的影响（m∈{1.1,1.3,1.5,1.7}）。当m→1（即m→∞）时，聚类组成员向量会收敛为等概率的一热向量。如图所示，在Fashion MNIST数据集上，当m = 1.5时获得了最佳性能表现。

在图10(c)中，我们详细分析了更新间隔T1对第一步聚类性能的影响（T1∈{2,5,10,15}）。正如预期，当T1取值较小时（即T1=2），在ACC和NMI指标上均能获得更优的聚类效果。

在图10(d)中，我们调整了第3.2节定义的训练周期数T2（取值∈{1,5,10,20}）。正如预期，当T2取值过小时（如T2=1），即使在MNet训练初期，q空间的监督主要依赖于其自身，DCSS仍无法生成合适的q空间——因为q并非可靠的子空间用于自监督。图中还显示，当T2取值过大（如T2=20）时，仅依赖u空间对q空间进行监督，同样无法有效训练出优质q空间。实验表明，当T2设置为适中值（如T2=5）时，聚类效果最佳。这证明了本文提出的策略在同时利用u空间和q空间监督MNet训练方面的有效性。

图10.DCSS对不同超参数的敏感性。

在图11中，我们调整了[0,1]范围内的ζ和γ参数（其中ζ+γ=1），以观察模型在不同模糊区间长度下的收敛性和准确性。该模糊区间定义为ζ−γ，范围从1（当ζ=1时）到0（当ζ=0.5时）。图11(a)展示了参与最小化公式(4)和(5)定义损失函数的配对数量变化。可以看出，在第二阶段初期，模型只能对少数配对做出明确判断，其余配对处于模糊区域。随着第二阶段训练进程推进，越来越多的配对被纳入损失函数优化过程。最终在第二阶段结束时，几乎所有配对都参与到训练中来。

此外，在图11(b)中，我们研究了ζ和γ对聚类性能的影响。如图所示，正如所期望的那样，当ζ和γ设置为合理值时，我们的DCSS框架的最终聚类性能对这两个参数的选择并不十分敏感。在所有实验中，ζ = 0.8，γ = 0.2。

图11.不同数据集的超参数ζ和γ变化情况。(a)DCSS第二阶段参与的数据对数量。在前几个训练周期中，MNet仅能通过u空间定义的软分组分配勉强识别数据点间的关联。完成前T2 = 5个训练周期后，我们切换到更可靠的q空间进行相似性测量，此时参与对的数量显著增加。(b)不同ζ和γ值下各数据集的ACC和NMI聚类性能对比。在最大模糊区域1（即ζ = 1且γ=0）时，所有数据对均未参与DCSS第二阶段，因此该阶段无任何对贡献。(c)不同ζ和γ值下各数据集的ACC和NMI聚类性能对比。DCSS的聚类性能对[0.5,0.9]和[0.1,0.5]范围内的ζ和γ选择敏感度较低

4.13 Features visualization

为验证模型在不同数据集中的特征提取效果，我们采用与第4.3节相同的深度神经网络结构进行监督训练，并将训练后的模型与我们提出的DCSS模型的首卷积层输出进行对比。如图12所示，我们的DCSS模型能够学习到多种低频和高频特征，这与监督学习获得的特征具有相似性。这一结果充分证明了本框架在无监督环境下有效挖掘信息特征的能力。

图12.(a)MNIST、Fashion MNIST、2MNIST和USPS样本。第一卷积层的输出结果分别采用(b)无监督DCSS方法，(c)采用与第4.3节DCSS网络结构相同的监督方法。

5 CONCLUSION

在本研究中，我们开发了一种新型高效的基于自监督深度聚类框架——自监督深度聚类（DCSS），该框架通过考量数据点间的成对相似性与差异性来完成数据聚类任务。DCSS采用两阶段训练流程：第一阶段通过K次迭代运行，DCSS尝试为数据点获取最优低维表示，其中第k次迭代时，DSL模块专注于重构并归类那些更可能属于当前数据组的数据点；第二阶段则利用第一步获得的低维表示，寻找数据点间的成对关联关系。为此，我们通过最小化一种新颖有效的损失函数，以无监督方式训练全连接网络MNet，该损失函数仅考虑相似性特征。我们在AE的潜在空间或MNet自身输出空间中识别出差异显著的配对。我们通过多个基准数据集对DCSS框架进行评估，实证结果表明DCSS优于当前最先进的数据聚类方法。附录A中讨论的严格数学证明也验证了该方法的有效性。此外，第4.9节展示的结果进一步证明，DCSS框架能显著提升基于AE的先进聚类算法的性能表现。

查看全文

http://www.dtcms.com/a/479580.html