当前位置：首页 > news >正文

半监督学习：低密度分离假设 (Low-Density Separation Assumption)

news 2025/8/19 18:23:16

半监督学习(SSL)的目标是借助未标记数据辅助训练，以期获得比仅用带标签的监督学习范式更好的效果。但是，SSL的前提是数据分布需满足某些假设。否则，SSL可能无法提升监督学习的效果，甚至会因误导性推断降低预测准确性。

半监督学习的相关假设包括：Self-training assumption，Co-training assumption，Generative model assumption，Cluster assumption，Low-density separation，Manifold assumption：

自训练假设：自训练模型的预测，尤其是高置信度的预测，往往是正确的。当该假设成立时，这些高置信度预测可视为真实标签。
聚类假设：若两点 x1 和 x2 属于同一簇，则它们应属于同一类别。该假设指的是，单一类别的数据倾向于形成一个簇，且当数据点可通过不经过任何低密度区域的短曲线连接时，它们属于同一类簇。根据该假设，决策边界不应穿过高密度区域，而应位于低密度区域。因此，学习算法可利用大量未标记数据调整分类边界。
低密度分离假设：决策边界应位于低密度区域，而非穿过高密度区域。低密度分离假设与聚类假设密切相关。我们可以从另一角度理解聚类假设：类别由低密度区域分隔。因为高密度区域的决策边界会将一个簇分割为两个不同类别，这会违背聚类假设。

以上翻译了文献[1]中的部分内容，具体内容请看原文献。总的来说，自训练假设是用带标签训练模型，训练好的模型用于预测未标注的数据，由此获得了相应的伪标签。聚类假设和低密度分离假设基本上相同，均认为决策边界位于低密度区域。

低密度分离假设的直观理解

低密度分离假设是半监督学习中一个核心且重要的理论前提。它描述了数据在特征空间中的分布特性，并为许多半监督学习方法（如熵最小化）提供了为什么利用未标记数据有效的理论依据。

如下图，当决策边界位于低密度区域时，模型对输入的数据有确定性的预测（低熵），表明意这个点位于某个类别的高密度簇内部，远离边界。

在这里插入图片描述

当未标记的数据处于决策边界附近，模型难以对这些未标记的数据进行分类，即做出高熵（不确定）的预测。

在这里插入图片描述

因此，熵最小化损失函数惩罚模型对未标记数据点做出高熵（不确定）的预测，强迫模型对这些点也必须给出低熵（自信、确定）的预测。表现为：

调整内部表示 (Feature Learning)：让特征空间中原本靠近的不同类别点变得更容易区分（拉开距离），在它们之间创造出低密度间隙。
移动决策边界 (Boundary Adjustment)：把边界从当前穿过的、可能还是高密度混杂区（或高密度区边缘）的地方，推离到旁边数据更稀疏的低密度区域。

参考：

[1] Yang, Xiangli, et al. “A survey on deep semi-supervised learning.” IEEE transactions on knowledge and data engineering 35.9 (2022): 8934-8954.

查看全文

http://www.dtcms.com/a/232572.html