当前位置：首页 > news >正文

机器学习基础入门（第五篇）：半监督学习与强化学习

news 2025/10/17 6:06:52

在前几篇文章中，我们学习了机器学习的两大基本类型：监督学习（Supervised Learning）与无监督学习（Unsupervised Learning）。
监督学习依赖大量带标签的数据，适用于分类、回归等任务；
无监督学习则无需标签，常用于聚类、降维、模式发现等问题。

然而，在现实世界中，标注数据往往稀缺而昂贵。例如，为成千上万张医学影像打上疾病标签，需要专业医生的时间与经验；而未标注的数据（例如海量图片、视频、日志信息）却极其丰富。

于是，一种“折中”的方法——半监督学习（Semi-supervised Learning） 应运而生。它结合了监督学习与无监督学习的优势：用少量标注数据引导大量未标注数据学习。

除此之外，还有一种完全不同的学习范式——强化学习（Reinforcement Learning）。它不依赖标签，而是让智能体（Agent）在环境中不断试错，通过“奖励”机制学会最优策略。

本文将详细介绍这两种重要的学习方法，它们构成了现代智能系统的基础。

传统的监督学习假设所有数据都有标签，但在许多实际问题中，这个假设并不现实。例如：

而另一方面，大量未标注数据往往可以轻易获得。半监督学习的目标，就是通过同时利用少量标注数据和大量未标注数据，来提升模型的泛化能力。

半监督学习的核心假设有三个：

利用这些假设，模型可以将少量标注数据的信息“传播”给未标注数据，从而形成更全面的学习。

最早期也是最直观的方法。

例如在文本分类中，如果模型对某些未标注新闻的预测置信度达到 95%，则可以将它们作为“伪标签”数据加入下一轮训练。

优点：简单易实现；
缺点：容易积累错误标签（即“伪标签污染”）。

由 Blum 和 Mitchell 在 1998 年提出，适用于具有两个独立特征视图的数据。

常用于网页分类、情感分析等场景。

将样本视为图中的节点，节点间的边表示相似度。已标注节点的标签可沿边传播给未标注节点。

代表方法：标签传播（Label Propagation）、图卷积网络（GCN） 等。

如基于变分自编码器（VAE）、**生成对抗网络（GAN）**的半监督学习，通过生成模型增强数据分布理解。

在深度学习时代，Google 提出的 Pseudo Label、MixMatch、FixMatch 等算法成为主流。
它们通过数据增强、置信度过滤和一致性正则化（Consistency Regularization）等手段，实现高效的半监督训练。

强化学习（Reinforcement Learning, RL）是一种完全不同的学习范式。
它不依赖标签，而是通过与环境（Environment）交互，不断试错，以最大化**长期奖励（Reward）**为目标。

强化学习的核心理念可以用一句话概括：
“在试错中学习最优策略。”

常见的类比是：
一个小孩学骑自行车，不会有人告诉他“正确姿势”，而是靠摔倒、调整、再尝试，直到学会平衡。

一个强化学习系统通常包含以下五个核心组件：