深度学习(三):监督学习与无监督学习
深度学习是人工智能发展的核心驱动力,其本质是利用多层神经网络从海量数据中自动学习特征和模式。根据训练数据是否包含标注信息,深度学习可分为 监督学习(Supervised Learning) 和 无监督学习(Unsupervised Learning)。
监督学习:有“老师”指导的训练
监督学习是深度学习中最常见、应用最广泛的一种训练模式。它的核心思想是利用带有标签的训练数据进行学习,就像一个学生在老师的指导下,通过大量的练习题(输入)和正确答案(标签)来学习知识。
工作原理
在监督学习中,你需要为模型提供成对的输入数据和对应的正确标签。例如,在图像分类任务中,输入是一张图片,标签是图片中物体的类别(如“猫”、“狗”)。模型在训练过程中会不断地调整其内部的权重和偏置,以最小化预测结果与真实标签之间的差距。这个差距通常用损失函数(Loss Function)来衡量,而模型的优化过程就是不断地减小这个损失值。总结为:
数据集
- 输入:特征向量(如图像像素、语音波形、文本词向量)。
- 输出:标签(类别、数值或序列)。
损失函数
- 分类任务常用交叉熵(Cross-Entropy Loss)。
- 回归任务常用均方误差(MSE)。
优化过程
- 利用梯度下降(SGD/Adam 等)最小化损失函数。
- 通过反向传播(Backpropagation)更新参数。
核心任务类型
- 分类(Classification):这是监督学习最常见的任务之一,目标是将输入数据分到预定义的类别中。
- 二分类:将数据分为两个类别。例如,识别电子邮件是“垃圾邮件”还是“非垃圾邮件”。
- 多分类:将数据分为三个或更多的类别。例如,识别图片中的物体是“猫”、“狗”还是“鸟”。
- 回归(Regression):预测一个连续的数值。例如,根据房屋的面积、位置、建造年份等信息,预测其具体的售价。
常见模型
- 线性模型:线性回归、逻辑回归。
- 支持向量机(SVM):适合小规模数据。
- 决策树与随机森林:解释性好,适合结构化数据。
- 神经网络与深度学习模型:CNN、RNN、Transformer。
优缺点
- 优点:预测准确率高,结果可直接用于实际任务;训练目标明确。
- 缺点:需要大量标注数据;人工标注成本高,某些领域难以获取精确标签;模型可能过拟合。
无监督学习
定义
无监督学习不依赖人工标注数据,模型仅利用输入数据本身进行训练,旨在发现数据中的 潜在结构、分布规律或隐藏特征。
基本原理
- 目标:不再预测标签,而是进行数据表示、聚类或生成建模。
- 典型思路:最大化数据似然估计、最小化重构误差或学习潜在变量。
核心任务类型
- 聚类(Clustering):这是无监督学习最主要的应用之一,其目标是将数据点分成不同的群组,使得同一组内的数据点相似度高,不同组之间的数据点相似度低。
- K-means:最经典的聚类方法。
- 高斯混合模型(GMM):基于概率分布。
- DBSCAN:基于密度的聚类。
- 降维(Dimensionality Reduction):减少数据的特征数量,同时尽可能保留其重要信息。这不仅有助于数据的可视化,还能提高后续监督学习任务的效率,并去除冗余特征。
- PCA(主成分分析)。
- t-SNE、UMAP:常用于可视化。
- 自编码器(Autoencoder):基于神经网络的非线性降维。
- 生成模型(Generative Models):学习数据的分布,并能够生成新的、与原始数据相似的数据。
- GAN(生成对抗网络):图像生成、超分辨率。
- VAE(变分自编码器):隐空间建模。
- Diffusion Models:最新一代高质量图像生成模型。
优缺点
- 优点:不需要人工标注,适合大规模无标签数据;能发现潜在结构和特征。
- 缺点:目标不明确,结果难以评价;模型性能通常不如监督学习直观;训练不稳定(如 GAN)。
半监督与自监督学习
近年来,研究者提出了 半监督学习(Semi-supervised Learning) 和 自监督学习(Self-supervised Learning),试图结合监督和无监督的优势。
- 半监督学习
- 使用少量有标签数据 + 大量无标签数据共同训练。
- 代表方法:伪标签(Pseudo Label)、一致性正则化(Consistency Regularization)。
- 自监督学习
- 构造预训练任务(如预测图像旋转角度、遮挡重建、掩码语言模型),不依赖人工标注。
- 代表模型:SimCLR、MoCo、MAE、GPT。
- 已成为深度学习发展趋势。
监督学习与无监督学习比较
对比维度 | 监督学习 | 无监督学习 |
---|---|---|
数据需求 | 需要大量标注数据 | 不需要标签,仅需原始数据 |
训练目标 | 最小化预测误差 | 学习潜在结构或分布 |
代表方法 | CNN、RNN、Transformer | K-means、Autoencoder、GAN |
应用场景 | 分类、检测、回归 | 聚类、降维、生成、异常检测 |
优点 | 性能好,预测精度高 | 无需人工标注,适应性强 |
缺点 | 标注成本高,泛化有限 | 训练目标模糊,结果解释性差 |