计算机视觉课程笔记-机器学习中典型的有监督与无监督学习方法的详细分类、标签空间性质、解释说明,并以表格形式进行总结
✅ 一、有监督学习(Supervised Learning)
定义:有监督学习中,模型训练依赖于已标注的样本,即输入和输出(标签)成对出现。
标签空间可能是:
-
离散型(Discrete):如分类任务(Classification)中的类别标签;
-
连续型(Continuous):如回归任务(Regression)中的数值标签。
常见有监督学习方法:
方法名称 | 类型 | 标签空间 | 简要说明 |
---|---|---|---|
线性回归(Linear Regression) | 回归 | 连续 | 预测连续值,如房价预测 |
逻辑回归(Logistic Regression) | 分类 | 离散 | 二分类常用方法,输出概率 |
K近邻(KNN) | 分类/回归 | 离散/连续 | 基于邻居样本投票或平均 |
支撑向量机(SVM) | 分类/回归 | 离散/连续 | 最大化间隔的判别模型 |
决策树(Decision Tree) | 分类/回归 | 离散/连续 | 树形结构,规则清晰可解释 |
随机森林(Random Forest) | 分类/回归 | 离散/连续 | 多棵树的集成,鲁棒性强 |
神经网络(NN) | 分类/回归 | 离散/连续 | 表达能力强,可拟合复杂映射 |
贝叶斯分类器(Naive Bayes) | 分类 | 离散 | 基于概率模型的简单有效方法 |
✅ 二、无监督学习(Unsupervised Learning)
定义:无监督学习中,模型仅依赖输入数据,不依赖标注信息,目标是挖掘数据的结构或分布规律。
标签空间:无原始标签,但可以形成隐含结构,如簇类别、主成分方向等,通常是离散型或低维表示。
常见无监督学习方法:
方法名称 | 类型 | 输出空间(是否离散) | 简要说明 |
---|---|---|---|
K均值聚类(K-Means) | 聚类 | 离散 | 将样本分为 K 个簇 |
层次聚类(Hierarchical Clustering) | 聚类 | 离散 | 形成聚类树结构 |
高斯混合模型(GMM) | 聚类 | 离散(概率软分配) | 假设数据由多个高斯分布组成 |
主成分分析(PCA) | 降维 | 连续(低维嵌入) | 保留数据主方向特征 |
独立成分分析(ICA) | 降维 | 连续 | 提取统计独立源信号 |
t-SNE / UMAP | 可视化降维 | 连续 | 非线性降维用于数据可视化 |
自编码器(AutoEncoder) | 特征学习 | 连续(低维编码) | 神经网络进行非线性压缩重构 |
DBSCAN | 聚类 | 离散 | 基于密度的聚类方法,能发现任意形状簇 |
✅ 三、总结对比表格
方法名称 | 学习类型 | 标签/输出空间 | 空间类型 | 简要说明 |
---|---|---|---|---|
线性回归 | 有监督 | 连续 | 连续 | 房价预测等连续值建模 |
逻辑回归 | 有监督 | 离散(0/1) | 离散 | 二分类任务,如垃圾邮件检测 |
K近邻(KNN) | 有监督 | 离散或连续 | 离散/连续 | 基于邻居投票或平均 |
SVM | 有监督 | 离散或连续 | 离散/连续 | 间隔最大化,支持核函数扩展 |
决策树 | 有监督 | 离散或连续 | 离散/连续 | 结构清晰,适用于小样本 |
随机森林 | 有监督 | 离散或连续 | 离散/连续 | 集成多个决策树提高性能 |
神经网络 | 有监督 | 离散或连续 | 离散/连续 | 表达能力强,适合大数据 |
K-means | 无监督 | 聚类标签(伪标签) | 离散 | 聚类,常用于图像或文本压缩 |
GMM | 无监督 | 聚类标签(概率分布) | 离散 | 软聚类,适合复杂分布数据 |
PCA | 无监督 | 主成分方向 | 连续 | 线性降维,便于可视化 |
ICA | 无监督 | 独立成分 | 连续 | 信号分离,如语音去混叠 |
t-SNE / UMAP | 无监督 | 低维坐标 | 连续 | 可视化高维数据结构 |
AutoEncoder | 无监督 | 编码向量 | 连续 | 用于特征压缩、异常检测等 |
🔍 结论
-
有监督学习根据任务分为分类(离散标签)和回归(连续标签);
-
无监督学习不依赖标签,多为聚类(输出离散)或降维(输出连续);
-
标签的“连续 or 离散”主要取决于任务的本质,而非方法本身。