ML:Supervised/Unsupervised
一、核心概念辨析:Machine Learning vs AGI
这两个概念代表了人工智能领域的不同层级。
1.1.Machine Learning(机器学习,简称 ML)
它是实现人工智能的核心技术手段之一,而非人工智能本身。其核心逻辑是 “数据驱动”,通过算法从大量数据中挖掘模式、训练模型,然后用模型处理新的数据。
简单来说,机器学习是让计算机 “从经验中学习”。这里的 “经验” 就是数据,“学习” 就是算法优化模型参数的过程。比如手机相册的人脸识别、垃圾邮件过滤,都是机器学习的典型应用。
1.2.AGI(Artificial General Intelligence,通用人工智能)
它是人工智能领域的终极目标之一,指具备与人类相当的通用智能的机器。这种机器能像人一样,在各种不同场景下自主学习、理解、推理,解决跨领域的复杂问题,而非局限于单一任务。
目前我们所处的阶段是弱人工智能(Narrow AI),所有应用(包括 ChatGPT、自动驾驶)都属于这一范畴,仅能在特定领域解决特定问题。AGI 尚未实现,仍停留在理论研究阶段。
二、 What is Machine Learning?(机器学习的准确定义)
结合 Tom Mitchell(机器学习领域权威学者)的经典定义和现代理解:
“如果一个计算机程序在完成任务 T 时的性能(用 P 衡量),随着经验 E 的积累而自动提升,那么这个程序就被认为是在进行机器学习。”
拆解这个定义的三个核心要素:
- 任务(Task, T):要解决的具体问题,比如图像识别、房价预测、垃圾邮件分类。
- 性能(Performance, P):评估任务完成得好不好的指标,比如预测房价的误差大小、识别图片的准确率。
- 经验(Experience, E):用于训练模型的数据,比如大量标注好的 “图片 - 标签” 数据、“房屋特征 - 房价” 数据。
通俗来讲,机器学习就是让计算机通过 “看” 大量数据(经验 E),自己学会做某件事(任务 T),并且做得越来越准(性能 P 提升)。
三、机器学习的两大核心分支
根据训练数据是否包含 “标准答案”,机器学习主要分为两大类,supervised和unsupervised。
3.1 Supervised Learning(监督学习)
这是目前应用最广泛的机器学习类型,核心是训练数据带有 “标签(Label)”—— 相当于有老师在旁边指导,告诉模型 “什么输入对应什么输出”。
模型的目标是学习 “输入(特征)” 到 “输出(标签)” 的映射关系,然后对新的、未见过的输入预测标签。
它又可细分为两大核心任务,对应regression和classification:
| 任务类型 | 英文 | 核心目标 | 输出结果 | 典型例子 |
|---|---|---|---|---|
| 回归 | Regression | 预测连续型数值 | 具体的数字 | 预测房价、预测股票价格、预测气温 |
| 分类 | Classification | 预测离散型类别 | 固定的类别标签 | 垃圾邮件识别(垃圾 / 非垃圾)、疾病诊断(患病 / 健康)、图像识别(猫 / 狗 / 汽车) |

3.2 Unsupervised Learning(无监督学习)
与监督学习相反,训练数据没有任何标签,相当于让模型在没有老师指导的情况下,自己从数据中发现隐藏的结构和规律。
模型的目标不是预测,而是 “探索数据本身的特征”。它主要clustering、dimensionality reduction等任务:
| 任务类型 | 英文 | 核心目标 | 典型例子 |
|---|---|---|---|
| 聚类 | Clustering | 将相似的数据自动归为一类 | 电商用户分群(高消费 / 中等消费 / 低消费群体)、新闻主题聚类 |
| 降维 | Dimensionality Reduction | 在保留核心信息的前提下,减少数据的特征数量 | 图像压缩(将高像素图像转为低像素,仍能识别内容)、数据可视化(将高维数据降到 2D/3D 图表展示) |

四、 补充关键术语:Anomaly Detection(异常检测)
Anomaly Detection它是机器学习中一个重要的应用方向,可归属于无监督学习或半监督学习范畴。
4.1.核心定义
异常检测的目标是从大量正常数据中,自动识别出不符合预期模式的 “异常数据”,这些异常往往对应着实际场景中的问题或机会。
4.2.典型应用场景
- 金融领域:识别信用卡盗刷(突然异地大额消费,与用户常规消费模式不符)。
- 工业领域:检测设备故障(设备传感器数据突然偏离正常范围)。
- 安防领域:监控视频中识别异常行为(如夜间闯入禁区)。
五、总结:核心框架图
核心框架可总结为:
人工智能(AI)├─ 终极目标:AGI(通用人工智能,未实现)└─ 当前实现:弱人工智能(依赖机器学习等技术)└─ 机器学习(ML)├─ 监督学习(数据有标签,应用最广)│ ├─ Regression(回归:预测连续值)│ └─ Classification(分类:预测类别)└─ 无监督学习(数据无标签,探索数据结构)├─ Clustering(聚类:自动分组)├─ Dimensionality Reduction(降维:简化数据)└─ Anomaly Detection(异常检测:识别异常数据)