第1章 机器学习的诞生与演化
机器学习系列
第0张 深入理解机器学习
第1章 机器学习的诞生与演化
第2章 机器学习的核心思想
第3章 概率与统计
第4章 线性代数与矩阵运算
第5章 优化与数值计算
第6章 线性模型家族
第7章 基于距离与相似度的方法
第8章 决策树与集成学习
第9章 概率模型与统计学习
第10章 无监督学习与聚类(Unsupervised Learning & Clustering)
第11章 特征工程与数据处理
第12章 模型评估与调优
第13章 NLP 领域的机器学习实践
第14章 计算机视觉与传统机器学习 Computer Vision, CV
第15章 时序数据与预测
第16章 深度学习的兴起
第17章 卷积与序列模型 卷积神经网络(Convolutional Neural Network, CNN)
第18章 大模型与预训练范式
第19章 可解释性与可信AI
第20章 机器学习的思维方式
第21章 机器学习的未来
第1章 机器学习的诞生与演化
这一部分是整本书的灵魂章节——它帮助读者理解「为什么机器学习会出现」、「它解决了什么问题」、「它与深度学习和大模型之间的关系是什么」。
1.1 从符号主义到统计学习
一、人工智能的三大流派
人工智能(AI)并不是一夜之间出现的,它的思想可以追溯到上世纪 50 年代。AI 的发展大致经历了三大主要思潮:
-
符号主义(Symbolism)——基于规则的智能
- 时间:1950s–1980s
- 核心思想:用“符号”和“逻辑规则”去描述知识与推理过程。
- 代表人物:John McCarthy(提出“AI”一词)、Allen Newell、Herbert Simon。
- 典型系统:Expert System(专家系统)、逻辑推理系统(Prolog)。
举例:如果你想让计算机识别动物,符号主义会写出规则:
如果有毛发 且 会叫,则是狗;
如果有翅膀 且 会飞,则是鸟。
这种方法在特定领域(如医学诊断、工业控制)很有效,但问题是:
- 规则难以穷尽;
- 难以应对噪声与不确定性;
- 系统缺乏自学习能力。
因此,符号主义的黄金时代(20 世纪 80 年代专家系统热潮)最终因为知识工程的瓶颈而终结。
-
连接主义(Connectionism)——神经网络的萌芽
- 时间:1958–1986
- 核心思想:模仿人脑神经元结构,用简单的神经单元连接形成智能行为。
- 代表:Frank Rosenblatt(感知机 Perceptron)。
- 问题:单层感知机只能解决线性可分问题,复杂问题无能为力。
- 1986 年 Hinton、Rumelhart、Williams 重新提出“反向传播算法(BP)”,连接主义重燃希望。
-
行为主义/统计主义(Statistical Learning)——从数据中归纳规律
- 时间:1990s 起
- 核心思想:不再追求“规则”,而是让机器通过“统计方法”从数据中学习模式。
- 标志事件:Vapnik 提出支持向量机(SVM);Hastie、Tibshirani 系列著作《The Elements of Statistical Learning》。
- 优势:数学基础严密,泛化能力强,理论完备(VC 维、PAC 学习理论)。
📈 总结来说:
| 思潮 | 核心机制 | 优势 | 弱点 |
|---|---|---|---|
| 符号主义 | 明确规则 | 可解释 | 不可扩展 |
| 连接主义 | 模仿神经元 | 自适应 | 可解释性差 |
| 统计学习 | 数学建模 | 泛化强 | 依赖特征工程 |
1.2 数据驱动范式的崛起
一、从“知识驱动”到“数据驱动”
过去的 AI 是“知识驱动”的——专家写规则,机器执行。
而机器学习改变了范式:
让数据替代人类经验成为核心资源。
这就是所谓的 “数据驱动智能(Data-Driven Intelligence)”。
二、推动数据驱动崛起的三大力量
-
数据量的爆炸增长
- 互联网、社交媒体、传感器、移动设备让数据随处可见。
- 数据成为新的“石油”。
-
计算能力的大幅提升
- GPU、TPU、分布式计算框架(Hadoop、Spark)出现。
- 算法可以在更大规模数据上快速训练。
-
算法的理论成熟
- 从线性回归到集成学习(Boosting、Bagging),再到 SVM、PCA、HMM。
- 机器学习形成了一套自洽的“学习理论”:泛化理论、正则化、VC 维。
三、范式的转变
| 阶段 | 驱动力 | 代表系统 | 特点 |
|---|---|---|---|
| 知识驱动 | 人类规则 | 专家系统 | 精确但僵化 |
| 数据驱动 | 大规模样本 | ML 模型 | 自适应但依赖数据 |
| 模型驱动(深度学习) | 大数据 + 大模型 | CNN、Transformer | 自动特征提取,端到端 |
机器学习的精髓是用统计方法逼近未知的真实函数。
而“深度学习”是在此基础上,用复杂非线性函数(神经网络)去自动发现高维特征。
1.3 传统机器学习、深度学习与大模型的演进关系
这部分可以理解为 AI 的三代进化史:
一、第一阶段:传统机器学习(1980s–2010s)
-
特点:人工设计特征 + 简单模型
-
常见算法:线性回归、SVM、决策树、随机森林、朴素贝叶斯、K-Means
-
优势:数学清晰、可解释性强、计算成本低
-
限制:
- 依赖人工特征工程
- 难以处理高维、非结构化数据(如图片、语音、文本)
代表应用:
- 邮件垃圾分类(Naive Bayes)
- 房价预测(线性回归)
- 用户流失预测(决策树)
- 推荐系统(协同过滤)
二、第二阶段:深度学习(2012–2020)
- 标志事件:2012 年 AlexNet 在 ImageNet 比赛中击败传统方法,误差下降 40%。
- 特点:自动特征学习(无需人工特征工程),通过多层神经网络直接从原始数据中学习抽象特征。
- 核心结构:CNN、RNN、LSTM、Transformer
- 应用范围:图像识别、语音识别、机器翻译、自动驾驶、医疗诊断。
优势:
- 端到端学习
- 表达能力强
- 随数据量提升效果持续提高
缺点:
- 可解释性差
- 训练数据需求极高
- 计算资源消耗大
三、第三阶段:大模型与生成式智能(2020–至今)
-
标志事件:GPT-3(2020)、ChatGPT(2022)、Claude、Gemini、LLaMA 等模型的出现。
-
特点:
- 海量数据 + 海量参数 + 自监督训练
- 从“任务模型”到“通用智能模型”
- 不仅“识别”信息,还能“生成”信息
技术理念:
- 预训练 + 微调(Pretrain-Finetune)
- 自监督学习(Self-supervised Learning)
- 注意力机制(Attention)与Transformer架构
能力转变:
| 阶段 | 能力 | 核心算法 | 典型模型 |
|---|---|---|---|
| 传统机器学习 | 结构化数据建模 | SVM、树、聚类 | XGBoost |
| 深度学习 | 感知任务 | CNN、RNN | ResNet、BERT |
| 大模型 | 认知与生成 | Transformer | GPT、Claude、Gemini |
1.4 人工智能、机器学习、深度学习的关系与分工
这是最容易混淆的部分,可以用一个层级图来理解:
人工智能(AI)├── 机器学习(ML)│ ├── 深度学习(DL)│ │ └── 大模型(LLM, Multimodal)
一、人工智能(AI)
目标是让机器表现出“智能行为”。
范围最广,涵盖所有模仿人类智能的技术:规划、推理、感知、学习、交互等。
二、机器学习(ML)
让机器“从数据中学习”的方法。
AI 的一个实现途径,是“经验驱动”的智能。
它的核心任务是:
- 从样本中找到规律;
- 建立映射函数;
- 在新样本上泛化。
三、深度学习(DL)
机器学习的一个子集,使用深层神经网络进行自动特征学习。
DL 是 ML 在非结构化数据领域(图像、语音、文本)突破的关键。
四、大语言模型(LLM)与生成式智能
深度学习发展到极致的形态。
它将“语言建模”转化为“世界建模”,实现了跨模态理解与生成能力。
小结:AI 的演化路线图
| 时代 | 技术范式 | 代表模型 | 核心资源 | 智能类型 |
|---|---|---|---|---|
| 1950s–1980s | 符号主义 | 专家系统 | 规则 | 知识驱动 |
| 1990s–2010s | 统计学习 | SVM、RF、XGBoost | 数据 | 数据驱动 |
| 2012–2020 | 深度学习 | CNN、RNN、Transformer | 大数据 + GPU | 感知驱动 |
| 2020–至今 | 大模型/生成式AI | GPT、Claude、Gemini | 海量语料 + 自监督 | 认知驱动 |
💡 总结一句话:
人工智能的发展史,就是从“人教机器做事”到“机器自己学习”,再到“机器自己思考”的过程。
