深度学习从入门到精通(一):深度学习的分类
文章目录
- 前言
- 一、按网络结构分类(最核心的分类)
- 二、按学习范式分类
- 三、按任务模式分类
- 四、按架构创新分类
- 总结
前言
我们将从四个最核心的视角,为你系统性地梳理深度学习的庞大体系:
- 按网络结构分类:我们将探寻模型的内在“骨架”,理解如前馈神经网络的直接、循环神经网络的记忆与卷积神经网络的洞察力是如何由不同的连接方式造就的。
- 按学习范式分类:我们将洞察模型如何“学习”,从监督学习的名师指导,到无监督学习的自学成才,再到强化学习的与环境博弈试错,每一种都是获取智慧的不同路径。
- 按任务模式分类:我们将厘清模型的核心“目标”,分清旨在“决策”的判别式模型与旨在“创造”的生成式模型之间的根本区别。
- 按架构创新分类:我们将回顾那些闪耀的“里程碑”,如Transformer、GAN等,了解它们突破了何种桎梏,从而开创了全新的研究方向。
未来,无论你遇到何种新模型、新算法,都能快速地将它在这张地图上“定位”,理解它的来龙去脉、核心思想与适用场景。
一、按网络结构分类(最核心的分类)
这个角度根据神经元之间的连接方式和数据流动的拓扑结构进行分类。
| 分类 | 代表模型 | 核心思想与结构特点 | 信息流动方式 | 典型应用 |
|---|---|---|---|---|
| 前馈神经网络 | 多层感知机(MLP) | 由全连接层组成,是最基础的网络结构。 | 单向传播,无循环或反馈。 | 简单的分类与回归任务。 |
| 卷积神经网络(CNN) | 通过卷积核提取局部特征,具有参数共享和平移不变性。 | 单向传播,无循环或反馈。 | 图像识别、目标检测、图像生成。 | |
| 反馈神经网络 | 循环神经网络(RNN) | 具有循环连接,使网络具备记忆功能,能处理变长序列。 | 单向传播,但具有内部循环反馈。 | 自然语言处理、时间序列预测。 |
| 长短期记忆网络(LSTM) | RNN的变体,引入“门控机制”以解决长程依赖问题。 | 单向传播,但具有内部循环反馈。 | 机器翻译、语音识别、文本生成。 | |
| 门控循环单元(GRU) | LSTM的简化变体,合并了门控单元,参数更少,计算效率更高。 | 单向传播,但具有内部循环反馈。 | 同LSTM,资源受限的场景。 | |
| 特殊连接结构网络 | Transformer | 完全基于自注意力机制,并行化处理序列,能捕捉全局依赖关系。 | 本质上为前馈,但通过注意力权重实现全局信息交互。 | 机器翻译、文本摘要(BERT, GPT等模型的基础)。 |
| 图神经网络(GNN) | 专为处理图结构数据设计,通过聚合邻居信息来更新节点表征。 | 信息在图节点之间传播(非序列也非网格)。 | 社交网络分析、推荐系统、药物发现。 | |
| 脉冲神经网络 | 脉冲神经网络(SNN) | 第三代神经网络,模拟生物大脑,使用离散脉冲和时间动力学编码信息。 | 基于事件驱动的异步传播。 | 神经形态计算、低功耗边缘AI、脑机接口。 |
-
补充说明与关系解读
- 层次关系:
* **前馈**和**反馈**结构是基础。 * **特殊连接结构**(如Transformer、GNN)是在基础结构上为特定数据类型和任务设计的创新架构。 * **脉冲神经网络**则采用了完全不同的信息编码和处理范式,是一个独特的分支。- 混合架构:
在实际应用中,这些结构常常被混合使用以发挥各自优势。例如:
* **CNN + RNN/LSTM**:用于视频描述(CNN提取帧特征,RNN生成描述语句)。 * **CNN + Transformer**:用于视觉Transformer(ViT),将图像切块后送入Transformer处理。
二、按学习范式分类
这个角度关注模型如何从数据中学习以及学习的目标。
| 学习范式 | 核心思想 | 数据要求 | 典型模型/算法 | 典型任务 |
|---|---|---|---|---|
| 监督学习 | 学习从输入到输出的映射函数。模型通过比较预测输出与已知标签之间的误差来进行训练。 | 大量带标签的数据 (输入数据 + 对应的真实输出) | • 卷积神经网络 (CNN) • 循环神经网络 (RNN/LSTM) • 全连接神经网络 (MLP) • Transformer (用于有监督任务) | • 图像分类 • 目标检测 • 语音识别 • 机器翻译 |
| 无监督学习 | 发现数据中内在的、未标注的模式或结构。没有“正确答案”作为指导。 | 没有任何标签的数据 (只有输入数据) | • 自编码器 (AE) • 生成对抗网络 (GAN) * • 聚类算法 (如Deep Clustering) • 主成分分析 (PCA) 的深度版本 | • 数据降维与可视化 • 异常检测 • 数据聚类 • 关联规则学习 |
| 半监督学习 | 同时利用少量标注数据和大量未标注数据进行训练,以降低对标注数据的依赖。 | 少量带标签数据 + 大量未标注数据 | • Π-model • Temporal Ensembling • Mean Teacher • 伪标签 | • 在标注成本高的领域(如医学图像分析)中提升模型性能 |
| 自监督学习 | 无监督学习的一种。通过从数据自身构造预训练任务(Pretext Task) 来学习数据的表征,无需人工标注。 | 没有任何人工标签的数据 (但算法会自行构造标签) | • BERT (掩码语言模型) • SimCLR, MoCo (对比学习) • GPT (自回归语言模型) | • 预训练大语言模型 • 为下游任务学习通用特征表示 • 图像、视频的表示学习 |
| 强化学习 | 智能体通过与环境交互,根据获得的奖励(或惩罚)信号来学习最优决策策略。学习过程是“试错”的。 | 不需要静态数据集,需要环境、奖励函数和交互产生的状态-动作-奖励序列。 | • 深度Q网络 (DQN) • 策略梯度方法 (如A3C) • 深度确定性策略梯度 (DDPG) • AlphaGo, AlphaZero | • 游戏AI (如AlphaStar) • 机器人控制 • 自动驾驶决策 • 资源优化管理 |
- 补充说明与关系解读
-
生成对抗网络 (GAN) 的归属: GAN 的训练过程同时包含了监督和无监督的成分。判别器 (Discriminator) 的学习是一个典型的有监督任务(判断真伪),而生成器 (Generator)
的目标是欺骗判别器,其学习过程是无监督的。因此,常将其整体视为一种强大的无监督生成模型。 -
自监督学习 vs. 无监督学习:
- 共同点:都不需要人工标注的标签。
- 核心区别:自监督学习会主动地、巧妙地从数据中构造出监督信号(如遮盖单词、旋转图片然后预测),从而学习到非常高质量的数据表示。而无监督学习更直接地探索数据分布(如聚类、降维)。
- 关系:自监督学习是无监督学习领域近年来最重大的突破之一,它极大地提升了无监督学习的效果。
-
范式间的结合:
在实际应用中,这些范式并非泾渭分明,而是常常结合使用:- 预训练 + 微调:这是最常见的模式。首先使用自监督或无监督学习在海量无标签数据上进行预训练,学习通用特征表示;然后使用监督学习在少量有标签的特定任务数据上进行微调。例如,BERT、GPT的用法。
- 强化学习中的监督信号:在一些强化学习算法中,可能会利用模仿学习(从专家示范中学习),这又引入了监督学习的成分。
-
三、按任务模式分类
这个角度关注模型的输出是什么,用于解决什么具体任务。
| 分类 | 核心目标 | 学习内容 | 典型应用 | 代表模型与架构 |
|---|---|---|---|---|
| 判别式模型 | 学习决策边界,对输入数据进行分类、回归或判别。 | 学习 P(Y|X):在给定输入数据X的条件下,输出Y(标签或值)的概率分布。 | • 图像分类 • 目标检测 • 语音识别 • 情感分析 • 序列标注 | • 卷积神经网络 (CNN) • 循环神经网络 (RNN/LSTM) • Transformer (如BERT) • 全连接神经网络 (MLP) |
| 生成式模型 | 学习数据本身的分布,并能够生成新的、与训练数据相似的数据样本。 | 学习 P(X):输入数据X本身的概率分布。或 P(X|Y):给定标签Y条件下,数据X的分布。 | • 图像生成 • 文本创作 • 语音合成 • 数据增强 • 风格迁移 | • 生成对抗网络 (GAN) • 变分自编码器 (VAE) • 扩散模型 (如DDPM) • 自回归模型 (如GPT, PixelRNN) |
- 补充说明与关系解读
-
直观理解:
- 判别式模型关心的是“区分”和“抉择”。它学会了在不同类别的数据之间“划界线”。它的问题是:“根据特征X,它最可能属于哪个类别?”
- 生成式模型关心的是“创造”和“合成”。它学会了每个类数据“长什么样”。它的问题是:“一个特定的类别,它的特征X应该是什么样的?”
-
生成式模型也可用于判别任务:
理论上,如果生成式模型学到了数据分布 P(X) 和先验分布 P(Y),它可以通过贝叶斯定理 P(Y|X) ∝ P(X|Y)P(Y) 来计算后验概率,从而进行分类。但这通常计算复杂且效果不如直接训练判别式模型。 -
联系与结合:
- 对抗训练:生成对抗网络(GAN)是两者结合的完美例子。它内部同时包含一个生成式模型(Generator) 和一个判别式模型(Discriminator),两者通过对抗博弈共同进步。
- 预训练-微调:许多先进的生成式模型(如GPT、扩散模型)学到的强大数据表征,可以被用来初始化判别式任务的模型,提升其性能。这体现了生成式学习对判别式任务的促进作用。
-
四、按架构创新分类
这个角度关注那些引入了关键新思想或组件的著名架构。
| 创新架构类别 | 核心创新思想 | 解决的关键问题 | 代表性模型 | 引发的新方向 |
|---|---|---|---|---|
| 深度架构 | 堆叠多个隐藏层,实现多层次的特征抽象与转换。 | 传统浅层模型无法处理高度复杂的非线性问题。 | • Deep Belief Network (DBN) • Stacked Autoencoders | 开启了“深度”学习时代,证明了深度的重要性。 |
| 卷积架构 | 局部连接、权重共享和池化,极大地减少了参数数量并保留了空间信息。 | 全连接网络处理图像时参数爆炸且无法有效利用空间局部性。 | • LeNet • AlexNet • VGG • ResNet | 现代计算机视觉的基石,推动了图像领域的革命。 |
| 门控循环架构 | 引入门控机制(输入门、遗忘门、输出门)精细控制信息的流动和记忆的保留与遗忘。 | 传统RNN存在梯度消失/爆炸问题,难以学习长期依赖关系。 | • LSTM • GRU | 使RNN真正变得实用,成为处理序列数据的首选架构。 |
| 注意力与Transformer架构 | 自注意力机制:让序列中的每个元素直接与所有元素交互,并行计算且能捕获长程依赖。 | RNN的序列计算模式无法并行,效率低下;CNN对长程依赖捕捉能力弱。 | • Transformer • BERT • GPT | 带来了NLP的革命,并逐渐向多模态(Vision Transformer)扩展,成为大模型的基础。 |
| 生成对抗架构 | 通过生成器和判别器的对抗博弈过程进行训练,无需显式的似然计算。 | 如何有效学习和生成复杂的高维数据分布(如图像)。 | • GAN (DCGAN, StyleGAN) | 推动了高质量图像生成的发展,开启了生成模型的“对抗”时代。 |
| 扩散模型架构 | 通过一个前向加噪和反向去噪的马尔可夫链过程来学习数据分布。 | GAN训练不稳定、模式崩塌;传统生成模型生成质量不高。 | • DDPM • Stable Diffusion | 当前图像生成领域的SOTA,在生成质量和稳定性上表现卓越。 |
| 记忆增强架构 | 为网络引入外部记忆模块,像计算机的内存一样,可以进行信息的读写和存储。 | 标准网络缺乏长期、大量的记忆存储和精确检索能力。 | • Neural Turing Machine (NTM) • Memory Networks | 增强了网络的推理能力和处理需要知识库的任务的能力。 |
| 注意力与Transformer架构 | 自注意力机制:让序列中的每个元素直接与所有元素交互,并行计算且能捕获长程依赖。 | RNN的序列计算模式无法并行,效率低下;CNN对长程依赖捕捉能力弱。 | • Transformer • BERT • GPT | 带来了NLP的革命,并逐渐向多模态(Vision Transformer)扩展,成为大模型的基础。 |
| 图神经网络架构 | 专为非欧几里得空间的图数据设计,通过邻域聚合(消息传递)来学习节点和图的表征。 | 传统神经网络无法有效处理图结构这种不规则的关系数据。 | • GCN • GAT • GraphSAGE | 将深度学习成功应用于社交网络、推荐系统、化学等关系型领域。 |
| 稀疏架构 | 并非所有神经元或专家都需要被激活,通过稀疏激活的机制来扩大模型容量但控制计算量。 | 模型参数越来越大,计算成本和能耗越来越高。 | • Mixture of Experts (MoE) | 构建万亿参数级别超大模型的关键技术(如Switch Transformer)。 |
- 补充说明与演进关系
-
创新是叠加的,而非替代的:这些架构创新并非互相排斥,而是常常被结合使用。例如:
- ResNet = 深度架构 + 卷积架构 + 跳跃连接(一种创新)
- Vision Transformer = Transformer架构 + 卷积架构(用于patch embedding)
- 扩散模型 也常常使用 U-Net(一种卷积架构) 作为去噪网络。
-
推动领域发展的核心:表格中的每一项创新都极大地推动了一个甚至多个子领域的发展。例如,卷积架构推动了CV,Transformer架构推动了NLP,GNN架构推动了图学习。
-
从专用到通用:许多最初为特定领域设计的架构,后来被发现具有通用性。最典型的例子是 Transformer,它从NLP起源,现在正逐步成为处理多模态数据的通用 backbone。
-
总结
这些分类角度并非互斥,一个模型通常可以同时属于多个类别。例如:
- BERT模型:是基于Transformer架构的、采用自监督学习范式进行预训练的、主要用于判别式任务的模型。
- 深度强化学习:是深度学习(用于感知环境)和强化学习(用于决策)的结合。
理解这些分类有助于您根据具体任务(如图像识别、文本生成、游戏AI)选择最合适的模型架构和学习方法。
