深度学习-分类
深度学习-分类方式
- (重点)一、按数据类型与处理逻辑分类
- 1. 序列数据(时序/顺序相关)
- 2. 网格状数据(空间相关)
- 3. 图结构数据(非欧几里得结构)
- 4. 其他特殊类型数据
- (重点)二、按模型功能与应用场景分类
- 1. 判别模型(分类/回归)
- 2. 生成模型
- 3. 强化学习模型
- 4. 无监督/自监督模型
- 三、按网络结构与核心机制分类
- 1. 基于卷积的架构
- 2. 基于循环的架构
- 3. 基于自注意力的架构
- 4. 基于胶囊的架构
- 四、按网络规模与训练方式分类
- 1. 小型轻量级模型
- 2. 大型预训练模型(大模型)
- 3. 分布式训练模型
- (重点)五、按任务类型分类
- 1. 计算机视觉(CV)模型
- 2. 自然语言处理(NLP)模型
- 3. 语音处理模型
- 4. 跨领域模型
- 六、总结:分类维度的交叉与融合
深度学习架构
├── 序列建模架构
│ ├── 基础RNN
│ ├── 改进型RNN(LSTM、GRU、Bi-RNN)
│ └── 自注意力模型(Transformer)
├── 空间特征架构(CNN及变种)
├── 图结构架构(GNN)
├── 生成模型(GAN、VAE、扩散模型)
└── 强化学习架构(DQN、Actor-Critic)
-
RNN是序列建模的核心基础,LSTM/GRU等是其优化版本,而Transformer则是序列建模的革命性突破(通过自注意力机制替代循环结构)
-
在深度学习领域,按数据类型与处理逻辑分类是最常见、最基础的分类方式之一,因为它直接关联数据的固有特性和模型的核心设计逻辑,也是初学者入门时最先接触的分类框架。
(重点)一、按数据类型与处理逻辑分类
1. 序列数据(时序/顺序相关)
-
特点:数据元素之间存在时间或顺序依赖(如文本、语音、股票价格)。
-
代表模型:
-
- 循环神经网络(RNN):基础RNN、LSTM、GRU、Bi-RNN。
- 自注意力模型:Transformer及其变体(BERT、GPT、T5等)。
- 时序卷积网络(TCN):用一维卷积处理序列数据,避免RNN的循环计算瓶颈。
2. 网格状数据(空间相关)
-
特点:数据具有二维(图像)或三维(视频、体素)空间结构。
-
代表模型:
-
- 卷积神经网络(CNN):LeNet、AlexNet、ResNet、U-Net。
- 视觉Transformer(ViT):将图像分块后用自注意力机制处理。
- 三维卷积网络(3D CNN):用于视频动作识别或医学影像分析。
3. 图结构数据(非欧几里得结构)
-
特点:数据由节点和边组成(如社交网络、分子结构、知识图谱)。
-
代表模型:
-
- 图神经网络(GNN):GCN(图卷积网络)、GAT(图注意力网络)、GraphSAGE。
- 图循环神经网络(GRNN):结合RNN和图结构的时序建模。
4. 其他特殊类型数据
- 图序列数据:如交通网络的时序流量数据(需同时建模空间图结构和时间序列),可使用时空图神经网络(ST-GNN)。
- 多模态数据:融合图像、文本、语音等多种类型数据,如CLIP(图像-文本跨模态模型)、AudioGPT(语音-文本模型)。
(重点)二、按模型功能与应用场景分类
领域 | 判别式 AI(深度学习应用) | 生成式 AI(深度学习应用) |
---|---|---|
自然语言处理 | 文本分类(BERT)、语音识别(RNN) | 文本生成(GPT)、机器翻译(Transformer) |
计算机视觉 | 目标检测(YOLO)、人脸识别(CNN) | 图像生成(Diffusion 模型)、视频预测 |
医疗领域 | 癌症病理图像分类(CNN) | 医学影像合成(VAE)、药物分子设计(GAN) |
自动驾驶 | 路况识别(CNN+RNN) | 虚拟场景生成(模拟复杂路况,训练自动驾驶模型) |
1. 判别模型(分类/回归)
-
目标:对输入数据进行分类或预测连续值。
-
代表模型:
-
- 图像分类:ResNet、EfficientNet。
- 文本分类:TextCNN、FastText。
- 回归任务:基于CNN的图像超分辨率模型、基于RNN的时序预测模型。
2. 生成模型
-
目标:生成新的样本数据(如图像、文本、语音)。
-
代表模型:
-
- 图像生成:GAN(如StyleGAN)、扩散模型(如Stable Diffusion)。
- 文本生成:GPT系列、LLaMA、PaLM。
- 语音生成:WaveNet、Tacotron(语音合成)。
3. 强化学习模型
-
目标:通过与环境交互学习最优行为策略。
-
代表模型:
-
- Atari游戏AI:DQN(深度Q网络)、Rainbow DQN。
- 机器人控制:PPO(近端策略优化)、SAC(软演员-评论家算法)。
- 棋类游戏:AlphaGo(CNN+蒙特卡洛树搜索)、AlphaZero(纯神经网络+强化学习)。
4. 无监督/自监督模型
-
目标:从无标签数据中学习特征表示。
-
代表模型:
-
- 图像特征学习:SimCLR(对比学习)、MoCo(动量对比)。
- 文本预训练:BERT(掩码语言模型)、GPT(自回归语言模型)。
- 聚类模型:DeepCluster、DEC(深度嵌入聚类)。
三、按网络结构与核心机制分类
1. 基于卷积的架构
- 核心操作:卷积层(局部特征提取)+ 池化层(降维)。
- 应用场景:图像、音频等网格状数据。
- 变种:空洞卷积、可变形卷积、分组卷积(如ResNeXt)。
2. 基于循环的架构
- 核心操作:隐藏层状态循环传递,捕捉序列依赖。
- 应用场景:文本、语音等序列数据。
- 变种:LSTM、GRU、双向RNN。
3. 基于自注意力的架构
- 核心操作:自注意力机制(全局依赖建模)。
- 应用场景:序列数据(NLP)、图像/视频(CV)。
- 代表模型:Transformer、ViT、Swin Transformer。
4. 基于胶囊的架构
- 核心思想:用“胶囊”(向量神经元)替代传统标量神经元,建模实体的姿态、位置等空间关系。
- 代表模型:CapsNet(胶囊网络),用于图像识别中的姿态不变性建模。
四、按网络规模与训练方式分类
1. 小型轻量级模型
- 特点:参数量少、计算效率高,适合边缘设备或实时应用。
- 代表模型:MobileNet(深度可分离卷积)、ShuffleNet(通道洗牌降参)、TinyBERT(模型蒸馏)。
2. 大型预训练模型(大模型)
-
特点:参数量巨大(数十亿到万亿级),在海量数据上预训练后微调。
-
代表模型:
-
- NLP:GPT-4(1.8万亿参数)、PaLM 2、LLaMA 2。
- CV:Swin Transformer V2、CLIP(40亿参数)。
- 多模态:GPT-4V(视觉-语言)、Gemini(文本-图像-语音)。
3. 分布式训练模型
- 特点:单卡无法容纳模型参数,需通过数据并行、模型并行、流水线并行等方式分布式训练。
- 技术挑战:通信开销、负载均衡、梯度同步(如DeepSpeed、Megatron-LM框架)。
(重点)五、按任务类型分类
1. 计算机视觉(CV)模型
- 图像分类、目标检测、语义分割、图像生成、视频理解等。
- 代表模型:YOLO(目标检测)、Mask R-CNN(实例分割)、Stable Diffusion(图像生成)。
2. 自然语言处理(NLP)模型
- 文本分类、机器翻译、问答系统、文本生成等。
- 代表模型:BERT(双向编码)、GPT(自回归生成)、T5(文本到文本迁移学习)。
3. 语音处理模型
- 语音识别(ASR)、语音合成(TTS)、语音情感分析等。
- 代表模型:DeepSpeech(语音转文字)、Tacotron 2(文字转语音)。
4. 跨领域模型
- 多模态任务(如图文检索、视频描述生成),如ALBEF(视觉-语言预训练)、Flamingo(视频-语言模型)。
六、总结:分类维度的交叉与融合
实际应用中,模型可能属于多个分类维度的交叉领域,例如:
- Transformer:既属于“序列建模架构”(按数据类型),又属于“基于自注意力的架构”(按核心机制),还可用于“生成模型”(如GPT)或“判别模型”(如BERT)。
- ViT:属于“网格状数据架构”(处理图像),但核心机制是自注意力,而非卷积。
这种多维分类方式体现了深度学习领域的灵活性和跨领域特性,不同维度的分类帮助研究者和工程师从数据特性、任务目标、技术原理等角度选择或设计合适的模型。