当前位置: 首页 > news >正文

深度学习-分类

深度学习-分类方式

      • (重点)一、按数据类型与处理逻辑分类
        • 1. 序列数据(时序/顺序相关)
        • 2. 网格状数据(空间相关)
        • 3. 图结构数据(非欧几里得结构)
        • 4. 其他特殊类型数据
      • (重点)二、按模型功能与应用场景分类
        • 1. 判别模型(分类/回归)
        • 2. 生成模型
        • 3. 强化学习模型
        • 4. 无监督/自监督模型
      • 三、按网络结构与核心机制分类
        • 1. 基于卷积的架构
        • 2. 基于循环的架构
        • 3. 基于自注意力的架构
        • 4. 基于胶囊的架构
      • 四、按网络规模与训练方式分类
        • 1. 小型轻量级模型
        • 2. 大型预训练模型(大模型)
        • 3. 分布式训练模型
      • (重点)五、按任务类型分类
        • 1. 计算机视觉(CV)模型
        • 2. 自然语言处理(NLP)模型
        • 3. 语音处理模型
        • 4. 跨领域模型
      • 六、总结:分类维度的交叉与融合

深度学习架构
├── 序列建模架构
│   ├── 基础RNN
│   ├── 改进型RNN(LSTM、GRU、Bi-RNN)
│   └── 自注意力模型(Transformer)
├── 空间特征架构(CNN及变种)
├── 图结构架构(GNN)
├── 生成模型(GAN、VAE、扩散模型)
└── 强化学习架构(DQN、Actor-Critic)
  • RNN是序列建模的核心基础,LSTM/GRU等是其优化版本,而Transformer则是序列建模的革命性突破(通过自注意力机制替代循环结构)

  • 在深度学习领域,按数据类型与处理逻辑分类是最常见、最基础的分类方式之一,因为它直接关联数据的固有特性和模型的核心设计逻辑,也是初学者入门时最先接触的分类框架。


(重点)一、按数据类型与处理逻辑分类

1. 序列数据(时序/顺序相关)
  • 特点:数据元素之间存在时间或顺序依赖(如文本、语音、股票价格)。

  • 代表模型

    • 循环神经网络(RNN):基础RNN、LSTM、GRU、Bi-RNN。
    • 自注意力模型:Transformer及其变体(BERT、GPT、T5等)。
    • 时序卷积网络(TCN):用一维卷积处理序列数据,避免RNN的循环计算瓶颈。
2. 网格状数据(空间相关)
  • 特点:数据具有二维(图像)或三维(视频、体素)空间结构。

  • 代表模型

    • 卷积神经网络(CNN):LeNet、AlexNet、ResNet、U-Net。
    • 视觉Transformer(ViT):将图像分块后用自注意力机制处理。
    • 三维卷积网络(3D CNN):用于视频动作识别或医学影像分析。
3. 图结构数据(非欧几里得结构)
  • 特点:数据由节点和边组成(如社交网络、分子结构、知识图谱)。

  • 代表模型

    • 图神经网络(GNN):GCN(图卷积网络)、GAT(图注意力网络)、GraphSAGE。
    • 图循环神经网络(GRNN):结合RNN和图结构的时序建模。
4. 其他特殊类型数据
  • 图序列数据:如交通网络的时序流量数据(需同时建模空间图结构和时间序列),可使用时空图神经网络(ST-GNN)
  • 多模态数据:融合图像、文本、语音等多种类型数据,如CLIP(图像-文本跨模态模型)、AudioGPT(语音-文本模型)。

(重点)二、按模型功能与应用场景分类

领域判别式 AI(深度学习应用)生成式 AI(深度学习应用)
自然语言处理文本分类(BERT)、语音识别(RNN)文本生成(GPT)、机器翻译(Transformer)
计算机视觉目标检测(YOLO)、人脸识别(CNN)图像生成(Diffusion 模型)、视频预测
医疗领域癌症病理图像分类(CNN)医学影像合成(VAE)、药物分子设计(GAN)
自动驾驶路况识别(CNN+RNN)虚拟场景生成(模拟复杂路况,训练自动驾驶模型)
1. 判别模型(分类/回归)
  • 目标:对输入数据进行分类或预测连续值。

  • 代表模型

    • 图像分类:ResNet、EfficientNet。
    • 文本分类:TextCNN、FastText。
    • 回归任务:基于CNN的图像超分辨率模型、基于RNN的时序预测模型。
2. 生成模型
  • 目标:生成新的样本数据(如图像、文本、语音)。

  • 代表模型

    • 图像生成:GAN(如StyleGAN)、扩散模型(如Stable Diffusion)。
    • 文本生成:GPT系列、LLaMA、PaLM。
    • 语音生成:WaveNet、Tacotron(语音合成)。
3. 强化学习模型
  • 目标:通过与环境交互学习最优行为策略。

  • 代表模型

    • Atari游戏AI:DQN(深度Q网络)、Rainbow DQN。
    • 机器人控制:PPO(近端策略优化)、SAC(软演员-评论家算法)。
    • 棋类游戏:AlphaGo(CNN+蒙特卡洛树搜索)、AlphaZero(纯神经网络+强化学习)。
4. 无监督/自监督模型
  • 目标:从无标签数据中学习特征表示。

  • 代表模型

    • 图像特征学习:SimCLR(对比学习)、MoCo(动量对比)。
    • 文本预训练:BERT(掩码语言模型)、GPT(自回归语言模型)。
    • 聚类模型:DeepCluster、DEC(深度嵌入聚类)。

三、按网络结构与核心机制分类

1. 基于卷积的架构
  • 核心操作:卷积层(局部特征提取)+ 池化层(降维)。
  • 应用场景:图像、音频等网格状数据。
  • 变种:空洞卷积、可变形卷积、分组卷积(如ResNeXt)。
2. 基于循环的架构
  • 核心操作:隐藏层状态循环传递,捕捉序列依赖。
  • 应用场景:文本、语音等序列数据。
  • 变种:LSTM、GRU、双向RNN。
3. 基于自注意力的架构
  • 核心操作:自注意力机制(全局依赖建模)。
  • 应用场景:序列数据(NLP)、图像/视频(CV)。
  • 代表模型:Transformer、ViT、Swin Transformer。
4. 基于胶囊的架构
  • 核心思想:用“胶囊”(向量神经元)替代传统标量神经元,建模实体的姿态、位置等空间关系。
  • 代表模型:CapsNet(胶囊网络),用于图像识别中的姿态不变性建模。

四、按网络规模与训练方式分类

1. 小型轻量级模型
  • 特点:参数量少、计算效率高,适合边缘设备或实时应用。
  • 代表模型:MobileNet(深度可分离卷积)、ShuffleNet(通道洗牌降参)、TinyBERT(模型蒸馏)。
2. 大型预训练模型(大模型)
  • 特点:参数量巨大(数十亿到万亿级),在海量数据上预训练后微调。

  • 代表模型

    • NLP:GPT-4(1.8万亿参数)、PaLM 2、LLaMA 2。
    • CV:Swin Transformer V2、CLIP(40亿参数)。
    • 多模态:GPT-4V(视觉-语言)、Gemini(文本-图像-语音)。
3. 分布式训练模型
  • 特点:单卡无法容纳模型参数,需通过数据并行、模型并行、流水线并行等方式分布式训练。
  • 技术挑战:通信开销、负载均衡、梯度同步(如DeepSpeed、Megatron-LM框架)。

(重点)五、按任务类型分类

1. 计算机视觉(CV)模型
  • 图像分类、目标检测、语义分割、图像生成、视频理解等。
  • 代表模型:YOLO(目标检测)、Mask R-CNN(实例分割)、Stable Diffusion(图像生成)。
2. 自然语言处理(NLP)模型
  • 文本分类、机器翻译、问答系统、文本生成等。
  • 代表模型:BERT(双向编码)、GPT(自回归生成)、T5(文本到文本迁移学习)。
3. 语音处理模型
  • 语音识别(ASR)、语音合成(TTS)、语音情感分析等。
  • 代表模型:DeepSpeech(语音转文字)、Tacotron 2(文字转语音)。
4. 跨领域模型
  • 多模态任务(如图文检索、视频描述生成),如ALBEF(视觉-语言预训练)、Flamingo(视频-语言模型)。

六、总结:分类维度的交叉与融合

实际应用中,模型可能属于多个分类维度的交叉领域,例如:

  • Transformer:既属于“序列建模架构”(按数据类型),又属于“基于自注意力的架构”(按核心机制),还可用于“生成模型”(如GPT)或“判别模型”(如BERT)。
  • ViT:属于“网格状数据架构”(处理图像),但核心机制是自注意力,而非卷积。

这种多维分类方式体现了深度学习领域的灵活性和跨领域特性,不同维度的分类帮助研究者和工程师从数据特性、任务目标、技术原理等角度选择或设计合适的模型。

相关文章:

  • Sensodrive SensoJoint机器人力控关节模组抗振动+Sensodrive力反馈系统精准对接
  • web3 docs
  • 力扣第73题-矩阵置零
  • Java面向对象(一)
  • 对话式数据分析与Text2SQL Agent产品可行性分析思考
  • Python 数据分析:numpy,抽提,整数数组索引
  • 从单体架构到微服务:微服务架构演进与实践
  • 如何解决电脑windows蓝屏问题
  • 叉车考试真题(含答案)pdf下载
  • Rust宏和普通函数的区别
  • 心理测评app在线预约系统框架设计
  • 【HarmonyOS Next之旅】DevEco Studio使用指南(三十八) -> 构建HAR
  • ByteMD+CozeAPI+Coze平台Agent+Next搭建AI辅助博客撰写平台(逻辑清楚,推荐!)
  • 如何修改discuz文章标题字数限制 修改成255
  • Spring MVC参数解析:深入剖析415异常与@RequestBody处理机制问题场景
  • 创客匠人:创始人 IP 打造引领知识变现新路径​
  • 【HarmonyOS NEXT】跳转到华为应用市场进行应用下载并更新
  • Cesium快速入门到精通系列教程十一:Cesium1.74中高性能渲染上万Polyline
  • TDengine 如何打破工业实时数据库势力边界?
  • Redis高级数据结构深度解析:BitMap、布隆过滤器、HyperLogLog与Geo应用实践