当前位置：首页 > news >正文

【深度学习】深度学习概念

news 2025/11/16 8:03:23

深度学习

深度学习概念
- 深度学习与机器学习的关系和差别
- 深度学习的特点
- 深度学习常见模型
- 深度学习的应用场景

深度学习概念

深度学习与机器学习的关系和差别

深度学习与机器学习的关系

深度学习是机器学习的一个分支，是“使用深层神经网络做机器学习”的方法。

层级关系可以这样理解：

人工智能（AI）
└── 机器学习（Machine Learning）└── 深度学习（Deep Learning）

机器学习是一个更宽泛的概念，只要是让机器“学习规律、做预测”的方法，都属于机器学习。而深度学习是其中一类——它专门用神经网络（特别是多层网络）来学习。

深度学习与机器学习的差别

模型结构区别
机器学习
- 模型结构比较浅，通常只有几层计算；
- 常用算法如：线性回归、逻辑回归、SVM、随机森林、XGBoost、KNN 等。
  深度学习
- 使用深层神经网络，通常包含数十、上百甚至上千层；
- 典型架构：CNN、RNN、LSTM、Transformer、GPT 等。
特征工程（Feature Engineering）
传统机器学习：严重依赖人工特征设计
- 做图像分类时，需要人工提取 SIFT、HOG 等特征；
- 做 NLP 时，需要 TF-IDF、n-gram 等人工特征。
  深度学习：自动学习特征
- 深度网络会直接从原始数据（如图像像素、语料文本）中学习到最优的表示（Representation），无需人工设计。
- 这就是为什么深度学习在大规模数据场景中更强。
数据需求量
机器学习
- 对数据需求相对较少，几千、几万数据也可以训练出不错的模型。
- 适合结构化数据（如表格数据）。
  深度学习
- 非常依赖大量数据，百万级甚至十亿级数据更常见；
- 数据越大性能越好，这就是现代 LLM 的基础。
计算资源
机器学习
- CPU 通常足够；
- 可在普通电脑上快速训练。
  深度学习
- 常常需要 GPU、TPU；
- 需要大量显存、长时间训练；
- 模型规模巨大，如 GPT-X、ViT、Diffusion Models 等。
表现能力（Representation Power）
机器学习
- 更偏向线性或弱非线性模型；
- 在复杂任务上效果有限。
  深度学习
- 具有强大的函数逼近能力；
- 能学习高度复杂的映射关系；
- 在视觉/NLP/语音等任务上实现了超越传统模型的能力。

深度学习的特点

自动特征学习（Representation Learning）

这是深度学习最核心的特点。

传统机器学习依赖人工特征：

图像任务：SIFT、HOG
NLP：n-gram、TF-IDF
语音：MFCC

而深度学习可以：

直接从原始数据（像素、波形、文本）中自动学习最有用的特征。

例如：

CNN 会在前几层自动学习边缘、纹理等基本特征；
中间层学习物体的局部结构；
高层学习语义层面的类别（如“猫耳朵”、“车轮”）。

这就是现在 CV 与 NLP 都从“人工特征”转向“自动特征学习”的原因。

端到端学习（End-to-End Learning）

深度学习可以让模型从输入到输出一步到位。

例如：

输入：图像  
输出：类别

不需要：

提取特征
选择特征
合并手工步骤

整个过程由神经网络一体化完成，使得系统更加简单，更容易优化。

典型示例：

语音识别从“特征提取 + 声学模型 + 语言模型”等流水线 → 全部由 Transformer 端到端完成
GPT 将 NLP 的各项任务统一为“预测下一个词”

非线性表示能力极强（Universal Approximation）

神经网络本质上是：

超强的非线性函数逼近器。

只要网络足够深、参数足够多，理论上可以逼近任意复杂映射：

图像到标签
文本到文本
音频到翻译
文本到图像（Diffusion）
图像到文本（Vision Transformer）

由于深度模型层数多、特征空间大，它可以捕捉高度复杂的模式和结构，让模型在 CV/NLP 任务上远超传统方法。

强大的可扩展性：越大越强（Scalability）

深度学习呈现出Scaling Law（扩展定律）：

模型越大 → 性能越好
数据越多 → 泛化越强
训练越久 → 更鲁棒

这条规律在 GPT、ViT、Diffusion 模型中表现得特别明显。

今天的 AI 革命，本质上是大模型 + 大数据 + 大算力共同驱动的结果。

传统机器学习没有这个特性，模型扩大后容易过拟合或难以优化。

预训练 + 微调范式（Transfer Learning）

深度学习强大的原因之一是：

先在大数据上预训练 → 再微调到小样本任务。

例子：

GPT 在海量文本上预训练
用少量数据微调为翻译、摘要、代码生成等任务
ViT/ResNet 预训练后可迁移到各种图像任务
CLIP 用图文对预训练并迁移到检索、分类等任务

这种能力让深度学习在现实应用中非常高效。

层次化特征学习（Hierarchical Features）

深度网络的不同层会学习不同层次的表示：

低层：边缘、纹理
中层：局部结构
高层：语义特征（人脸、物体、动作、情绪）
最高层：抽象概念、模式组合

这个多层结构，使得网络能够理解复杂的感知数据，不再需要人为设计特征。

多模态融合能力（Vision + Language + Audio）

深度学习天然适合多模态：

Vision Transformer (ViT)
CLIP（图文联合学习）
GPT-4o / Gemini（图像 + 文本 + 音频 + 视频）
Diffusion + Prompt → 文本生成图像

未来 AI 的发展方向正是多模态统一。

可微分架构 + 反向传播（Backpropagation）

深度学习能成功的原因之一是：

整个模型都是可微分的，从而可用梯度下降训练。

BP（反向传播）使得模型能在高维空间优化几十万到数千亿参数。这也是深度学习相比支持向量机、决策树等模型性能更高的重要原因。

对计算资源要求极高

深度学习的训练通常需要：

GPU（NVIDIA A100、H100）
TPU
大型集群
分布式训练

例如 GPT-4、Gemini、LLaMA 的训练需要成千上万张 GPU。传统机器学习可以用 CPU 训练，成本低得多。

不透明、可解释性较弱（Black-box）

深度学习的缺点之一是：

模型太复杂，难以解释其行为。

例如：

为什么网络判断某张图是猫？
为什么一个 prompt 会得到奇怪结果？
LLM 如何决定生成某段文本？

可解释性研究是当前深度学习领域的重要方向。

深度学习常见模型

卷积神经网络（CNN）

循环神经网络（RNN）

自编码器（Autoencoder）

生成式模型（GAN、VAE、Diffusion）

Transformer

强化学习模型（RL）

图神经网络（GNN）

深度学习的应用场景

计算机视觉（CV）

深度学习彻底颠覆了视觉领域，CNN → Transformer 完全主导。

图像分类：识别猫狗、人脸、品牌、商品类别；应用于内容审核、相册分类等
目标检测（Object Detection）：识别人/车/物体的位置框；场景：安防监控、自动驾驶、无人商店；典型模型：YOLO、Faster R-CNN、DETR（Transformer）
图像分割（Segmentation）：医学图像分割（肿瘤边界）；自动驾驶中的车道线、行人区域；遥感图像分割（土地分类）
人脸识别：手机解锁；人脸签到；安防监控
图像增强与恢复：超分辨率（提高图像清晰度）；去噪、去模糊；老照片、老视频修复（如抖音修复功能）
视频分析：视频监控；行为识别（打架、摔倒检测）；视频摘要与推荐

自然语言处理（NLP）

深度学习在 NLP 中几乎实现全面统治，特别是 Transformer 之后。