【深度学习】深度学习概念
深度学习
- 深度学习概念
- 深度学习与机器学习的关系和差别
- 深度学习的特点
- 深度学习常见模型
- 深度学习的应用场景
深度学习概念
深度学习与机器学习的关系和差别
深度学习与机器学习的关系
深度学习是机器学习的一个分支,是“使用深层神经网络做机器学习”的方法。
层级关系可以这样理解:
人工智能(AI)
└── 机器学习(Machine Learning)└── 深度学习(Deep Learning)
机器学习是一个更宽泛的概念,只要是让机器“学习规律、做预测”的方法,都属于机器学习。而深度学习是其中一类——它专门用神经网络(特别是多层网络)来学习。
深度学习与机器学习的差别
- 模型结构区别
机器学习- 模型结构比较浅,通常只有几层计算;
- 常用算法如:线性回归、逻辑回归、SVM、随机森林、XGBoost、KNN 等。
深度学习 - 使用深层神经网络,通常包含数十、上百甚至上千层;
- 典型架构:CNN、RNN、LSTM、Transformer、GPT 等。
- 特征工程(Feature Engineering)
传统机器学习:严重依赖人工特征设计- 做图像分类时,需要人工提取 SIFT、HOG 等特征;
- 做 NLP 时,需要 TF-IDF、n-gram 等人工特征。
深度学习:自动学习特征 - 深度网络会直接从原始数据(如图像像素、语料文本)中学习到最优的表示(Representation),无需人工设计。
- 这就是为什么深度学习在大规模数据场景中更强。
- 数据需求量
机器学习- 对数据需求相对较少,几千、几万数据也可以训练出不错的模型。
- 适合结构化数据(如表格数据)。
深度学习 - 非常依赖大量数据,百万级甚至十亿级数据更常见;
- 数据越大性能越好,这就是现代 LLM 的基础。
- 计算资源
机器学习- CPU 通常足够;
- 可在普通电脑上快速训练。
深度学习 - 常常需要 GPU、TPU;
- 需要大量显存、长时间训练;
- 模型规模巨大,如 GPT-X、ViT、Diffusion Models 等。
- 表现能力(Representation Power)
机器学习- 更偏向线性或弱非线性模型;
- 在复杂任务上效果有限。
深度学习 - 具有强大的函数逼近能力;
- 能学习高度复杂的映射关系;
- 在视觉/NLP/语音等任务上实现了超越传统模型的能力。
深度学习的特点
自动特征学习(Representation Learning)
这是深度学习最核心的特点。
传统机器学习依赖人工特征:
- 图像任务:SIFT、HOG
- NLP:n-gram、TF-IDF
- 语音:MFCC
而深度学习可以:
直接从原始数据(像素、波形、文本)中自动学习最有用的特征。
例如:
- CNN 会在前几层自动学习边缘、纹理等基本特征;
- 中间层学习物体的局部结构;
- 高层学习语义层面的类别(如“猫耳朵”、“车轮”)。
这就是现在 CV 与 NLP 都从“人工特征”转向“自动特征学习”的原因。
端到端学习(End-to-End Learning)
深度学习可以让模型从输入到输出一步到位。
例如:
输入:图像
输出:类别
不需要:
- 提取特征
- 选择特征
- 合并手工步骤
整个过程由神经网络一体化完成,使得系统更加简单,更容易优化。
典型示例:
- 语音识别从“特征提取 + 声学模型 + 语言模型”等流水线 → 全部由 Transformer 端到端完成
- GPT 将 NLP 的各项任务统一为“预测下一个词”
非线性表示能力极强(Universal Approximation)
神经网络本质上是:
超强的非线性函数逼近器。
只要网络足够深、参数足够多,理论上可以逼近任意复杂映射:
- 图像到标签
- 文本到文本
- 音频到翻译
- 文本到图像(Diffusion)
- 图像到文本(Vision Transformer)
由于深度模型层数多、特征空间大,它可以捕捉高度复杂的模式和结构,让模型在 CV/NLP 任务上远超传统方法。
强大的可扩展性:越大越强(Scalability)
深度学习呈现出Scaling Law(扩展定律):
- 模型越大 → 性能越好
- 数据越多 → 泛化越强
- 训练越久 → 更鲁棒
这条规律在 GPT、ViT、Diffusion 模型中表现得特别明显。
今天的 AI 革命,本质上是大模型 + 大数据 + 大算力共同驱动的结果。
传统机器学习没有这个特性,模型扩大后容易过拟合或难以优化。
预训练 + 微调范式(Transfer Learning)
深度学习强大的原因之一是:
先在大数据上预训练 → 再微调到小样本任务。
例子:
- GPT 在海量文本上预训练
- 用少量数据微调为翻译、摘要、代码生成等任务
- ViT/ResNet 预训练后可迁移到各种图像任务
- CLIP 用图文对预训练并迁移到检索、分类等任务
这种能力让深度学习在现实应用中非常高效。
层次化特征学习(Hierarchical Features)
深度网络的不同层会学习不同层次的表示:
- 低层:边缘、纹理
- 中层:局部结构
- 高层:语义特征(人脸、物体、动作、情绪)
- 最高层:抽象概念、模式组合
这个多层结构,使得网络能够理解复杂的感知数据,不再需要人为设计特征。
多模态融合能力(Vision + Language + Audio)
深度学习天然适合多模态:
- Vision Transformer (ViT)
- CLIP(图文联合学习)
- GPT-4o / Gemini(图像 + 文本 + 音频 + 视频)
- Diffusion + Prompt → 文本生成图像
未来 AI 的发展方向正是多模态统一。
可微分架构 + 反向传播(Backpropagation)
深度学习能成功的原因之一是:
整个模型都是可微分的,从而可用梯度下降训练。
BP(反向传播)使得模型能在高维空间优化几十万到数千亿参数。这也是深度学习相比支持向量机、决策树等模型性能更高的重要原因。
对计算资源要求极高
深度学习的训练通常需要:
- GPU(NVIDIA A100、H100)
- TPU
- 大型集群
- 分布式训练
例如 GPT-4、Gemini、LLaMA 的训练需要成千上万张 GPU。传统机器学习可以用 CPU 训练,成本低得多。
不透明、可解释性较弱(Black-box)
深度学习的缺点之一是:
模型太复杂,难以解释其行为。
例如:
- 为什么网络判断某张图是猫?
- 为什么一个 prompt 会得到奇怪结果?
- LLM 如何决定生成某段文本?
可解释性研究是当前深度学习领域的重要方向。
深度学习常见模型
卷积神经网络(CNN)
循环神经网络(RNN)
自编码器(Autoencoder)
生成式模型(GAN、VAE、Diffusion)
Transformer
强化学习模型(RL)
图神经网络(GNN)
深度学习的应用场景
计算机视觉(CV)
深度学习彻底颠覆了视觉领域,CNN → Transformer 完全主导。
- 图像分类:识别猫狗、人脸、品牌、商品类别;应用于内容审核、相册分类等
- 目标检测(Object Detection):识别人/车/物体的位置框;场景:安防监控、自动驾驶、无人商店;典型模型:YOLO、Faster R-CNN、DETR(Transformer)
- 图像分割(Segmentation):医学图像分割(肿瘤边界);自动驾驶中的车道线、行人区域;遥感图像分割(土地分类)
- 人脸识别:手机解锁;人脸签到;安防监控
- 图像增强与恢复:超分辨率(提高图像清晰度);去噪、去模糊;老照片、老视频修复(如抖音修复功能)
- 视频分析:视频监控;行为识别(打架、摔倒检测);视频摘要与推荐
自然语言处理(NLP)
深度学习在 NLP 中几乎实现全面统治,特别是 Transformer 之后。
- 文本分类:垃圾邮件识别;情感分析;舆情监控
- 序列标注:命名实体识别(NER);分词、词性标注
- 问答系统(QA):智能客服;文档问答;搜索引擎问答
- 机器翻译:Google Translate;AI 实时同声传译
- 文本生成(LLM):聊天机器人(ChatGPT);文案生成;代码补全(GitHub Copilot);文档摘要
- 信息检索(Search):搜索排序(BERT 在搜索引擎中广泛应用);关键句抽取
语音与音频处理
深度学习让机器“听懂”和“说话”。
- 语音识别(ASR):Siri、智能音箱;会议转写
- 语音合成(TTS):AI 朗读;情感语音合成;拟人声音(如游戏角色语音生成)
- 声纹识别:声音解锁;远程身份验证
- 音频事件检测:枪声检测;婴儿哭声识别;工业噪声异常检测
多模态(图 + 文 + 语音 + 视频)
多模态是当前 AI 的前沿(GPT-4o、Gemini)。
- 图文理解:看图写文案;图像问答(VQA);图片内容审核
- 文生图(Text-to-Image):Stable Diffusion;Midjourney;DALL·E
- 视频生成:OpenAI Sora;文生视频、图生视频
- 图像搜索(以图搜图):商品识图;人脸检索
推荐系统
深度学习在推荐系统中已经是主流。
- 应用:电商推荐(淘宝、京东);视频推荐(抖音、YouTube);新闻推荐
- 典型方法:DeepFM、DIN、DIEN;图神经网络(商品关系建模);多模态推荐(图像 + 文本 + 用户行为)
自动驾驶与机器人
深度学习几乎是自动驾驶的“大脑”。
- 视觉感知:车道线检测;行人/车辆识别;交通标志识别
- 环境建模:3D 场景理解;激光雷达点云处理(PointNet、PointFormer)
- 决策规划(结合强化学习):路径规划;自动加速、刹车、变道
- 机器人控制:机械臂抓取;仓储机器人(京东、亚马逊);家用机器人(扫地机器人)
