当前位置: 首页 > news >正文

【深度学习】深度学习概念

深度学习

  • 深度学习概念
    • 深度学习与机器学习的关系和差别
    • 深度学习的特点
    • 深度学习常见模型
    • 深度学习的应用场景

深度学习概念

深度学习与机器学习的关系和差别

深度学习与机器学习的关系

深度学习是机器学习的一个分支,是“使用深层神经网络做机器学习”的方法。

层级关系可以这样理解:

人工智能(AI)
└── 机器学习(Machine Learning)└── 深度学习(Deep Learning)

机器学习是一个更宽泛的概念,只要是让机器“学习规律、做预测”的方法,都属于机器学习。而深度学习是其中一类——它专门用神经网络(特别是多层网络)来学习。

深度学习与机器学习的差别

  1. 模型结构区别
    机器学习
    • 模型结构比较浅,通常只有几层计算;
    • 常用算法如:线性回归、逻辑回归、SVM、随机森林、XGBoost、KNN 等。
      深度学习
    • 使用深层神经网络,通常包含数十、上百甚至上千层;
    • 典型架构:CNN、RNN、LSTM、Transformer、GPT 等。
  2. 特征工程(Feature Engineering)
    传统机器学习:严重依赖人工特征设计
    • 做图像分类时,需要人工提取 SIFT、HOG 等特征;
    • 做 NLP 时,需要 TF-IDF、n-gram 等人工特征。
      深度学习:自动学习特征
    • 深度网络会直接从原始数据(如图像像素、语料文本)中学习到最优的表示(Representation),无需人工设计。
    • 这就是为什么深度学习在大规模数据场景中更强。
  3. 数据需求量
    机器学习
    • 对数据需求相对较少,几千、几万数据也可以训练出不错的模型。
    • 适合结构化数据(如表格数据)。
      深度学习
    • 非常依赖大量数据,百万级甚至十亿级数据更常见;
    • 数据越大性能越好,这就是现代 LLM 的基础。
  4. 计算资源
    机器学习
    • CPU 通常足够;
    • 可在普通电脑上快速训练。
      深度学习
    • 常常需要 GPU、TPU;
    • 需要大量显存、长时间训练;
    • 模型规模巨大,如 GPT-X、ViT、Diffusion Models 等。
  5. 表现能力(Representation Power)
    机器学习
    • 更偏向线性或弱非线性模型;
    • 在复杂任务上效果有限。
      深度学习
    • 具有强大的函数逼近能力
    • 能学习高度复杂的映射关系;
    • 在视觉/NLP/语音等任务上实现了超越传统模型的能力。

深度学习的特点

自动特征学习(Representation Learning)

这是深度学习最核心的特点。

传统机器学习依赖人工特征:

  • 图像任务:SIFT、HOG
  • NLP:n-gram、TF-IDF
  • 语音:MFCC

而深度学习可以:

直接从原始数据(像素、波形、文本)中自动学习最有用的特征。

例如:

  • CNN 会在前几层自动学习边缘、纹理等基本特征;
  • 中间层学习物体的局部结构;
  • 高层学习语义层面的类别(如“猫耳朵”、“车轮”)。

这就是现在 CV 与 NLP 都从“人工特征”转向“自动特征学习”的原因。

端到端学习(End-to-End Learning)

深度学习可以让模型从输入到输出一步到位

例如:

输入:图像  
输出:类别

不需要:

  • 提取特征
  • 选择特征
  • 合并手工步骤

整个过程由神经网络一体化完成,使得系统更加简单,更容易优化。

典型示例:

  • 语音识别从“特征提取 + 声学模型 + 语言模型”等流水线 → 全部由 Transformer 端到端完成
  • GPT 将 NLP 的各项任务统一为“预测下一个词”

非线性表示能力极强(Universal Approximation)

神经网络本质上是:

超强的非线性函数逼近器。

只要网络足够深、参数足够多,理论上可以逼近任意复杂映射:

  • 图像到标签
  • 文本到文本
  • 音频到翻译
  • 文本到图像(Diffusion)
  • 图像到文本(Vision Transformer)

由于深度模型层数多、特征空间大,它可以捕捉高度复杂的模式和结构,让模型在 CV/NLP 任务上远超传统方法。

强大的可扩展性:越大越强(Scalability)

深度学习呈现出Scaling Law(扩展定律)

  • 模型越大 → 性能越好
  • 数据越多 → 泛化越强
  • 训练越久 → 更鲁棒

这条规律在 GPT、ViT、Diffusion 模型中表现得特别明显。

今天的 AI 革命,本质上是大模型 + 大数据 + 大算力共同驱动的结果。

传统机器学习没有这个特性,模型扩大后容易过拟合或难以优化。

预训练 + 微调范式(Transfer Learning)

深度学习强大的原因之一是:

先在大数据上预训练 → 再微调到小样本任务。

例子:

  • GPT 在海量文本上预训练
  • 用少量数据微调为翻译、摘要、代码生成等任务
  • ViT/ResNet 预训练后可迁移到各种图像任务
  • CLIP 用图文对预训练并迁移到检索、分类等任务

这种能力让深度学习在现实应用中非常高效。

层次化特征学习(Hierarchical Features)

深度网络的不同层会学习不同层次的表示:

  • 低层:边缘、纹理
  • 中层:局部结构
  • 高层:语义特征(人脸、物体、动作、情绪)
  • 最高层:抽象概念、模式组合

这个多层结构,使得网络能够理解复杂的感知数据,不再需要人为设计特征。

多模态融合能力(Vision + Language + Audio)

深度学习天然适合多模态:

  • Vision Transformer (ViT)
  • CLIP(图文联合学习)
  • GPT-4o / Gemini(图像 + 文本 + 音频 + 视频)
  • Diffusion + Prompt → 文本生成图像

未来 AI 的发展方向正是多模态统一。

可微分架构 + 反向传播(Backpropagation)

深度学习能成功的原因之一是:

整个模型都是可微分的,从而可用梯度下降训练。

BP(反向传播)使得模型能在高维空间优化几十万到数千亿参数。这也是深度学习相比支持向量机、决策树等模型性能更高的重要原因。

对计算资源要求极高

深度学习的训练通常需要:

  • GPU(NVIDIA A100、H100)
  • TPU
  • 大型集群
  • 分布式训练

例如 GPT-4、Gemini、LLaMA 的训练需要成千上万张 GPU。传统机器学习可以用 CPU 训练,成本低得多。

不透明、可解释性较弱(Black-box)

深度学习的缺点之一是:

模型太复杂,难以解释其行为。

例如:

  • 为什么网络判断某张图是猫?
  • 为什么一个 prompt 会得到奇怪结果?
  • LLM 如何决定生成某段文本?

可解释性研究是当前深度学习领域的重要方向。

深度学习常见模型

卷积神经网络(CNN)

循环神经网络(RNN)

自编码器(Autoencoder)

生成式模型(GAN、VAE、Diffusion)

Transformer

强化学习模型(RL)

图神经网络(GNN)

深度学习的应用场景

计算机视觉(CV)

深度学习彻底颠覆了视觉领域,CNN → Transformer 完全主导。

  • 图像分类:识别猫狗、人脸、品牌、商品类别;应用于内容审核、相册分类等
  • 目标检测(Object Detection):识别人/车/物体的位置框;场景:安防监控、自动驾驶、无人商店;典型模型:YOLO、Faster R-CNN、DETR(Transformer)
  • 图像分割(Segmentation):医学图像分割(肿瘤边界);自动驾驶中的车道线、行人区域;遥感图像分割(土地分类)
  • 人脸识别:手机解锁;人脸签到;安防监控
  • 图像增强与恢复:超分辨率(提高图像清晰度);去噪、去模糊;老照片、老视频修复(如抖音修复功能)
  • 视频分析:视频监控;行为识别(打架、摔倒检测);视频摘要与推荐

自然语言处理(NLP)

深度学习在 NLP 中几乎实现全面统治,特别是 Transformer 之后。

  • 文本分类:垃圾邮件识别;情感分析;舆情监控
  • 序列标注:命名实体识别(NER);分词、词性标注
  • 问答系统(QA):智能客服;文档问答;搜索引擎问答
  • 机器翻译:Google Translate;AI 实时同声传译
  • 文本生成(LLM):聊天机器人(ChatGPT);文案生成;代码补全(GitHub Copilot);文档摘要
  • 信息检索(Search):搜索排序(BERT 在搜索引擎中广泛应用);关键句抽取

语音与音频处理

深度学习让机器“听懂”和“说话”。

  • 语音识别(ASR):Siri、智能音箱;会议转写
  • 语音合成(TTS):AI 朗读;情感语音合成;拟人声音(如游戏角色语音生成)
  • 声纹识别:声音解锁;远程身份验证
  • 音频事件检测:枪声检测;婴儿哭声识别;工业噪声异常检测

多模态(图 + 文 + 语音 + 视频)

多模态是当前 AI 的前沿(GPT-4o、Gemini)。

  • 图文理解:看图写文案;图像问答(VQA);图片内容审核
  • 文生图(Text-to-Image):Stable Diffusion;Midjourney;DALL·E
  • 视频生成:OpenAI Sora;文生视频、图生视频
  • 图像搜索(以图搜图):商品识图;人脸检索

推荐系统

深度学习在推荐系统中已经是主流。

  • 应用:电商推荐(淘宝、京东);视频推荐(抖音、YouTube);新闻推荐
  • 典型方法:DeepFM、DIN、DIEN;图神经网络(商品关系建模);多模态推荐(图像 + 文本 + 用户行为)

自动驾驶与机器人

深度学习几乎是自动驾驶的“大脑”。

  • 视觉感知:车道线检测;行人/车辆识别;交通标志识别
  • 环境建模:3D 场景理解;激光雷达点云处理(PointNet、PointFormer)
  • 决策规划(结合强化学习):路径规划;自动加速、刹车、变道
  • 机器人控制:机械臂抓取;仓储机器人(京东、亚马逊);家用机器人(扫地机器人)
http://www.dtcms.com/a/614285.html

相关文章:

  • 大连建设执业资格注册中心网站互联网项目推广
  • 源码交易网站源码怎么在网站做系统
  • 前端性能预算工具,控制资源大小
  • 海丰网站制作一个网站能放多少关键词
  • 计算机网络复习日报19
  • 【C++】10.用哈希表封装myunordered_map和myunordered_set
  • 黄陂建设网站做网站搞流量挂联盟广告变现
  • JSP Session
  • 鸿安建设集团网站百度免费建立网站
  • 【学习心得】conda打包进行环境迁移遇到conda包和pip包管理冲突问题
  • 做网站需要写配置文件吗教研网站建设方案
  • 51c视觉~合集52
  • 免费的虚拟现实开发教程,WebXR
  • linux下libcurl的https简单例子
  • 网站建立的意义建立网站可以赚钱吗?
  • 全连接层详解:从原理到应用的全面解析
  • Docker-Dockerfile 完全指南:编写最佳实践的镜像
  • 百度智能云建站广州地址设计网站
  • macOS系统中使用clang/clang++编译Skia源码的方法
  • 建设银行的网站怎么打开桂林建网站哪家好
  • 在线教育网站策划方案苏州做网站最好公司有哪些
  • 网站制作需要网站制作wordpress内容付费模板
  • OpenCV(二十六):高斯滤波
  • LeetCode Hot100 接雨水
  • C#22、什么是IEnumerable
  • 网站建立数据库手机ftp传网站文件在哪里
  • Flume Kafka源与汇的topic覆盖问题解决
  • 基于卷积神经网络的手写数字识别
  • 旅游网站建设ppt模板下载宁国新站seo
  • 助贷获客系统哈尔滨网站推广优化公司