当前位置: 首页 > news >正文

【深度学习笔记】2 浅层神经网络

浅层神经网络是指 隐藏层较少(通常为0-2层) 的神经网络,是深度学习发展早期的经典结构。与之相对的是“深层神经网络”(Deep Neural Network,DNN),后者通常包含多个隐藏层(如10层、100层甚至更多)。


1. 典型结构

浅层神经网络主要包括以下两种形式:

  1. 无隐藏层:仅输入层直接连接输出层(本质是线性模型或广义线性模型)。

    • 例如:逻辑回归(Logistic Regression)、感知机(Perceptron)。
    • 数学形式:输出 = f(W·X + b),其中 f 是激活函数(如Sigmoid)。
  2. 单隐藏层:输入层 → 1个隐藏层 → 输出层。

    • 例如:单隐层前馈网络(Single Hidden Layer Feedforward Network)。
    • 数学形式:
      隐藏层输出 H = f1(W1·X + b1)  
      最终输出 Y = f2(W2·H + b2)
      
      • f1f2 为激活函数(如ReLU、Sigmoid)。

2. 核心特点

  • 表达能力有限
    浅层网络可以逼近任意连续函数(根据通用近似定理,Universal Approximation Theorem),但需要大量隐藏层神经元,且难以高效学习复杂特征。
  • 训练简单
    参数较少,计算量小,不易过拟合,适合小规模数据集。
  • 可解释性较强
    权重和特征的关系相对直接(深层网络的抽象特征难以解释)。

3. 与深层神经网络的对比

特性浅层神经网络深层神经网络
隐藏层数0-2层≥3层(通常远多于3层)
特征抽象能力只能学习简单特征通过多层堆叠学习层次化特征
数据需求小规模数据即可训练需要大规模数据避免过拟合
计算复杂度高(依赖GPU等硬件加速)
典型应用线性可分问题、简单分类/回归图像识别、自然语言处理等复杂任务

4. 经典浅层神经网络示例

(1) 感知机(Perceptron)
  • 结构:输入层 → 输出层(无隐藏层)。
  • 激活函数:阶跃函数(Step Function)。
  • 局限:只能解决线性可分问题(如AND、OR运算),无法处理XOR等非线性问题。
(2) 单隐层前馈网络
  • 结构:输入层 → 1个隐藏层(含多个神经元)→ 输出层。
  • 激活函数:Sigmoid、Tanh、ReLU等。
  • 能力:可拟合任意连续函数(但需要足够多的隐藏神经元)。

5. 为什么需要深层网络?

尽管浅层网络理论上是“万能近似器”,但在实践中存在以下问题:

  • 效率低下
    学习复杂函数需要指数级增长的神经元数量(例如用浅层网络拟合图像特征会极其低效)。
  • 特征泛化差
    深层网络通过分层抽象(如边缘→纹理→物体部件→整体物体),能更高效地捕捉数据的层次化结构。

关键结论
浅层网络适合简单任务或计算资源受限的场景,而深层网络在复杂任务(如计算机视觉、自然语言处理)中表现更优。


6. 代码示例(单隐层网络)

以下是一个用PyTorch实现的单隐藏层神经网络(二分类任务):

import torch
import torch.nn as nnclass ShallowNN(nn.Module):def __init__(self, input_size, hidden_size):super().__init__()self.layer1 = nn.Linear(input_size, hidden_size)  # 隐藏层self.output = nn.Linear(hidden_size, 1)           # 输出层self.activation = nn.ReLU()                       # 激活函数def forward(self, x):x = self.activation(self.layer1(x))  # 隐藏层计算x = torch.sigmoid(self.output(x))    # 输出层Sigmoidreturn x# 示例:输入特征维度=10,隐藏层神经元=50
model = ShallowNN(input_size=10, hidden_size=50)

总结

  • 浅层神经网络:结构简单,隐藏层≤2层,适合解决线性或简单非线性问题。
  • 深层神经网络:通过多层非线性变换学习高级特征,适合复杂任务。
  • 选择依据:根据任务复杂度、数据量和计算资源权衡。
http://www.dtcms.com/a/279531.html

相关文章:

  • 【Golang】GORM - GEN工具 快速开始
  • Go迭代器完全指南:从基础到实战
  • MYOJ_8512:CSP初赛题单1:计算机常识
  • Unsloth 实战:DeepSeek-R1 模型高效微调指南(下篇)
  • ECUs、ZCUs、CCUs:产生的软件栈(SW stack)也有所不同
  • C++-linux 7.文件IO(三)文件元数据与 C 标准库文件操作
  • 七彩喜平台:养老行业的 “智慧革命”,老年人的 “幸福驿站”
  • 网络安全|网络准入控制系统有哪些?网络准入控制系统十大解决方案详解
  • winfom自定义一个椭圆按钮
  • Codex,Copilot 是什么
  • 艺术总监的构图“再造术”:用PS生成式AI,重塑照片叙事框架
  • Vim库函数
  • NE综合实验2:RIP 与 OSPF 动态路由精细配置及ACL访问控制列表
  • pycharm连接远程终端的Anaconda安装与bug记录
  • 洛谷【数学 1】基础数学问题:最小公倍数的计算与应用
  • ELK、Loki、Kafka 三种日志告警联动方案全解析(附实战 Demo)
  • mysql 与redis缓存一致性,延时双删 和先更新数据库,再删除缓存,哪个方案好
  • 系统思考:跨境跨界团队学习
  • 安装Keycloak并启动服务(macOS)
  • SpringMVC4
  • 用基础模型构建应用(第九章)AI Engineering: Building Applications with Foundation Models学习笔记
  • mac安装nvm执行命令报错-解决方案
  • 延迟双删
  • redis面试高频问题汇总(一)
  • 中间件部署
  • Android 16k jni修改
  • 进阶03 二叉树进阶
  • Linux ACL权限策略
  • The Network Link Layer: WSNs 泛洪和DSR动态源路由协议
  • 《星盘接口3:虚无之眼的觉醒》