当前位置: 首页 > news >正文

【深度学习基础】神经网络入门:从感知机到反向传播

摘要

神经网络是深度学习的核心!本文将带你从零开始理解神经网络的基本原理,包括感知机模型、激活函数选择、反向传播算法等核心概念,并通过Python实现一个简单的全连接神经网络。文末提供《神经网络公式推导手册》和实战项目资源包!

目录

目录

摘要

目录

一、神经网络基础概念

1.1 感知机模型

1.2 常用激活函数

二、前向传播与反向传播

2.1 前向传播过程

2.2 损失函数

2.3 反向传播算法

三、Python实现全连接神经网络

四、神经网络实战应用

4.1 异或问题求解

4.2 手写数字识别(MNIST)

五、神经网络优化技巧

5.1 超参数调优

5.2 防止过拟合

六、结语与资源

附录:进阶学习路线


一、神经网络基础概念

1.1 感知机模型

感知机是最简单的神经网络单元,其数学表达式为:


y = f(\sum_{i=1}^n w_i x_i + b)


其中:

  • x_i:输入特征

  • w_i:权重参数

  • b:偏置项

  • f:激活函数

1.2 常用激活函数

函数名称数学表达式特点
Sigmoid\sigma(x) = \frac{1}{1+e^{-x}}输出范围(0,1)
ReLUf(x) = max(0,x)计算简单,缓解梯度消失
Tanhtanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}输出范围(-1,1)

二、前向传播与反向传播

2.1 前向传播过程

对于L层神经网络,第l层的输出为:


a^{(l)} = f(z^{(l)}) = f(W^{(l)}a^{(l-1)} + b^{(l)})

2.2 损失函数

常用交叉熵损失函数:
J(W,b) = -\frac{1}{m}\sum_{i=1}^m [y^{(i)}\log(\hat{y}^{(i)}) + (1-y^{(i)})\log(1-\hat{y}^{(i)})]

2.3 反向传播算法

关键梯度计算公式:

  1. 输出层误差:
    \delta^{(L)} = \hat{y} - y

  2. 隐藏层误差:
    \delta^{(l)} = (W^{(l+1)})^T \delta^{(l+1)} \odot f'(z^{(l)})

  3. 参数梯度:
    \frac{\partial J}{\partial W^{(l)}} = \delta^{(l)}(a^{(l-1)})^T

  4. \frac{\partial J}{\partial b^{(l)}} = \delta^{(l)}

三、Python实现全连接神经网络

import numpy as np

class NeuralNetwork:
    def __init__(self, layers, learning_rate=0.01):
        self.layers = layers  # 网络结构,如[2,4,1]
        self.lr = learning_rate
        self.weights = []
        self.biases = []
        
        # 初始化参数
        for i in range(len(layers)-1):
            self.weights.append(np.random.randn(layers[i+1], layers[i]) * 0.1)
            self.biases.append(np.zeros((layers[i+1], 1)))
    
    def sigmoid(self, x):
        return 1 / (1 + np.exp(-x))
    
    def sigmoid_derivative(self, x):
        return x * (1 - x)
    
    def forward(self, X):
        self.activations = [X.T]
        self.z_values = []
        
        for w, b in zip(self.weights, self.biases):
            z = np.dot(w, self.activations[-1]) + b
            self.z_values.append(z)
            self.activations.append(self.sigmoid(z))
        
        return self.activations[-1]
    
    def backward(self, X, y):
        m = X.shape[0]
        y = y.reshape(-1, 1).T
        
        # 计算输出层误差
        delta = (self.activations[-1] - y) * self.sigmoid_derivative(self.activations[-1])
        
        # 反向传播
        for l in range(len(self.layers)-2, 0, -1):
            self.weights[l] -= self.lr * np.dot(delta, self.activations[l].T) / m
            self.biases[l] -= self.lr * np.sum(delta, axis=1, keepdims=True) / m
            delta = np.dot(self.weights[l].T, delta) * self.sigmoid_derivative(self.activations[l])
        
        # 更新第一层参数
        self.weights[0] -= self.lr * np.dot(delta, self.activations[0].T) / m
        self.biases[0] -= self.lr * np.sum(delta, axis=1, keepdims=True) / m
    
    def train(self, X, y, epochs):
        for epoch in range(epochs):
            output = self.forward(X)
            self.backward(X, y)
            if epoch % 100 == 0:
                loss = -np.mean(y * np.log(output) + (1-y) * np.log(1-output))
                print(f"Epoch {epoch}, Loss: {loss:.4f}")

四、神经网络实战应用

4.1 异或问题求解

# 准备数据
X = np.array([[0,0], [0,1], [1,0], [1,1]])
y = np.array([[0], [1], [1], [0]])

# 创建网络
nn = NeuralNetwork(layers=[2,4,1], learning_rate=0.1)

# 训练网络
nn.train(X, y, epochs=5000)

# 测试效果
print("Predictions:")
for x in X:
    print(f"{x} -> {nn.forward(x.reshape(1,-1))[0,0]:.3f}")
 

4.2 手写数字识别(MNIST)

from tensorflow.keras.datasets import mnist
from tensorflow.keras.utils import to_categorical

# 加载数据
(X_train, y_train), (X_test, y_test) = mnist.load_data()
X_train = X_train.reshape(-1, 784) / 255.0
X_test = X_test.reshape(-1, 784) / 255.0
y_train = to_categorical(y_train)
y_test = to_categorical(y_test)

# 创建更大的网络
mnist_nn = NeuralNetwork(layers=[784, 128, 64, 10], learning_rate=0.01)

# 训练(实际应用中建议使用深度学习框架)
# mnist_nn.train(X_train, y_train, epochs=10)
 

五、神经网络优化技巧

5.1 超参数调优

参数调优方法典型值
学习率学习率衰减0.1-0.0001
批量大小尝试不同批次32-256
网络深度逐步增加2-10层

5.2 防止过拟合

  • Dropout技术

  • L2正则化

  • 早停法(Early Stopping)

六、结语与资源

通过本文您已经掌握了:
🔹 神经网络基本原理 🔹 反向传播算法推导 🔹 Python实现简单神经网络


附录:进阶学习路线

  1. 卷积神经网络(CNN) - 图像处理

  2. 循环神经网络(RNN) - 时序数据处理

  3. 注意力机制 - Transformer模型基础

相关文章:

  • [python] reduce
  • 38.[前端开发-JavaScript高级]Day03-深入JS执行原理-作用域链-JS内存管理-闭包
  • 内网dns权威域名服务器搭建
  • 【力扣hot100题】(092)最长回文串
  • 颜色在线工具
  • 十九、UDP编程和IO多路复用
  • 基于vue框架的住院信息管理系统k08hv(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
  • 使用pybind11开发c++扩展模块输出到控制台的中文信息显示乱码的问题
  • Unity Internal-DeferredShading 分析
  • 深入解析ACID原理:数据库事务的四大基石
  • MySQL面试题及答案,2025最新整理
  • C语言-文件操作
  • 基于NCP1207的准谐振脉宽调制电源设计(01)
  • JS里对于集合的简单介绍
  • CFS 调度器两种调度类型普通调度 和 组调度
  • 2025蓝桥杯python A组题解
  • spring常见注解
  • VMware Fusion Pro/Player 在 macOS 上的完整安装与使用指南
  • SAP GUI 显示SAP UI5应用,并实现SSO统一登陆
  • 华为hcie证书的有效期怎么判断?
  • 汕头网站制作方法/中国疫情最新数据
  • 制作网站要步骤/seo关键词排名优
  • 宝鸡市城乡住房建设局网站/天津优化网络公司的建议
  • php如何自己做网站/南宁网站建设公司
  • wordpress需要身份验证/seo成功的案例和分析
  • 做奶茶吧店网站/百度推广运营专员