当前位置：首页 > news >正文

简单神经网络（ANN）实现：从零开始构建第一个模型

news 2025/7/4 15:47:52

本文将手把手带你用 Python + Numpy 实现一个最基础的人工神经网络（Artificial Neural Network, ANN）。不依赖任何深度学习框架，适合入门理解神经网络的本质。

一、项目目标

构建一个三层神经网络（输入层、隐藏层、输出层），用于解决一个简单的二分类任务，例如根据两个输入特征判断输出是 0 还是 1。

二、基本结构说明

我们将构建如下结构的神经网络：

复制编辑

输入层（2个神经元） → 隐藏层（4个神经元） → 输出层（1个神经元）

激活函数：使用 Sigmoid
损失函数：均方误差
学习方式：批量梯度下降 + 手动反向传播

三、准备数据

我们使用一个简单的数据集（可类比于 AND/OR 操作）：

import numpy as np# 输入数据：4组样本，每组2个特征
X = np.array([[0, 0],[0, 1],[1, 0],[1, 1]
])# 标签：这里我们尝试模拟逻辑或（OR）操作
y = np.array([[0], [1], [1], [1]])

四、初始化网络参数

np.random.seed(0)# 网络结构：2 → 4 → 1
input_size = 2
hidden_size = 4
output_size = 1# 权重初始化（正态分布）
W1 = np.random.randn(input_size, hidden_size)
b1 = np.zeros((1, hidden_size))W2 = np.random.randn(hidden_size, output_size)
b2 = np.zeros((1, output_size))

五、激活函数

def sigmoid(x):return 1 / (1 + np.exp(-x))def sigmoid_derivative(x):# 输入为 sigmoid 的输出值return x * (1 - x)

六、训练循环

我们进行 10000 次迭代，手动实现前向传播、损失计算和反向传播。

learning_rate = 0.1
for epoch in range(10000):# --- 正向传播 ---z1 = np.dot(X, W1) + b1a1 = sigmoid(z1)z2 = np.dot(a1, W2) + b2a2 = sigmoid(z2)  # 预测值# --- 损失计算（均方误差）---loss = np.mean((y - a2) ** 2)# --- 反向传播 ---error_output = y - a2d_output = error_output * sigmoid_derivative(a2)error_hidden = d_output.dot(W2.T)d_hidden = error_hidden * sigmoid_derivative(a1)# --- 参数更新 ---W2 += a1.T.dot(d_output) * learning_rateb2 += np.sum(d_output, axis=0, keepdims=True) * learning_rateW1 += X.T.dot(d_hidden) * learning_rateb1 += np.sum(d_hidden, axis=0, keepdims=True) * learning_rateif epoch % 1000 == 0:print(f"Epoch {epoch}, Loss: {loss:.4f}")

七、模型测试

print("预测结果：")
print(a2.round())

输出如下，接近 OR 操作的结果 [0, 1, 1, 1]：

预测结果：
[[0.][1.][1.][1.]]

八、总结与拓展

通过这篇文章，我们实现了一个从零开始的神经网络：

完整构建了网络结构（无需框架）
实现了正向传播与反向传播
成功对二分类任务进行了拟合

拓展建议：

改用 ReLU 激活函数；
增加网络层数，提升模型表达能力；
用 Softmax 处理多分类问题；
尝试用真实数据集，如鸢尾花（Iris）或 MNIST。

这类“纯手写”的 ANN 实战项目非常适合用来理解深度学习的本质机制。如果你打算继续深入，可以尝试逐步迁移到 PyTorch 或 TensorFlow 框架实现更复杂的模型。

查看全文

http://www.dtcms.com/a/197018.html

python项目参考文献

用Python玩转人工智能——数字识别技术之二

QT软件安装

高效完成任务：制定标准与限时完成的双重法宝

三层固定实体架构：高效实现图上的检索增强生成（RAG）

2024 山东省ccpc省赛

【持续更新中】架构面试知识学习总结

回溯法理论基础 LeetCode 77. 组合 LeetCode 216.组合总和III LeetCode 17.电话号码的字母组合

在RK3588上使用NCNN和Vulkan加速ResNet50推理全流程

一阶线性方程线性方程

设计模式Java

C语言指针深入详解（一）：内存和地址、指针变量和地址、指针变量类型的意义、指针运算

Makefile变量冲突与包含关系解析

多商户商城系统源码解析：开发直播电商APP的技术底层实战详解

Android 14 解决打开app出现不兼容弹窗的问题

Python-92：最大乘积区间问题

飞帆控件 post or get it when it has get

摩方 12 代 N200 迷你主机（Ubuntu 系统）WiFi 抓包环境配置教程

PySide6 GUI 学习笔记——常用类及控件使用方法（常用类颜色QColor）

Canva 推出自有应用生成器以与 Bolt 和 Lovable 竞争

第8讲、Multi-Head Attention 的核心机制与实现细节

【电路笔记 STM32】 STM32CubeProgrammer 下载安装使用

NY309NY318美光科技颗粒NY319NY320

AI大模型（一）embedding模型的基础使用

Spark缓存-persist和cache方法

前端-HTML元素

Raft 协议：分布式一致性算法的核心思想

电动调节 V 型球阀：工业流体控制的全能解决方案-耀圣

HTTP与HTTPS协议的核心区别

通过多线程获取VENC的H264码流数据

一、项目目标

二、基本结构说明

三、准备数据

六、训练循环

八、总结与拓展

相关文章：