人工智能基础:从感知机到神经网络核心知识整合
一、 感知机:神经网络的基石 (1957年, Frank Rosenblatt)
基本模型与原理
数学模型:
输出 = f(w*x + b)
核心组件:
输入 (x): 数据信号。
权重 (w): 控制输入信号重要性的参数。
偏置 (b): 调整神经元被激活的难易程度的参数。
激活函数 (f): 最初使用阶跃函数,进行二分类(输出0或1)。
核心特点: 具有线性(加权求和) 与非线性(激活函数) 相结合的特性,提供明确的分类决策。
经典应用与证明
通过设置特定的
(w1, w2, b)
参数值,可以模拟与门(AND)、或门(OR)、与非门(NAND) 等线性可分的逻辑功能。意义: 证明了感知机处理线性可分问题的能力。
根本局限性:异或问题
问题: 无法解决异或门(XOR) 问题。
本质原因: 异或门是线性不可分的,无法用一条直线在二维平面上划分。这暴露了单层感知机的核心局限——只能表示线性空间。
解决方案:多层感知机(MLP)
核心思想: 引入隐藏层,构建更深的网络结构。
如何解决: 通过多层网络和非线性激活函数,组合多条“决策边界”,将输入空间变换到更高维度以实现线性可分,从而解决异或等复杂问题。MLP是最简单的深度神经网络。
二、 多层感知机(MLP)的构成与核心概念
网络架构
隐藏层: 网络的关键,其层数和每层的神经元数量(大小) 是重要的超参数。
多分类处理: 在输出层使用 Softmax 函数,将输出转换为概率分布,用于处理多分类问题。
激活函数:神经网络的灵魂
作用: 决定神经元如何被激活,引入非线性,是神经网络能够拟合任何复杂函数的关键。
性质要求: 连续可导的非线性函数、计算简单、导数值域合适。
常见类型:
Sigmoid: 将输入压缩到 (0, 1) 区间。
Tanh: 将输入压缩到 (-1, 1) 区间。
ReLU: 最常用的激活函数,计算高效
f(x) = max(0, x)
。
三、 神经网络的训练与学习机制
学习本质: 通过调整网络的连接权值(参数w和b),使网络的输出不断接近期望的输出。
训练过程:反向传播
前向传播: 输入数据从输入层 → 隐藏层 → 输出层,计算得到预测结果和损失函数(预测值与真实值的差距)。
反向传播: 核心算法。将损失从输出层向输入层反向传播,利用链式法则计算每个参数对于损失的梯度。
参数更新: 使用梯度下降等优化算法,根据梯度迭代更新参数,以最小化损失函数。
四、 模型评估、优化与关键挑战
误差概念
训练误差: 模型在训练集上的误差,反映“学习”或“记忆”能力。
泛化误差: 模型在未知新数据(测试集)上的误差,衡量真正的预测能力,是终极目标。
数据集划分策略
训练集: 用于训练模型参数 (w, b)。
验证集: 用于调整超参数和监控训练、选择模型。可多次使用。
测试集: 用于最终评估模型性能,为防止数据泄露,通常只使用一次。
K折交叉验证: 数据稀缺时评估模型稳定性的有效方法。
关键挑战:过拟合 vs. 欠拟合
欠拟合:
表现: 模型过于简单,训练误差和测试误差都很高。
原因: 模型能力不足、训练不够。
过拟合:
表现: 模型过于复杂,训练误差很低,但测试误差很高。
原因: 模型记住了训练数据的噪声和细节,而非一般规律。
核心原则: 使模型复杂度与问题复杂度相匹配。
影响模型效果的因素与优化
模型复杂度: 参数数量、参数值范围。
数据复杂度: 样本数量、特征数量、数据多样性。
正则化方法: 防止过拟合的有效技术。
权重衰减 (L2正则化): 约束参数值过大。
暂退法 (Dropout): 随机丢弃神经元,增强鲁棒性。