当前位置：首页 > news >正文

《神经网络与深度学习》学习笔记一

news 2025/11/5 7:10:57

《神经网络与深度学习》学习笔记一

本文档整理自邱锡鹏教授的《神经网络与深度学习》教材内容

人工智能发展概述

AI发展历程

本课程从人工智能的发展历史出发，帮助学习者理解神经网络和深度学习在AI领域中的核心地位。人工智能经历了多个重要发展阶段，从早期的符号主义AI到现代的深度学习，每个阶段都为后续技术的发展奠定了基础。

深度学习框架概览

在当前的深度学习生态中，存在多个重要的开源和商业框架，各自具有不同的特点和应用场景：

TensorFlow：由Google开发的开源机器学习框架，具有强大的生产部署能力
PyTorch：由Meta开发的动态计算图框架，因其易用性在研究领域广泛应用
Keras：高级神经网络API，提供用户友好的接口
MXNet：支持多种编程语言的深度学习框架
MindSpore：由华为开发的深度学习框架，专为端边云场景设计，为Ascend AI处理器提供原生支持，实现软硬件协同优化

深度学习基本概念

特征表示与编码方式

独热编码（One-Hot Encoding）

独热编码是一种常见的分类变量表示方法。其核心特点是：

每个类别用一个向量表示，向量长度等于类别总数
对应类别的位置为1，其余位置为0
本质上等同于单维向量的多维表示

示例：对于三分类问题，各类别编码如下：

类别A: [1, 0, 0]
类别B: [0, 1, 0]
类别C: [0, 0, 1]

嵌入（Embedding）

嵌入是将高维的稀疏表示（如独热编码）映射到低维的密集向量空间的过程。

本质：嵌入就是一种映射关系，将离散符号映射到连续向量空间
优势：降低维度，提高计算效率，发现特征之间的隐含关系
应用：广泛用于自然语言处理（词嵌入）和推荐系统等领域

映射示例：

独热编码 [0, 1, 0] ——映射→ 嵌入向量 [0.2, 0.8, 0.1]

端到端学习（End-to-End Learning）

定义

端到端学习（End-to-End Learning）也称为端到端训练，是指在学习过程中不进行分模块或分阶段训练，而是直接优化任务的总体目标。

核心特征

整体优化：不将任务分解成多个子任务分别优化，而是在单一目标函数下进行全局优化
简化流程：减少中间步骤，从原始输入直接映射到最终输出
自动特征学习：网络自动学习所需的中间特征表示，无需人工设计

端到端学习的优势

性能提升：全局优化通常能获得更优的整体性能
减少误差传播：避免了模块化方法中各阶段错误的累积
降低开发成本：无需设计中间表示和多个优化目标
更强的适应性：网络能够自动调整内部表示以适应任务需求

应用场景

图像识别：从原始像素直接预测物体类别
机器翻译：从源语言直接翻译到目标语言
自动驾驶：从传感器数据直接输出控制指令
语音识别：从声学信号直接输出文本

线性模型与经典算法

概述

线性模型是深度学习的基础。虽然单个线性模型的表达能力有限，但通过堆叠多层线性和非线性变换，可以构建表达能力强大的深度神经网络。

主要线性模型对比

下表总结了常见线性模型的主要特征、激活函数、损失函数和优化方法：

1. 线性回归

属性	内容
激活函数	恒等函数（Identity）： $g(wTx)g(\mathbf{w}^T\mathbf{x})$
损失函数	均方误差（MSE）： $\mathbf{w}^T\mathbf{x})^2$
优化方法	最小二乘法、梯度下降
用途	连续值预测

原理：假设输出与输入呈线性关系，通过最小化预测值与真实值的平方差来学习参数。

2. Logistic回归

属性	内容
激活函数	Sigmoid函数： $σ(wTx)=11+e−wTx\sigma(\mathbf{w}^T\mathbf{x}) = \frac{1}{1+e^{-\mathbf{w}^T\mathbf{x}}}$
损失函数	交叉熵： $−ylog⁡σ(wTx)-\mathbf{y}\log\sigma(\mathbf{w}^T\mathbf{x})$
优化方法	梯度下降
用途	二分类问题

原理：虽然名称含有"回归"，但Logistic回归是一个分类模型。通过Sigmoid函数将线性模型的输出压缩到(0,1)区间，表示正类的概率。

3. Softmax回归

属性	内容
激活函数	Softmax函数： $softmax(WTx)\text{softmax}(\mathbf{W}^T\mathbf{x})$
损失函数	交叉熵： $−ylog⁡softmax(WTx)-\mathbf{y}\log\text{softmax}(\mathbf{W}^T\mathbf{x})$
优化方法	梯度下降
用途	多分类问题

原理：Softmax是Sigmoid的多分类推广。对多个类别的线性输出进行指数化和归一化，得到各类别的概率分布。

Softmax函数公式：
$softmaxi(z)=ezi∑jezj\text{softmax}_i(\mathbf{z}) = \frac{e^{z_i}}{\sum_j e^{z_j}}$

4. 感知器（Perceptron）

属性	内容
激活函数	符号函数： $sgn(wTx)\text{sgn}(\mathbf{w}^T\mathbf{x})$
损失函数	感知器损失
优化方法	梯度下降
用途	二分类问题

原理：最早的神经网络模型，使用符号函数作为激活函数，输出为-1或1。对线性可分的问题有很好的效果。

5. 支持向量机（SVM）

属性	内容
激活函数	符号函数： $sgn(wTx)\text{sgn}(\mathbf{w}^T\mathbf{x})$
损失函数	Hinge损失： $max⁡(0,−ywTx)\max(0, -y\mathbf{w}^T\mathbf{x})$ 或 $max⁡(0,1−ywTx)\max(0, 1-y\mathbf{w}^T\mathbf{x})$
优化方法	随机梯度下降、二次规划、SMO等
用途	二分类和多分类问题