当前位置: 首页 > news >正文

《神经网络与深度学习》学习笔记一

《神经网络与深度学习》学习笔记一

本文档整理自邱锡鹏教授的《神经网络与深度学习》教材内容


目录

  1. 人工智能发展概述
  2. 深度学习基本概念
  3. 线性模型与经典算法

人工智能发展概述

AI发展历程

本课程从人工智能的发展历史出发,帮助学习者理解神经网络和深度学习在AI领域中的核心地位。人工智能经历了多个重要发展阶段,从早期的符号主义AI到现代的深度学习,每个阶段都为后续技术的发展奠定了基础。

深度学习框架概览

在当前的深度学习生态中,存在多个重要的开源和商业框架,各自具有不同的特点和应用场景:

  • TensorFlow:由Google开发的开源机器学习框架,具有强大的生产部署能力
  • PyTorch:由Meta开发的动态计算图框架,因其易用性在研究领域广泛应用
  • Keras:高级神经网络API,提供用户友好的接口
  • MXNet:支持多种编程语言的深度学习框架
  • MindSpore:由华为开发的深度学习框架,专为端边云场景设计,为Ascend AI处理器提供原生支持,实现软硬件协同优化

深度学习基本概念

特征表示与编码方式

独热编码(One-Hot Encoding)

独热编码是一种常见的分类变量表示方法。其核心特点是:

  • 每个类别用一个向量表示,向量长度等于类别总数
  • 对应类别的位置为1,其余位置为0
  • 本质上等同于单维向量的多维表示

示例:对于三分类问题,各类别编码如下:

类别A: [1, 0, 0]
类别B: [0, 1, 0]
类别C: [0, 0, 1]
嵌入(Embedding)

嵌入是将高维的稀疏表示(如独热编码)映射到低维的密集向量空间的过程。

  • 本质:嵌入就是一种映射关系,将离散符号映射到连续向量空间
  • 优势:降低维度,提高计算效率,发现特征之间的隐含关系
  • 应用:广泛用于自然语言处理(词嵌入)和推荐系统等领域

映射示例

独热编码 [0, 1, 0] ——映射→ 嵌入向量 [0.2, 0.8, 0.1]

端到端学习(End-to-End Learning)

定义

端到端学习(End-to-End Learning)也称为端到端训练,是指在学习过程中不进行分模块或分阶段训练,而是直接优化任务的总体目标。

核心特征
  • 整体优化:不将任务分解成多个子任务分别优化,而是在单一目标函数下进行全局优化
  • 简化流程:减少中间步骤,从原始输入直接映射到最终输出
  • 自动特征学习:网络自动学习所需的中间特征表示,无需人工设计
端到端学习的优势
  1. 性能提升:全局优化通常能获得更优的整体性能
  2. 减少误差传播:避免了模块化方法中各阶段错误的累积
  3. 降低开发成本:无需设计中间表示和多个优化目标
  4. 更强的适应性:网络能够自动调整内部表示以适应任务需求
应用场景
  • 图像识别:从原始像素直接预测物体类别
  • 机器翻译:从源语言直接翻译到目标语言
  • 自动驾驶:从传感器数据直接输出控制指令
  • 语音识别:从声学信号直接输出文本

线性模型与经典算法

概述

线性模型是深度学习的基础。虽然单个线性模型的表达能力有限,但通过堆叠多层线性和非线性变换,可以构建表达能力强大的深度神经网络。

主要线性模型对比

下表总结了常见线性模型的主要特征、激活函数、损失函数和优化方法:

1. 线性回归
属性内容
激活函数恒等函数(Identity):g(wTx)g(\mathbf{w}^T\mathbf{x})g(wTx)
损失函数均方误差(MSE):(y−wTx)2(y - \mathbf{w}^T\mathbf{x})^2(ywTx)2
优化方法最小二乘法、梯度下降
用途连续值预测

原理:假设输出与输入呈线性关系,通过最小化预测值与真实值的平方差来学习参数。

2. Logistic回归
属性内容
激活函数Sigmoid函数:σ(wTx)=11+e−wTx\sigma(\mathbf{w}^T\mathbf{x}) = \frac{1}{1+e^{-\mathbf{w}^T\mathbf{x}}}σ(wTx)=1+ewTx1
损失函数交叉熵:−ylog⁡σ(wTx)-\mathbf{y}\log\sigma(\mathbf{w}^T\mathbf{x})ylogσ(wTx)
优化方法梯度下降
用途二分类问题

原理:虽然名称含有"回归",但Logistic回归是一个分类模型。通过Sigmoid函数将线性模型的输出压缩到(0,1)区间,表示正类的概率。

3. Softmax回归
属性内容
激活函数Softmax函数:softmax(WTx)\text{softmax}(\mathbf{W}^T\mathbf{x})softmax(WTx)
损失函数交叉熵:−ylog⁡softmax(WTx)-\mathbf{y}\log\text{softmax}(\mathbf{W}^T\mathbf{x})ylogsoftmax(WTx)
优化方法梯度下降
用途多分类问题

原理:Softmax是Sigmoid的多分类推广。对多个类别的线性输出进行指数化和归一化,得到各类别的概率分布。

Softmax函数公式
softmaxi(z)=ezi∑jezj\text{softmax}_i(\mathbf{z}) = \frac{e^{z_i}}{\sum_j e^{z_j}}softmaxi(z)=jezjezi

4. 感知器(Perceptron)
属性内容
激活函数符号函数:sgn(wTx)\text{sgn}(\mathbf{w}^T\mathbf{x})sgn(wTx)
损失函数感知器损失
优化方法梯度下降
用途二分类问题

原理:最早的神经网络模型,使用符号函数作为激活函数,输出为-1或1。对线性可分的问题有很好的效果。

5. 支持向量机(SVM)
属性内容
激活函数符号函数:sgn(wTx)\text{sgn}(\mathbf{w}^T\mathbf{x})sgn(wTx)
损失函数Hinge损失:max⁡(0,−ywTx)\max(0, -y\mathbf{w}^T\mathbf{x})max(0,ywTx)max⁡(0,1−ywTx)\max(0, 1-y\mathbf{w}^T\mathbf{x})max(0,1ywTx)
优化方法随机梯度下降、二次规划、SMO等
用途二分类和多分类问题

原理:通过最大化分类间隔来学习最优的决策边界。Hinge损失只在预测错误或置信度不足时产生损失。

各模型的关键激活函数详解

Sigmoid函数

σ(z)=11+e−z\sigma(z) = \frac{1}{1+e^{-z}}σ(z)=1+ez1

  • 特点:将任意输入映射到(0,1)区间
  • 导数σ′(z)=σ(z)(1−σ(z))\sigma'(z) = \sigma(z)(1-\sigma(z))σ(z)=σ(z)(1σ(z))
  • 缺点:梯度消失问题,易导致网络学习缓慢
Softmax函数

将向量z=[z1,z2,…,zK]\mathbf{z} = [z_1, z_2, \ldots, z_K]z=[z1,z2,,zK]映射到概率分布:

softmax(z)i=ezi∑j=1Kezj\text{softmax}(\mathbf{z})_i = \frac{e^{z_i}}{\sum_{j=1}^K e^{z_j}}softmax(z)i=j=1Kezjezi

  • 特点:输出为概率分布,各分量和为1
  • 应用:多分类问题的标准选择

损失函数与优化目标

均方误差(MSE)

L=1n∑i=1n(yi−y^i)2L = \frac{1}{n}\sum_{i=1}^n (y_i - \hat{y}_i)^2L=n1i=1n(yiy^i)2

适用于回归问题,度量预测值与真实值的平方差。

交叉熵(Cross-Entropy)

对于二分类(Logistic回归):
L=−[ylog⁡y^+(1−y)log⁡(1−y^)]L = -[y\log\hat{y} + (1-y)\log(1-\hat{y})]L=[ylogy^+(1y)log(1y^)]

对于多分类(Softmax回归):
L=−∑i=1Kyilog⁡y^iL = -\sum_{i=1}^K y_i\log\hat{y}_iL=i=1Kyilogy^i

其中yiy_iyi是独热编码的真实标签,y^i\hat{y}_iy^i是模型预测的概率。

优势:相比MSE,交叉熵更适合分类问题,梯度性质更好,有助于加速收敛。

Hinge损失

L=max⁡(0,1−y⋅y^)L = \max(0, 1 - y \cdot \hat{y})L=max(0,1yy^)

其中y∈{−1,1}y \in \{-1, 1\}y{1,1}是真实标签,y^\hat{y}y^是预测的决策函数值。

  • 特点:只在分类错误或置信度不足时产生损失
  • 应用:支持向量机的标准损失函数
  • 优势:稀疏性,只有支持向量对决策边界有影响

优化方法概览

最小二乘法

直接求解使损失函数最小的参数的解析解:

w∗=(XTX)−1XTy\mathbf{w}^* = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}w=(XTX)1XTy

适用场景:线性回归,数据量较小,矩阵可逆的情况。

梯度下降(Gradient Descent)

参数更新规则:
w←w−α∇L(w)\mathbf{w} \leftarrow \mathbf{w} - \alpha \nabla L(\mathbf{w})wwαL(w)

其中α\alphaα是学习率,∇L(w)\nabla L(\mathbf{w})L(w)是损失函数的梯度。

变体

  • 批量梯度下降(BGD):每次更新使用全部数据
  • 随机梯度下降(SGD):每次更新使用单个样本
  • 小批量梯度下降(Mini-batch GD):每次更新使用小批量数据
随机梯度下降(SGD)

w←w−α∇L(w,xi)\mathbf{w} \leftarrow \mathbf{w} - \alpha \nabla L(\mathbf{w}, x_i)wwαL(w,xi)

其中只使用单个样本xix_ixi计算梯度。

优势:计算高效,在线学习能力强;引入的噪声有助于逃离局部最优。

二次规划与SMO

二次规划:用于求解支持向量机的对偶问题。

SMO(Sequential Minimal Optimization):一种高效的SVM训练算法,每次只优化两个拉格朗日乘数,大大降低了计算复杂度。


总结

本篇学习笔记介绍了神经网络与深度学习的基础内容:

  1. 理论基础:理解了特征表示(独热编码和嵌入)与端到端学习的核心概念
  2. 经典模型:掌握了线性回归、Logistic回归、Softmax回归、感知器和SVM的基本原理
  3. 关键技术:了解了激活函数、损失函数和优化方法在不同模型中的应用
  4. 深度学习框架:认识了主流的深度学习框架及其特点

这些基础知识为后续学习多层神经网络、卷积神经网络、循环神经网络等深度学习模型奠定了坚实的理论基础。


http://www.dtcms.com/a/568443.html

相关文章:

  • 超越蓝牙与Wi-Fi,UWB技术如何解锁手机下一波创新浪潮?
  • 【VPX650G】基于 VPX 系统架构的 JFM9VU13P FPGA+JFMQL100TAI 超宽带信号处理平台
  • 软考 系统架构设计师系列知识点之杂项集萃(190)
  • Linux信号(下):信号保存和信号处理
  • 仅需一部智能手机,在NVIDIA Isaac Sim中重建真实场景:终极实战指南
  • Spring设计模式刨根问底
  • 河南郑州做网站汉狮网站赚钱的方式
  • 不是万维网的网站如何注册公司抖音号
  • AI 赋能科研实践:从选题到发表的技术重构之路
  • 技术的秩序:IT资产与配置管理的现代重构
  • 告别布线噩梦:8公里LoRa边缘网关如何重构工业物联边界
  • Python 图像处理利器:Pillow 深度详解与实战应用
  • 【数据结构】:二叉树——顺序结构,链式结构的实现及相关操作
  • RS485转以太网串口服务器-串口设备联网的理想选择
  • 电动化筑基:智能社会的能源革命与产业重构
  • 【深度学习新浪潮】智能体在图像处理领域的技术突破与实践指南
  • 这是我做的网站吗汇云网站建设
  • 【JAVA 进阶】穿越之我在修仙世界学习 @Async 注解(深度解析)
  • [图像处理]图像美化
  • windows10下用wsl2部署Ollama同时用docker部署nginx开放外网访问
  • Linux学习笔记(十一)--文件接口与重定向
  • Linux 自定义协议实现网络计算器
  • 【IC】NoC设计入门 --交换矩阵
  • 【NCCL】Merged Device(合并设备)和bond的区别
  • 网站后台栏目管理dede做双语网站
  • 怎么做淘客网站开网站供免费下载
  • 下载CUDA Toolkit和VS后,配置vscode
  • 零基础学AI大模型之LangChain WebBaseLoader与Docx2txtLoader实战
  • Elasticsearch从入门到实践:核心概念到Kibana测试与C++客户端封装
  • C++ 二叉堆