当前位置：首页 > news >正文

深度学习（二）

news 2025/9/18 8:59:17

1. 线性回归

定义：线性回归模型通过特征（输入）与权重（W）的加权求和，结合一个偏置项（b），得到对目标变量的预测值。
应用：最早应用于神经网络的输入层与输出层之间，构成了最简化的神经网络结构。
局限性：线性模型只能处理线性可分问题，对于复杂的非线性关系无能为力。

2. 激活函数

目的：为解决线性模型无法处理“线性不可分”问题的局限性，引入了激活函数的概念。
作用：激活函数将线性运算的结果进行非线性转换，使得网络能够逼近复杂的函数关系，实现分类等任务。
典型激活函数：
- ReLU（修正线性单元）：将小于零的输入值置为零，只保留正数部分，既增加了模型的能力又减少了不必要的计算。
- 其他激活函数还包括 Sigmoid 和 Tanh，但它们在某些情况下可能会导致梯度消失问题。

3. 损失函数与模型训练

损失函数：用于量化模型的预测值与真实值之间的差距。
- 平方损失（L2损失）：常用于回归任务。
- L1损失：另一种衡量误差的方式，对异常值不敏感。
- 交叉熵损失（Cross-entropy Loss）：在处理分类问题时尤为常见。
训练目标：找到一组最优的模型参数（权重W和偏置b），使得在损失函数上的值达到最小。
优化算法：
- 梯度下降法：通过迭代地沿着损失函数梯度的负方向更新参数，逐步找到损失的极小值点。
- 小批量随机梯度下降（Mini-batch SGD）：通过从数据集中随机选取一个小批次（Batch）的样本，计算这个批次的损失并相应地更新参数，更加高效和实用。

4. 梯度下降与超参数

超参数：在模型训练前就需要确定的参数。
- 批量大小（batch_size）：将数据集划分为小批次进行训练。批量过大无法有效利用计算资源且可能导致资源瓶颈；批量过小则计算资源利用率低、训练时间长。两者都需要适中。
- 学习率（learning rate, LR）：控制参数更新的步长。学习率过高可能导致训练不稳定，过低则会使训练过程缓慢。
梯度下降：一种优化算法，通过沿目标函数梯度的反方向迭代更新模型参数，以求解最优解。

5. Softmax 回归与分类问题

Softmax 回归：用于解决多分类问题。它将多个线性回归的输出作为输入，通过softmax函数变换，输出一组概率值，其总和为1。
置信度：模型输出的每一个概率值可解释为模型对样本属于某一特定类别的“信心”程度。最终权衡分类结果，应取概率最高的那个类别。
应用场景：多分类任务如手写数字识别（MNIST）、ImageNet（1000类）等均可使用此方法进行建模。

6. 数据与模型架构概念

独热编码（One-Hot Encoding）：一种处理类别型数据的编码方式。例如，表示三类会使用三个独立的数值，其中一个为1其余为0，消除了类别间的大小顺序暗示。
全连接层（Fully Connected Layer）：一种神经网络层，其特点是后一层的每个神经元都与前一层的所有神经元相连。在分类任务中，常作为最终的输出层，与softmax层配合使用。
问题类型区分：
- 回归问题：预测连续的数值，如房价、温度等，通常采用线性回归或类似回归器。
- 分类问题：预测离散的类别，如图像中的物体、文本的情感，通常采用softmax回归。

7. 梯度下降法的核心原理

参数更新方向：在梯度下降法中，参数更新的方向是沿着梯度的反方向。
优化目标：在某个损失函数的曲面上找到使函数值最小的点。如L2损失和L1损失的最低点均位于预测值接近真实值（零）的位置。

8. 损失函数讲解

介绍：神经网络中常用的三种损失函数：
- L2损失与L1损失：其梯度的更新方向都指向损失函数的最低点附近，以便模型获得更优解。
- 交叉熵损失（Cross-entropy Loss）：在处理分类问题时尤为常见。

9.总结：

主要介绍了线性回归和Softmax回归的基本概念及其在深度学习中的应用。线性回归用于预测连续值，而Softmax回归用于多类分类问题。还讲解了梯度下降法及其变体（如随机梯度下降和小批量随机梯度下降）作为优化算法，以及不同损失函数（如L2损失、L1损失、Huber损失和交叉熵损失）的选择和应用。最后，通过例子说明了Softmax运算如何将输出转换为概率分布。

文章转载自：

http://bDKG2zgu.gyqnp.cn
http://FgQefPGk.gyqnp.cn
http://bmZyLgkF.gyqnp.cn
http://6SfREatL.gyqnp.cn
http://vunzHj2i.gyqnp.cn
http://Rs2HIZeB.gyqnp.cn
http://05hQdvoW.gyqnp.cn
http://AMsnzNNV.gyqnp.cn
http://b9eCQR5g.gyqnp.cn
http://9rks2GEn.gyqnp.cn
http://T9bi3L3s.gyqnp.cn
http://Jb4Aq4dU.gyqnp.cn
http://0j2EJ5ky.gyqnp.cn
http://3WqX0obZ.gyqnp.cn
http://fPd6JOfO.gyqnp.cn
http://toL4XTcM.gyqnp.cn
http://ZOKSQLgp.gyqnp.cn
http://VdSLnhyL.gyqnp.cn
http://INYNne3i.gyqnp.cn
http://f1qyPwV2.gyqnp.cn
http://gNmOOsE1.gyqnp.cn
http://gVLxwHDW.gyqnp.cn
http://gpZjFgPw.gyqnp.cn
http://jadAnLkY.gyqnp.cn
http://htlyez99.gyqnp.cn
http://IREiZLqU.gyqnp.cn
http://6i79mjCu.gyqnp.cn
http://nrjnVTQW.gyqnp.cn
http://hnAUlnBi.gyqnp.cn
http://fzLc8NCn.gyqnp.cn

http://www.dtcms.com/a/388107.html

相关文章：

搭建node脚手架（六） ESLint 功能模块

mysql面试(2)

Linux系统DNS服务

如何通过跳板机访问内网 Mysql 服务器

SSH 远程连接内网 Linux 服务器

Spring Cloud - 微服务监控

Flutter-[1]入门指导

Linux服务器运维自动化巡检工具

Java 大视界 -- Java 大数据在智能家居设备联动与场景化节能中的应用拓展（413）

Node.js 部署：PM2 的 Fork 与集群模式

【C++上岸】C++常见面试题目--网络篇（第二十五期）

LangChain使用方法以OpenAI 的聊天模型GPT-4o为例

CephFS存储文件系统介绍

Java Swagger2 能显示页面但看不到一个接口

SSL证书有效期缩短：自动化解决方案

C# 多线程编程 (.NET Framework 4.0)

一个手艺活 - 跨语言编程

docker安装ollama、下载模型详细步骤

微服务和分布式的基础学识

自动化测试框架pytest---Json Schema

阿里云PolarDB MySQL版与MCP集成方案：数据处理分析全流程的效能革命

Python实现霸王龙优化算法（Tyrannosaurus Optimization Algorithm, TROA）（附完整代码）

弥合安全分析与故障仿真之间差距的方法

JavaEE---9.网络原理TCP/IP

@Value

安装es、kibana、logstash

Leetcode-148.排序链表

基于ETF底仓的网格交易系统实现动态参数优化与动量因子融合

C++底层刨析章节三：函数对象与适配器：STL中的智能操作单元

MySQL多表联合查询与数据备份恢复全解析