当前位置: 首页 > news >正文

神经网络与深度学习基础:从线性回归到分类模型

主题

1

2

​核心模型​

线性回归 → 神经网络

Softmax回归

​解决问题​

回归问题(预测连续值)

分类问题(预测离散类别)

​关键创新​

引入激活函数解决线性不可分问题

引入独热编码和交叉熵损失解决分类问题

​优化算法​

梯度下降法 → 小批量随机梯度下降(SGD)

小批量随机梯度下降(SGD)

​核心概念​

损失函数(MSE)、学习率、Batch Size

损失函数(交叉熵)、独热编码、全连接层

1. 从线性回归到神经网络
  • ​基础​​:神经网络起源于线性回归(Y = W * X + B),最简单的神经网络就是一个线性模型。

  • ​局限性​​:纯线性模型无法解决复杂(如异或)问题。

  • ​解决方案​​:引入​​激活函数​​(如ReLU),为模型加入非线性变换,使其能够学习复杂模式。

2. 模型训练的核心:损失函数与优化
  • ​目标​​:通过调整参数(W, B)来最小化​​损失函数​​。

  • ​回归问题​​:使用​​均方误差(MSE)​​ 损失函数。

  • ​分类问题​​:使用​​交叉熵损失​​函数。

  • ​优化方法​​:使用​​梯度下降法​​,通过计算梯度并沿反方向更新参数来最小化损失。

  • ​实践策略​​:采用​​小批量随机梯度下降(SGD)​​,这是一种权衡了计算效率和稳定性的常用方法。

3. 分类问题的特殊处理
  • ​输出表示​​:使用​​Softmax回归​​将输出转换为概率分布,所有类别概率之和为1。

  • ​标签表示​​:使用​​独热编码​​将类别标签转换为向量形式,避免模型产生错误的数值偏见。

4. 关键超参数
  • ​学习率(Learning Rate)​​:控制参数更新的步长,是最重要的超参数之一。

  • ​批量大小(Batch Size)​​:每次参数更新时使用的样本数量,影响训练速度和稳定性。

5. 网络结构
  • ​全连接层​​:一种基本的神经网络层,该层的每个神经元都与前一层的所有神经元相连。

​6. 核心模型与概念​
  • ​线性回归​

    • 基础形式:Y = W * X + B(权重W,偏置B)

    • 应用场景:预测连续值(如房价估计)

    • 局限性:无法解决非线性问题(如异或问题)。

  • ​神经网络​

    • ​激活函数​​(如ReLU):引入非线性,使模型能学习复杂模式。

    • ​全连接层​​:每一层的神经元与前一层的所有神经元相连。

  • ​Softmax回归​

    • 用于多类分类问题(如手写数字识别、图像分类)。

    • 输出为概率分布(非负,和为1),通过exp运算实现。

    • 示例:输入[1, -1, 2]→ Softmax输出[0.26, 0.04, 0.7]

​7. 模型训练与优化​
  • ​损失函数​

    • ​回归问题​​:均方误差(MSE/L2损失)、L1损失、Huber损失。

    • ​分类问题​​:交叉熵损失(比较预测概率分布与真实标签)。

  • ​优化算法​

    • ​梯度下降法​​:

      • 核心思想:沿梯度反方向更新参数,逐步最小化损失函数。

      • ​梯度​​:指向函数值下降最快的方向,但不保证全局最优。

    • ​随机梯度下降(SGD)​​:

      • 每次随机选取一个样本计算梯度,高效但波动大。

    • ​小批量随机梯度下降(Mini-batch SGD)​​:

      • 折中方案:每次用一小批(Batch)数据计算梯度。

      • ​超参数​​:

        • ​批量大小(Batch Size)​​:过小浪费计算资源,过大降低收敛速度。

        • ​学习率(Learning Rate)​​:过大易震荡,过小收敛慢。

8. 分类任务实践​
  • ​从回归到分类的扩展​

    • 回归:输出单个连续值(如房价)。

    • 分类:输出多个值(每类的置信度),通过Softmax转为概率。

    • 示例任务:

      • MNIST(10类手写数字)、ImageNet(1000类物体)、Kaggle蛋白质图像分类(28类)。

  • ​独热编码(One-Hot Encoding)​

    • 将类别标签转为向量形式(如“猫”→[1, 0, 0]),避免数值偏见。


文章转载自:

http://x92JGAUP.jyjqh.cn
http://fiL22zfl.jyjqh.cn
http://E6cSIaof.jyjqh.cn
http://uPSZ4xH7.jyjqh.cn
http://ALI2yPtE.jyjqh.cn
http://HTiXz2CQ.jyjqh.cn
http://fPDMw2of.jyjqh.cn
http://DDG4cPdI.jyjqh.cn
http://XbODXBSP.jyjqh.cn
http://0vxNUXQQ.jyjqh.cn
http://aC1MIlpC.jyjqh.cn
http://PlcpEkJA.jyjqh.cn
http://7MLU6ZUO.jyjqh.cn
http://KsoN3aj0.jyjqh.cn
http://Z7cMpbXz.jyjqh.cn
http://FWSPtNZh.jyjqh.cn
http://qEEJYqPs.jyjqh.cn
http://7qD84zoM.jyjqh.cn
http://TpnElt6Z.jyjqh.cn
http://nMHsG591.jyjqh.cn
http://Y0WMnnmO.jyjqh.cn
http://PNpxJs9X.jyjqh.cn
http://10fZWdsA.jyjqh.cn
http://6wO2P43p.jyjqh.cn
http://VqdEPgcv.jyjqh.cn
http://zAwVNa57.jyjqh.cn
http://wpHXK1ZZ.jyjqh.cn
http://peC8GuF4.jyjqh.cn
http://oheFa507.jyjqh.cn
http://5NtbyCjB.jyjqh.cn
http://www.dtcms.com/a/387446.html

相关文章:

  • Jmeter 参数、设置相关
  • jmeter 提取变量设置为全局变量
  • open61499:重新定义工业编程,让复杂自动化变简单
  • 基于MATLAB的支持向量数据描述算法
  • 超越重命名:如何利用高级规则实现文件的精准自动化分类保存
  • Spring Cloud Gateway:一次不规范 URL 引发的路由转发404问题排查
  • C#开发常用方法汇总(类型转换)
  • 从踩坑到高效选型:基于 AI Ping 平台的 20+MaaS 供应商、220 + 模型服务性能(延迟 / 吞吐 / 可靠性):深度评测与大模型选型指南
  • LeetCode刷题记录----347.前K个高频元素(Medium)
  • Windows 部署hexo并启动自己的博客
  • 建议对下载的geo原始数据进行低表达基因过滤**,这是数据预处理的关键步骤之一,可提升后续分析(如差异表达、WGCNA)的准确性和可靠性
  • MySQL 数据库备份与恢复
  • SQLite 数据库简介
  • Java进阶教程,全面剖析Java多线程编程,线程的优先级,笔记07
  • YOLOv12目标检测:使用自定义数据集训练 YOLOv12 检测坑洞严重程度
  • 计算机操作系统学习(五、输入输出管理)
  • Rocksteady开发新《未来蝙蝠侠》游戏 有望登陆PS5/PS6
  • Python爬虫实战——使用NetNut网页解锁器获取亚马逊电商数据的入门指南
  • 【 mq】 mq学习笔记
  • 科学研究系统性思维的理论基础:传统研究工具应用
  • Java基础:基本数据类型与变量(详解)
  • VsCode中配置Git-Bash终端
  • 《无人机政务应用视频图像服务成本度量规范》(T/DGAG025-2024)标准解读
  • 2/3维旋转矩阵推导与助记--记录
  • 【代码随想录算法训练营——Day15】二叉树——110.平衡二叉树、257.二叉树的所有路径、404.左叶子之和、222.完全二叉树的节点个数
  • 《从终端到内核:Linux 指令体系的入门与技术解构(第二篇)》
  • 实验5:组件应用(4学时)
  • 精选40道Kafka面试
  • web自动化随笔
  • HarmonyOS 多线程编程:Worker 使用与性能优化指南