当前位置: 首页 > news >正文

softmax回归遇到的训练集准确率小于测试集准确率的问题

在阅读李沐老师的动手学深度学习文章时发现了在softmax回归中,当epoch < 2时训练集准确率可能低于测试集准确率
李沐老师文章插图
下面是几点原因:

  1. 参数初始化与学习率的影响
    在训练初期(如前两个epoch),模型参数尚未充分更新,可能仍接近随机初始化的状态。若学习率较高(如代码中的lr=0.1),参数的剧烈调整可能导致训练集预测结果波动较大,而测试集在某个中间参数状态下可能偶然表现更好。

  2. 评估方式的差异
    训练集的准确率通常按每个batch的累积平均计算,而测试集是在整个数据集上一次评估的。在训练初期,模型可能在某些batch中表现较差(尤其是初始batch),导致训练集整体准确率被拉低。而测试集在epoch结束后评估,可能恰好处于参数调整后的较优状态。

  3. 数据分布的暂时优势
    测试集可能包含更多简单样本或类别分布更均衡,在模型未充分训练时,这些样本的分类更容易,导致测试集准确率暂时高于训练集。

  4. 欠拟合阶段
    模型在初始阶段可能对训练数据欠拟合,而测试集的数据特性(如某些类别的偏向性)可能与初始参数偶然匹配,从而在测试集上表现更好。

随着训练的进行(epoch ≥ 2),模型逐渐适应训练数据,训练集准确率会稳步提升并超过测试集。这种现象在初期较为常见,尤其在参数更新剧烈或数据分布存在微小差异时。

相关文章:

  • 【MySQL】多表查询(笛卡尔积现象,联合查询、内连接、左外连接、右外连接、子查询)-通过练习快速掌握法
  • 使用 Docker 部署 MySQL 8
  • Kotlin知识体系(二) : Kotlin的七个关键特性
  • 如何在 Web Component 中优雅地使用 React
  • 代码随想录算法训练营第32天 | 509. 斐波那契数 70. 爬楼梯 746. 使用最小花费爬楼梯
  • Part1:基于国内源完成Kubernetes集群部署
  • 【从零开始学习计算机科学】算法分析(四)图 与 最大流算法
  • Qt-D指针与Q指针的设计哲学
  • 【数学建模】层次分析法(AHP)详解及其应用
  • PyTorch 生态概览:为什么选择动态计算图框架?
  • ffmpeg基础整理
  • 学校IPTV数字电视直播:IPTV电视系统赋能校园电化教育系统升级
  • SVN学习笔记
  • 微软 AI 发布 LongRoPE2:近乎无损地将大型语言模型上下文窗口扩展至 128K 标记,保持 97% 短上下文准确性
  • 基于ssm+vue汽车租赁系统
  • iOS QLPreviewController预览PDF文件等(Swift)
  • 人工智能与机器学习——系统学习规划
  • MMO_随笔
  • 人工智能中的线性代数基础详解
  • 深度学习之目标检测/对象检测
  • 温州网站建设制作/培训心得总结
  • wordpress 搜索引擎收录/重庆整站seo
  • 广州建设网站下载/seo案例分析及解析
  • 网站策划的最终体现是什么/网站推广费用
  • 应用商店app下载安装最新版软件/无锡网站建设方案优化
  • 做网站哪些网络公司好/整站优化包年