当前位置: 首页 > news >正文

AI小白的第十天:影响模型泛化能力的因素以及对策

之前写了两次识别手写数字的模型训练,模型对我自己手写图片的识别效果总是不尽人意。
后来了解到,模型在训练中命中率高,但是实战命中率差,就可能是出现了过拟合跟欠拟合的情况。


泛化能力差的原因

过拟合

过拟合就是模型太贴近于训练数据,而无法适用于真实世界的数据。
常用对策就是加大训练数据集。对于数据有限的情况,可以给数据添加噪声等,尽可能增加数据量和多样性。

欠拟合

欠拟合就是模型的学习能力差,无法从测试数据中找到数据的特征的规律。
常用的对策就是提高模型的复杂度。但比不是越复杂越好。


训练策略

k折交叉验证 k-fold cross-validation

在这里插入图片描述

提前终止 earlystopping

Early Stopping 就像考试时的「自动交卷系统」——当发现模型在练习题(验证集)上连续几次考不出更高分时,就果断停止训练,防止过度刷题导致死记硬背(过拟合)。
在这里插入图片描述

正则化 generalization

(1) L1 正则化(Lasso Regression)

在这里插入图片描述

L2正则化(岭回归/Ridge Regression)

在这里插入图片描述
在这里插入图片描述

范数惩罚 (Norm Penalty)

在这里插入图片描述
在这里插入图片描述

权重衰减 (Weight Decay)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Dropout方法

Dropout通过在训练阶段随机丢弃(drop)一部分神经元(将其输出置零),迫使网络不依赖任何单个神经元,从而提升模型的泛化能力。
当模型在训练集表现明显优于验证集时,优先尝试增加Dropout。现代架构(如Transformer)中,Dropout仍是防止过拟合的关键组件。

http://www.dtcms.com/a/107533.html

相关文章:

  • spring boot 集成redis 中RedisTemplate 、SessionCallback和RedisCallback使用对比详解,最后表格总结
  • 系统思考与时间管理
  • 在MFC中使用Qt(五):MFC和Qt的共存和交互
  • 经典算法 最长公共子序列问题
  • GPU与CUDA对应
  • 阿里云服务器对接高防的时候可能会出现的问题
  • 鸿蒙应用元服务开发-Account Kit 常见问题说明
  • BRC认证是什么?如何获得BRC认证?对企业发展的好处
  • 解决Oracle PL/SQL中“表或视图不存在“错误的完整指南
  • 数据分析与知识发现 论文阅读【信息抽取】
  • OSD显示
  • 动态规划——区间DP
  • RedisTemplate 的 6 个可配置序列化器属性对比
  • apk签名与对齐
  • android databinding使用教程
  • modelscope环境准备--装conda、内网穿透、配置HuggingFace
  • 在线sql 转 rust 模型(Diesel、SeaORM),支持多数据 mysql, pg等
  • Java 大视界 -- Java 大数据在智能教育自适应学习平台中的用户行为分析与个性化推荐(169)
  • 合并空值运算符??
  • 爬虫【Scrapy框架的概念与执行流程】
  • c++中%符号使用的注意事项/易错点
  • limma差异分析
  • Scala面向对象
  • 多层内网渗透测试虚拟仿真实验环境(Tomcat、ladon64、frp、Weblogic、权限维持、SSH Server Wrapper后门)
  • 鸿蒙开发_TS快速入门_TS中模块化操作_模块的导入导出---纯血鸿蒙HarmonyOS5.0工作笔记008
  • MySQL主从复制(三)
  • 【Axure元件分享】时间范围选择器
  • 阿里云国际站代理商:模型训练中断数据丢失怎么办?
  • DAY 34 leetcode 349--哈希表.两个数组的交集
  • 【Linux网络与网络编程】04.TCP Socket编程