当前位置：首页 > news >正文

AI小白的第十天：影响模型泛化能力的因素以及对策

news 2025/7/18 20:59:18

之前写了两次识别手写数字的模型训练，模型对我自己手写图片的识别效果总是不尽人意。
后来了解到，模型在训练中命中率高，但是实战命中率差，就可能是出现了过拟合跟欠拟合的情况。

泛化能力差的原因

过拟合

过拟合就是模型太贴近于训练数据，而无法适用于真实世界的数据。
常用对策就是加大训练数据集。对于数据有限的情况，可以给数据添加噪声等，尽可能增加数据量和多样性。

欠拟合

欠拟合就是模型的学习能力差，无法从测试数据中找到数据的特征的规律。
常用的对策就是提高模型的复杂度。但比不是越复杂越好。

训练策略

k折交叉验证 k-fold cross-validation

在这里插入图片描述

提前终止 earlystopping

Early Stopping 就像考试时的「自动交卷系统」——当发现模型在练习题（验证集）上连续几次考不出更高分时，就果断停止训练，防止过度刷题导致死记硬背（过拟合）。
在这里插入图片描述

正则化 generalization

(1) L1 正则化（Lasso Regression）

在这里插入图片描述

L2正则化（岭回归/Ridge Regression）

在这里插入图片描述

范数惩罚（Norm Penalty）

在这里插入图片描述

权重衰减（Weight Decay）

在这里插入图片描述

Dropout方法

Dropout通过在训练阶段随机丢弃(drop)一部分神经元（将其输出置零），迫使网络不依赖任何单个神经元，从而提升模型的泛化能力。
当模型在训练集表现明显优于验证集时，优先尝试增加Dropout。现代架构（如Transformer）中，Dropout仍是防止过拟合的关键组件。

查看全文

http://www.dtcms.com/a/107533.html

spring boot 集成redis 中RedisTemplate 、SessionCallback和RedisCallback使用对比详解，最后表格总结

系统思考与时间管理

在MFC中使用Qt（五）：MFC和Qt的共存和交互

经典算法最长公共子序列问题

GPU与CUDA对应

阿里云服务器对接高防的时候可能会出现的问题

鸿蒙应用元服务开发-Account Kit 常见问题说明

BRC认证是什么？如何获得BRC认证？对企业发展的好处

解决Oracle PL/SQL中“表或视图不存在“错误的完整指南

数据分析与知识发现论文阅读【信息抽取】

OSD显示

动态规划——区间DP

RedisTemplate 的 6 个可配置序列化器属性对比

apk签名与对齐

android databinding使用教程

modelscope环境准备--装conda、内网穿透、配置HuggingFace

在线sql 转 rust 模型(Diesel、SeaORM)，支持多数据 mysql, pg等

Java 大视界 -- Java 大数据在智能教育自适应学习平台中的用户行为分析与个性化推荐（169）

合并空值运算符??

爬虫【Scrapy框架的概念与执行流程】

c++中%符号使用的注意事项/易错点

limma差异分析

Scala面向对象

多层内网渗透测试虚拟仿真实验环境（Tomcat、ladon64、frp、Weblogic、权限维持、SSH Server Wrapper后门）

鸿蒙开发_TS快速入门_TS中模块化操作_模块的导入导出---纯血鸿蒙HarmonyOS5.0工作笔记008

MySQL主从复制（三）

【Axure元件分享】时间范围选择器

阿里云国际站代理商：模型训练中断数据丢失怎么办？

DAY 34 leetcode 349--哈希表.两个数组的交集

【Linux网络与网络编程】04.TCP Socket编程

泛化能力差的原因

过拟合

欠拟合

训练策略

k折交叉验证 k-fold cross-validation

提前终止 earlystopping

正则化 generalization

(1) L1 正则化（Lasso Regression）

L2正则化（岭回归/Ridge Regression）

范数惩罚 （Norm Penalty）

权重衰减 （Weight Decay）

Dropout方法

相关文章：

范数惩罚（Norm Penalty）

权重衰减（Weight Decay）