模型欠拟合是什么?
模型的欠拟合:全面解析
一、定义与核心概念
欠拟合(Underfitting)是指模型在训练数据、验证数据和测试数据上均表现不佳的现象。其本质是模型过于简单或学习能力不足,无法捕捉数据中的潜在规律和复杂关系,导致泛化能力差。例如,用线性模型拟合非线性数据时,模型无法描述数据的真实分布,即典型的欠拟合场景。
二、欠拟合的主要原因
-
模型结构过于简单
模型复杂度不足是欠拟合的核心原因。例如:- 线性模型(如线性回归)用于非线性问题;
- 神经网络层数或神经元过少,无法表达复杂函数;
- 决策树深度不足,未能覆盖数据的关键划分。
-
特征工程不足
- 输入特征数量不足或质量差,导致模型无法提取有效信息;
- 缺乏关键特征(如未进行多项式扩展、交叉特征生成)。
-
训练过程缺陷
- 训练时间过短,模型未充分学习;
- 正则化过强(如L2正则化系数过大),抑制了模型的学习能力;
- 超参数设置不当(如学习率过低)。
-
数据问题
- 训练数据量过少,模型无法覆盖真实分布;
- 数据噪声过多,干扰模型对核心规律的捕捉。