当前位置: 首页 > news >正文

【学习笔记】机器学习(Machine Learning) | 第六章(2)| 过拟合问题

机器学习(Machine Learning)

简要声明

基于吴恩达教授(Andrew Ng)课程视频
BiliBili课程资源


文章目录

  • 机器学习(Machine Learning)
    • 简要声明
  • 解决过拟合问题
    • 一、收集更多训练数据
    • 二、选择特征
    • 三、正则化
    • 四、过拟合解决方法总结


过拟合与欠拟合问题

解决过拟合问题

一、收集更多训练数据

增加训练数据量是解决过拟合的一种有效方法。更多的数据可以帮助模型学习到更通用的模式,减少过拟合的风险。

  • 原理:更多的训练样本可以提供更全面的信息,使模型更好地泛化。
  • 示例:如果模型在有限的房屋价格数据上过拟合,增加更多不同大小、价格的房屋数据可以使模型更准确地预测新数据。

在这里插入图片描述


二、选择特征

选择合适的特征可以减少模型的复杂度,从而降低过拟合的可能性。

  • 特征选择:从众多特征中选择最相关的特征,去除无关或冗余的特征。
  • 优点:减少模型复杂度,提高训练速度。
  • 缺点:可能丢失一些有用的信息。
特征选择方法说明
Filter Methods通过相关性分析等方法预选特征
Wrapper Methods通过模型性能评估选择特征组合
Embedded Methods在模型训练过程中自动选择特征

在这里插入图片描述


三、正则化

正则化是一种通过在损失函数中添加惩罚项来限制模型复杂度的方法。

  • L1正则化:添加参数的绝对值之和。公式为: λ ∑ j = 1 n ∣ w j ∣ \lambda \sum_{j=1}^{n} |w_j| λj=1nwj
  • L2正则化:添加参数的平方和。公式为: λ ∑ j = 1 n w j 2 \lambda \sum_{j=1}^{n} w_j^2 λj=1nwj2
  • 作用:使参数值更小,减少模型对单个特征的依赖。
正则化方法优点缺点
L1正则化可进行特征选择,稀疏性好收敛速度较慢
L2正则化收敛速度快,稳定性好无法进行特征选择

四、过拟合解决方法总结

方法适用场景优点缺点
收集更多数据训练数据量不足时提高模型泛化能力数据收集成本高
特征选择特征数量多且存在冗余特征时减少模型复杂度,提高训练速度可能丢失有用信息
正则化模型参数量大,容易过拟合时有效控制模型复杂度,提高泛化能力需要调整正则化参数
交叉验证数据集有限,需要充分利用数据进行模型评估时减少数据浪费,提高模型评估准确性计算成本高
早停模型训练时间长,容易过拟合时防止模型在训练集上过优化,保存较好的泛化能力需要确定合适的停止点

continue…

相关文章:

  • 基于STM32、HAL库的LPS22HBTR 气压传感器 驱动程序设计
  • 产品功能更新迭代后需要重做算法备案吗?
  • 时空注意力机制深度解析:理论、技术与应用全景
  • ThreadLocal 详解
  • Kafka、RabbitMQ 和 RocketMQ区别及上手难度
  • LVGL(lv_checkbox复选框按键)
  • MySQL 全量、增量备份与恢复
  • RabbitMQ ③-Spring使用RabbitMQ
  • 段错误(Segmentation Fault)总结
  • Java MVC
  • 【HarmonyOS Next之旅】DevEco Studio使用指南(二十二)
  • Java使用POI+反射灵活的控制字段导出Excel
  • 18.three官方示例+编辑器+AI快速学习webgl_buffergeometry_points_interleaved
  • 神经网络初步学习——感知机
  • 《步进电机最小转速终极指南:从理论到实战,突破低速极限的5大秘技》
  • 了解神经网络声音定制,实现多情绪、多语言演绎
  • 推理加速新范式:火山引擎高性能分布式 KVCache (EIC)核心技术解读
  • 搜索二维矩阵 II 算法讲解
  • 矩阵置零算法讲解
  • 使用 AddressSanitizer 检测栈内存越界错误
  • 短剧植入,撬不动96.4%直男的钱包 | 调研报告
  • 住建部:截至去年底常住人口城镇化率达到67%
  • 这个东西每道菜里都有,却可能让你得一身病,做好这些能避免
  • 上海中心城区首条“定制化低空观光航线”启航,可提前一天提需求
  • 复旦兼职教授高纪凡首秀,勉励学子“看三十年才能看见使命”
  • 女巫的继承者们