当前位置: 首页 > news >正文

3.正则化——新闻分类

影响结果出了最终的目标,还会有许多细节因素

在机器学习中,往往会面临很多过拟合和欠拟合的问题。
欠拟合是训练不到位,过拟合是训练过头,会导致泛化性差
在这里插入图片描述
正则化是在损失函数中添加一个惩罚项,以简化模型

在这里插入图片描述
对于惩罚项Penalty——L1、L2
L1正则化:
会使一些特征的权重变为0,因此可以用来做特征选择。
λ是超参数,用于控制正则化强度,wi是第i个特征的权重
优点:减少特征数量
缺点:可能会过度惩罚某些特征,导致一些有用信息被舍弃
在这里插入图片描述

L2正则化:
使所有特征的权重都变小且不为零。
优点:降低权重,防止过拟合
在这里插入图片描述

正则化有广泛的应用
在线性回归中:通过添加L1、L2进行正则化
在神经网络中:通过添加正则项,控制模型复杂度

多元线性回归+L1——Lasso回归
在这里插入图片描述

多元线性回归+L2——Ridge岭回归

新闻分类

from sklearn.datasets import fetch_20newsgroups
from sklearn.pipline import make_pipeline
from sklearn.feature_extraction.text import Countvectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_scoretrain = fetch_20newsgroups(subset="train")
test = fetch_20newsgroups(subset="test")#数据是文本文件,须通过pipeline提取,提取后通过CountVectorizer向量化,然后采用逻辑回归训练
pipeline = make_pipeline(CountVectorizer(), LogisticRegression(max_iter = 3000))pipeline.fit(train.data, train.target)y_pred = pipeline.predict(test.data)print("Accuracy:%。2f" % accuracy_score(test.target, y_pred))

文章转载自:
http://encarpus.wjrtg.cn
http://astringer.wjrtg.cn
http://basho.wjrtg.cn
http://biometrician.wjrtg.cn
http://alumna.wjrtg.cn
http://quadric.wjrtg.cn
http://feudalization.wjrtg.cn
http://diary.wjrtg.cn
http://haversack.wjrtg.cn
http://abjectly.wjrtg.cn
http://amethystine.wjrtg.cn
http://bernice.wjrtg.cn
http://carcinogenesis.wjrtg.cn
http://elongate.wjrtg.cn
http://payroll.wjrtg.cn
http://spectacled.wjrtg.cn
http://raschel.wjrtg.cn
http://mann.wjrtg.cn
http://ems.wjrtg.cn
http://speakable.wjrtg.cn
http://stut.wjrtg.cn
http://highlight.wjrtg.cn
http://rheims.wjrtg.cn
http://indeclinable.wjrtg.cn
http://longyearbyen.wjrtg.cn
http://ploidy.wjrtg.cn
http://denominate.wjrtg.cn
http://putrid.wjrtg.cn
http://visualise.wjrtg.cn
http://bonze.wjrtg.cn
http://www.dtcms.com/a/280712.html

相关文章:

  • 生产问题排查-数据库连接池耗尽
  • 牛客:HJ23 删除字符串中出现次数最少的字符[华为机考][字符串]
  • Linux 环境下安装 Node.js v16.13.0 完整指南
  • MongoDB 数据库 启用访问控制
  • Volta现代化的 Node.js 版本管理工具
  • CSRF 攻击原理与实验测试(附可运行测试案例)
  • NineData 社区版 V4.3.0 正式发布!新增 5 条迁移对比链路,全面支持 MariaDB、GaussDB 等数据库
  • [附源码+数据库+毕业论文]基于Spring+MyBatis+MySQL+Maven+vue实现的酒店预订管理系统,推荐!
  • Gitlab跑CICD的时候,maven镜像和pom.xml使用的maven版本冲突导致没办法build成功的解决方法
  • [附源码+数据库+毕业论文+开题报告]基于Spring+MyBatis+MySQL+Maven+jsp实现的车辆运输管理系统,推荐!
  • 2025-7-15-C++ 学习 排序(4)
  • langchain教程10:LCEL
  • 【c++】c++11新特性(右值引用和移动语义)
  • PySpark 常用算子详解
  • 【BUG处理】构建APK时遇到错误:‘flutter‘ 命令未被识别。这通常表示您的系统中未安装Flutter SDK或环境变量配置不正确。
  • 牛客:HJ20 密码验证合格程序[华为机考][字符串]
  • 【源力觉醒 创作者计划】文心4.5 vs DeepSeek vs Qwen 3.0:三大能力硬核实测!谁才是王者?
  • 纸板加工制造学习1
  • CF37E Trial for Chief 题解
  • 青年科学基金项目答辩PPT模板 | 杰青优青ppt设计制作美化 | WordinPPT
  • uni-app 学习笔记:Vuex 持久化数据
  • 【C++】神奇的AVL树
  • Java单元测试JUnit
  • 使用 Java 获取 PDF 页面信息(页数、尺寸、旋转角度、方向、标签与边框)
  • 已知均数与标准差,如何生成一组正态分布数据?
  • EPLAN 电气制图(九):直流电源绘制+端子排绘制
  • 线程(二) linux 互斥
  • JVM——有哪些常见的垃圾收集器
  • Props
  • 时序数据库与AI的融合:智能时代的数据基石