当前位置：首页 > news >正文

3.正则化——新闻分类

news 2025/7/16 6:57:10

影响结果出了最终的目标，还会有许多细节因素

在机器学习中，往往会面临很多过拟合和欠拟合的问题。
欠拟合是训练不到位，过拟合是训练过头，会导致泛化性差
在这里插入图片描述
正则化是在损失函数中添加一个惩罚项，以简化模型

在这里插入图片描述
对于惩罚项Penalty——L1、L2
L1正则化：
会使一些特征的权重变为0，因此可以用来做特征选择。
λ是超参数，用于控制正则化强度，wi是第i个特征的权重
优点：减少特征数量
缺点：可能会过度惩罚某些特征，导致一些有用信息被舍弃
在这里插入图片描述

L2正则化：
使所有特征的权重都变小且不为零。
优点：降低权重，防止过拟合
在这里插入图片描述

正则化有广泛的应用
在线性回归中：通过添加L1、L2进行正则化
在神经网络中：通过添加正则项，控制模型复杂度

多元线性回归+L1——Lasso回归
在这里插入图片描述

多元线性回归+L2——Ridge岭回归

新闻分类

from sklearn.datasets import fetch_20newsgroups
from sklearn.pipline import make_pipeline
from sklearn.feature_extraction.text import Countvectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_scoretrain = fetch_20newsgroups(subset="train")
test = fetch_20newsgroups(subset="test")#数据是文本文件，须通过pipeline提取,提取后通过CountVectorizer向量化，然后采用逻辑回归训练
pipeline = make_pipeline(CountVectorizer(), LogisticRegression(max_iter = 3000))pipeline.fit(train.data, train.target)y_pred = pipeline.predict(test.data)print("Accuracy：%。2f" % accuracy_score(test.target, y_pred))

文章转载自：
http://encarpus.wjrtg.cn
http://astringer.wjrtg.cn
http://basho.wjrtg.cn
http://biometrician.wjrtg.cn
http://alumna.wjrtg.cn
http://quadric.wjrtg.cn
http://feudalization.wjrtg.cn
http://diary.wjrtg.cn
http://haversack.wjrtg.cn
http://abjectly.wjrtg.cn
http://amethystine.wjrtg.cn
http://bernice.wjrtg.cn
http://carcinogenesis.wjrtg.cn
http://elongate.wjrtg.cn
http://payroll.wjrtg.cn
http://spectacled.wjrtg.cn
http://raschel.wjrtg.cn
http://mann.wjrtg.cn
http://ems.wjrtg.cn
http://speakable.wjrtg.cn
http://stut.wjrtg.cn
http://highlight.wjrtg.cn
http://rheims.wjrtg.cn
http://indeclinable.wjrtg.cn
http://longyearbyen.wjrtg.cn
http://ploidy.wjrtg.cn
http://denominate.wjrtg.cn
http://putrid.wjrtg.cn
http://visualise.wjrtg.cn
http://bonze.wjrtg.cn

http://www.dtcms.com/a/280712.html

相关文章：

生产问题排查-数据库连接池耗尽

牛客：HJ23 删除字符串中出现次数最少的字符[华为机考][字符串]

Linux 环境下安装 Node.js v16.13.0 完整指南

MongoDB 数据库启用访问控制

Volta现代化的 Node.js 版本管理工具

CSRF 攻击原理与实验测试（附可运行测试案例）

NineData 社区版 V4.3.0 正式发布！新增 5 条迁移对比链路，全面支持 MariaDB、GaussDB 等数据库

[附源码+数据库+毕业论文]基于Spring+MyBatis+MySQL+Maven+vue实现的酒店预订管理系统，推荐！

Gitlab跑CICD的时候，maven镜像和pom.xml使用的maven版本冲突导致没办法build成功的解决方法

[附源码+数据库+毕业论文+开题报告]基于Spring+MyBatis+MySQL+Maven+jsp实现的车辆运输管理系统，推荐！

2025-7-15-C++ 学习排序（4）

langchain教程10：LCEL

【c++】c++11新特性（右值引用和移动语义）

PySpark 常用算子详解

【BUG处理】构建APK时遇到错误：‘flutter‘ 命令未被识别。这通常表示您的系统中未安装Flutter SDK或环境变量配置不正确。

牛客：HJ20 密码验证合格程序[华为机考][字符串]

【源力觉醒创作者计划】文心4.5 vs DeepSeek vs Qwen 3.0：三大能力硬核实测！谁才是王者？

纸板加工制造学习1

CF37E Trial for Chief 题解

青年科学基金项目答辩PPT模板 | 杰青优青ppt设计制作美化 | WordinPPT

uni-app 学习笔记：Vuex 持久化数据

【C++】神奇的AVL树

Java单元测试JUnit

使用 Java 获取 PDF 页面信息（页数、尺寸、旋转角度、方向、标签与边框）

已知均数与标准差，如何生成一组正态分布数据？

EPLAN 电气制图（九）：直流电源绘制+端子排绘制

线程(二) linux 互斥

JVM——有哪些常见的垃圾收集器

Props

时序数据库与AI的融合：智能时代的数据基石