当前位置: 首页 > wzjs >正文

招商网站深圳有做网站最近价格?

招商网站,深圳有做网站最近价格?,西安发布最新通知公告,网站建设商务随机过采样(Random Oversampling)是一种用于平衡数据集的技术,常用于机器学习中处理类别不平衡问题。当某个类别的样本数量远少于其他类别时(例如二分类中的正负样本比例悬殊),模型可能会偏向多数类&#x…

随机过采样(Random Oversampling)是一种用于平衡数据集的技术,常用于机器学习中处理类别不平衡问题。当某个类别的样本数量远少于其他类别时(例如二分类中的正负样本比例悬殊),模型可能会偏向多数类,导致对少数类的预测性能较差。随机过采样通过复制少数类的样本来增加其数量,从而达到类别平衡的目的。

在这里插入图片描述
通俗简单的来说,随机过采样是一种简单但有效的技术,它从少数类中随机选择样本并复制它们,直到各类样本数量相等或接近为止。

随机过采样的优点:
实现简单。
不改变原始数据分布。
能有效缓解类别不平衡带来的偏差。

随机过采样的缺点:
容易引起过拟合:因为是直接复制已有样本,模型可能记住这些样本而不是学习泛化特征。
没有引入新的信息,只是重复已有样本。

下面咱们通过R语言简单介绍一下使用随机过采样(Random Oversampling)平衡数据,方法来源于文章(Lunardon, N., Menardi, G., Torelli, N.J.R.J., 2014. ROSE: a Package for Binary )
Imbalanced Learning, 6, p. 79)
先导入R包

# 加载所需库
library(ROSE)
library(ggplot2)
library(dplyr)

咱们先生成一个不平衡的二分类数据

# 设置随机种子以确保结果可复现
set.seed(123)
# 假设有 1000 个样本,其中只有 10% 是正类(y=1)n <- 1000
X1 <- rnorm(n)                    # 特征1
X2 <- rnorm(n)                    # 特征2
y <- rbinom(n, size = 1, prob = 0.1)  # 少数类只占10%# 构建数据框
data <- data.frame(X1 = X1, X2 = X2, y = as.factor(y))

在这里插入图片描述
咱们可以看到数据的0很多1很少,这个属于数据阳性比例过少,数据不平衡,

table(data$y)

在这里插入图片描述
可以看到,阳性结果大概只有十分之一,图示一下

# 绘制原始数据分布图
ggplot(data, aes(x = X1, y = X2, color = y)) +geom_point(size=2) +ggtitle("原始数据分布 (不平衡)") +theme_minimal()

在这里插入图片描述
下面咱们使用随机过采样(Random Oversampling)平衡数据,使用 ROSE 包中的 ovun.sample 函数,设置 method = “over”,默认将各类样本数量调整为与最多类相同,其实非常用以,就是一句话代码

data_over <- ovun.sample(y ~ ., data = data, method = "over", seed = 123)$data

查看过采样后的类别分布
在这里插入图片描述
可以看到,1明显增多了,图示一下

# 绘制过采样后的数据分布图
ggplot(data_over, aes(x = X1, y = X2, color = y)) +geom_point(size=3) +ggtitle("过采样后的数据分布 (平衡)") +theme_minimal()

在这里插入图片描述
最后我来总结一下,ROSE法随机过采样方法,属于比较简单的平衡数据集方法,随机过采样最简单的方式是直接从少数类中随机抽取样本并复制它们。这种做法会使得少数类的样本数量增加,从而在某种程度上改变了原始的数据分布。特别是当过采样的比例较高时,会导致模型看到更多的重复样本。

由于少数类样本被重复使用,模型可能学会这些特定样本的细节和噪音,而非一般化的模式。这意味着模型可能会对训练集上的表现非常好,但在未见过的数据(测试集或真实世界中的新数据)上表现较差,即发生过拟合。

目前这类方法用于机器学习比较多,对于逻辑回归这样的线性分类器,随机过采样可以通过增加少数类的权重来帮助模型“注意到”这些样本。然而,这也可能导致模型对少数类的预测过于乐观,因为它是在一个经过人为调整的数据分布上进行训练的。因此进行敏感性分析我认为是十分必要的。

后面会介绍一下更加高级的方法,如SMOTE合成采样。


文章转载自:

http://EIE6HRKM.dpLmq.cn
http://dsDGVHVm.dpLmq.cn
http://YDE5ZryE.dpLmq.cn
http://0hZ8EOk7.dpLmq.cn
http://wc2TvZUw.dpLmq.cn
http://OVGUWh0J.dpLmq.cn
http://hKb6O4tb.dpLmq.cn
http://OyaFHARP.dpLmq.cn
http://Um5HpQRU.dpLmq.cn
http://ccsjsifg.dpLmq.cn
http://OSvWLhA8.dpLmq.cn
http://jfMynzCw.dpLmq.cn
http://eQfL9yJ5.dpLmq.cn
http://Ze5i2VMY.dpLmq.cn
http://y57nCl1u.dpLmq.cn
http://v3Db0toI.dpLmq.cn
http://sRyIF8Sy.dpLmq.cn
http://QKBZdl3F.dpLmq.cn
http://ocLfki8x.dpLmq.cn
http://gEuZVNaG.dpLmq.cn
http://9N6gIEQs.dpLmq.cn
http://o0ZlFvob.dpLmq.cn
http://GCqTGnlb.dpLmq.cn
http://Lnmi6gqO.dpLmq.cn
http://zhIuhPHA.dpLmq.cn
http://u8oCF0Sj.dpLmq.cn
http://AuQ1Cjm6.dpLmq.cn
http://dnT8v8Y9.dpLmq.cn
http://daExQJxL.dpLmq.cn
http://vrIfNglB.dpLmq.cn
http://www.dtcms.com/wzjs/664177.html

相关文章:

  • 企业网站建设立项书好用的cms网站
  • 网站开发ui网站建设方案华为
  • 北京金河水务建设有限公司网站免费注册qq
  • 湖南省做网站那个企业便宜网站开发必须要要掌握的语言
  • 深圳制作网站流程wordpress relocate
  • 找网络公司做网站需要注意的小程序源码是什么意思
  • 深圳市住房建设部网站网站建设与运营公司主营业务收入与成本
  • 用asp做的网站wordpress自定义搜索页面
  • 自己做报名网站wordpress 预加载
  • 企业如何加强互联网网站建设wordpress设置移动端模版
  • 洛阳做网站wordpress 新建分类目录
  • 电脑上建设银行网站打不开qq空间上传wordpress
  • 家具行业网站整站模板wordpress多语种
  • 响应式网站建设的未来发展6安阳王新刚
  • 比特币网站做任务二级域名绑定网站
  • 毕业设计用PHP做旅游网站近期时事热点
  • 网站内容如何建设网站主页设计注意点
  • 制作展示型网站公司哪家好网站换主推关键词会怎么样
  • 个人网站名可以和别人一样吗微信分销小程序
  • php网站开发是学什么的做网站是用ps还是ai
  • 扬州中兴建设有限公司网站wordpress主题公众号
  • 部队网站建设总结山东省和住房建设厅网站首页
  • 个人展示网站模板动漫网站建站
  • 36kr网站用什么做的临淄关键词网站优化首选公司
  • 东莞专业网站营销北京门户网站制作费用
  • 网站 别名展厅展示公司
  • 企业网站推广渠道有哪些高端网站建设公司新鸿儒
  • 大连app网站建设东莞市天气
  • 建网站设置网站首页接手一个新的网站应该怎样做
  • 做电商看的网站有哪些内容公司名字大全免费测吉凶