当前位置: 首页 > wzjs >正文

汉中做网站的电话企业网站推广的方法有

汉中做网站的电话,企业网站推广的方法有,成全视频免费高清观看在线韩剧,网站开发需要用哪些东西在机器学习中采样主要分为两种,过采样(Oversample)和欠采样(Undersample)。过采样就是通过增加少数类样本的数量来平衡数据集。而欠采样就是通过减少多数类样本的数量来平衡数据集。 通常在进行采样中以下是几种常用的方法: 1. 随机采样 随…

在机器学习中采样主要分为两种,过采样(Oversample)和欠采样(Undersample)。过采样就是通过增加少数类样本的数量来平衡数据集。而欠采样就是通过减少多数类样本的数量来平衡数据集。

通常在进行采样中以下是几种常用的方法:

1. 随机采样

随机采样适用于过采样和欠采样。其操作方法就是随机复制增加少数类样本或者随机增加删除减少多数类样本。

下面是一个代码例子:

import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from imblearn.over_sampling import RandomOverSampler
from imblearn.under_sampling import RandomUnderSampler#创建一个不平衡的分类数据集
X, y = make_classification(n_classes=2, class_sep=2,weights=[0.1, 0.9], n_informative=3, n_redundant=1,flip_y=0,n_features=20, n_clusters_per_class=1, n_samples=1000, random_state=10)df = pd.DataFrame(X)
df['target'] = y
# 查看类别分布
print("Original dataset shape:", df['target'].value_counts())# 随机过采样
ros = RandomOverSampler(random_state=42)
X_resampled_ros, y_resampled_ros = ros.fit_resample(X, y)
df_ros = pd.DataFrame(X_resampled_ros)
df_ros['target'] = y_resampled_ros
# 查看过采样后的类别分布
print("Resampled dataset shape (Oversampling):", df_ros['target'].value_counts())#随机负采样
rus = RandomUnderSampler(random_state=42)
X_resampled_rus, y_resampled_rus = rus.fit_resample(X, y)
df_rus = pd.DataFrame(X_resampled_rus)
df_rus['target'] = y_resampled_rus
print("Resampled dataset shape (Undersampling):", df_rus['target'].value_counts())

2.SMOTE

通过在少数类样本之间插值生成合成样本,通常用于过采样。

import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from imblearn.over_sampling import SMOTE# 省略df
#......
# 过采样
smote = SMOTE(random_state=42)X_resampled_smote, y_resampled_smote = smote.fit_resample(X, y)
df_smote = pd.DataFrame(X_resampled_smote)
df_smote['target'] = y_resampled_smote
print("Resampled dataset shape (SMOTE):", df_smote['target'].value_counts())

3.Tomek Links

这种方法是通过删除多数类中靠近少数类的边界样本来实现欠采样。工作原理如下:

计算最近邻:对于每个样本,计算其最近邻样本。

识别 Tomek Links:如果一个多数类样本的最近邻是一个少数类样本,那么这两个样本构成一个 Tomek Link。

移除多数类样本:从数据集中移除那些构成 Tomek Link 的多数类样本。

重复上述步骤:直到没有更多的 Tomek Links 

Tomek Links通过移除边界上的多数类样本,可以减少多数类样本的数量,同时尽量保留数据集的结构信息。适用于处理那些多数类样本与少数类样本紧密相连的情况。但是同时Tomek Links不能完全平衡数据集,因为移除的样本数量有限。

import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from imblearn.under_sampling import TomekLinks# 初始化 TomekLinks
tomek = TomekLinks()# 欠采样
X_resampled_tomek, y_resampled_tomek = tomek.fit_resample(X, y)df_tomek = pd.DataFrame(X_resampled_tomek)
df_tomek['target'] = y_resampled_tomek
print("Resampled dataset shape (Tomek Links):", df_tomek['target'].value_counts())

4.NearMiss

NearMiss 是一种基于最近邻的欠采样方法,用于处理不平衡数据集。它的核心思想是通过移除多数类中与少数类样本距离较近的样本,或者移除多数类中距离最远的样本,从而减少多数类的样本数量。NearMiss 提供了多种策略来选择需要移除的样本。

import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from imblearn.under_sampling import NearMiss# df#NearMiss 提供了三种策略:
#版本 1:移除多数类中与少数类样本距离最近的样本。
#版本 2:移除多数类中与少数类样本距离最远的样本。
#版本 3:移除多数类中距离最远的样本,但不考虑少数类样本。# 初始化 NearMiss,选择版本 1
nearmiss = NearMiss(version=1, random_state=42)X_resampled_nearmiss, y_resampled_nearmiss = nearmiss.fit_resample(X, y)df_nearmiss = pd.DataFrame(X_resampled_nearmiss)
df_nearmiss['target'] = y_resampled_nearmiss
print("Resampled dataset shape (NearMiss Version 1):", df_nearmiss['target'].value_counts())

http://www.dtcms.com/wzjs/520776.html

相关文章:

  • 做异性的视频网站有哪些香港疫情最新消息
  • 有什么网站可以做家装网站设计制作教程
  • 只有一个页面的网站怎么做温岭网络推广
  • 做网站的费用进什么科目搜狐新闻手机网
  • 自已做个网站怎么做百度登录
  • 贵州省教育厅办公室关于开展2014年学校门户网站建设评估的通知网络项目资源网
  • 网站如何做的有气质怎样在网上做宣传
  • 建设工程人员信息网官网济南网络优化网站
  • 团队做网站分工周口网络推广公司
  • 网页网站免费佛山快速排名seo
  • 城市门户网站seodao cn
  • 汽车之家网站做的很烂厦门做网站公司有哪些
  • pc端的移动端网站建设培训学校怎么招生
  • 网站怎么推广出去seo入门基础教程
  • wordpress连接ftp用户名密码厦门seo结算
  • 南京做网站优化网站制作报价表
  • seo快照推广seo综合查询站长工具
  • 三丰云服务器win7系统优化大师
  • 微信网站制作教程视频网站搭建
  • dw5怎样做网站百度小说排行榜第一名
  • 网站 维护适合网络营销的产品
  • 自建网站的优缺点网络推广协议合同范本
  • 陕西网站建设报价定西seo排名
  • 哪些网站可以接生意做会计培训班推荐
  • 做外贸上阿里巴巴什么网站怎么引流推广
  • wordpress 文章页面怎样全屏显示seo外包公司如何优化
  • 做网站的价格贵吗哪有网页设计公司
  • django 企业网站开发seo排名工具提升流量
  • 山东省聊城建设学校网站seo优化标题
  • 曹妃甸网站建设谷歌在线浏览器免费入口