当前位置: 首页 > news >正文

机器学习中采样哪些事

在机器学习中采样主要分为两种,过采样(Oversample)和欠采样(Undersample)。过采样就是通过增加少数类样本的数量来平衡数据集。而欠采样就是通过减少多数类样本的数量来平衡数据集。

通常在进行采样中以下是几种常用的方法:

1. 随机采样

随机采样适用于过采样和欠采样。其操作方法就是随机复制增加少数类样本或者随机增加删除减少多数类样本。

下面是一个代码例子:

import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from imblearn.over_sampling import RandomOverSampler
from imblearn.under_sampling import RandomUnderSampler#创建一个不平衡的分类数据集
X, y = make_classification(n_classes=2, class_sep=2,weights=[0.1, 0.9], n_informative=3, n_redundant=1,flip_y=0,n_features=20, n_clusters_per_class=1, n_samples=1000, random_state=10)df = pd.DataFrame(X)
df['target'] = y
# 查看类别分布
print("Original dataset shape:", df['target'].value_counts())# 随机过采样
ros = RandomOverSampler(random_state=42)
X_resampled_ros, y_resampled_ros = ros.fit_resample(X, y)
df_ros = pd.DataFrame(X_resampled_ros)
df_ros['target'] = y_resampled_ros
# 查看过采样后的类别分布
print("Resampled dataset shape (Oversampling):", df_ros['target'].value_counts())#随机负采样
rus = RandomUnderSampler(random_state=42)
X_resampled_rus, y_resampled_rus = rus.fit_resample(X, y)
df_rus = pd.DataFrame(X_resampled_rus)
df_rus['target'] = y_resampled_rus
print("Resampled dataset shape (Undersampling):", df_rus['target'].value_counts())

2.SMOTE

通过在少数类样本之间插值生成合成样本,通常用于过采样。

import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from imblearn.over_sampling import SMOTE# 省略df
#......
# 过采样
smote = SMOTE(random_state=42)X_resampled_smote, y_resampled_smote = smote.fit_resample(X, y)
df_smote = pd.DataFrame(X_resampled_smote)
df_smote['target'] = y_resampled_smote
print("Resampled dataset shape (SMOTE):", df_smote['target'].value_counts())

3.Tomek Links

这种方法是通过删除多数类中靠近少数类的边界样本来实现欠采样。工作原理如下:

计算最近邻:对于每个样本,计算其最近邻样本。

识别 Tomek Links:如果一个多数类样本的最近邻是一个少数类样本,那么这两个样本构成一个 Tomek Link。

移除多数类样本:从数据集中移除那些构成 Tomek Link 的多数类样本。

重复上述步骤:直到没有更多的 Tomek Links 

Tomek Links通过移除边界上的多数类样本,可以减少多数类样本的数量,同时尽量保留数据集的结构信息。适用于处理那些多数类样本与少数类样本紧密相连的情况。但是同时Tomek Links不能完全平衡数据集,因为移除的样本数量有限。

import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from imblearn.under_sampling import TomekLinks# 初始化 TomekLinks
tomek = TomekLinks()# 欠采样
X_resampled_tomek, y_resampled_tomek = tomek.fit_resample(X, y)df_tomek = pd.DataFrame(X_resampled_tomek)
df_tomek['target'] = y_resampled_tomek
print("Resampled dataset shape (Tomek Links):", df_tomek['target'].value_counts())

4.NearMiss

NearMiss 是一种基于最近邻的欠采样方法,用于处理不平衡数据集。它的核心思想是通过移除多数类中与少数类样本距离较近的样本,或者移除多数类中距离最远的样本,从而减少多数类的样本数量。NearMiss 提供了多种策略来选择需要移除的样本。

import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from imblearn.under_sampling import NearMiss# df#NearMiss 提供了三种策略:
#版本 1:移除多数类中与少数类样本距离最近的样本。
#版本 2:移除多数类中与少数类样本距离最远的样本。
#版本 3:移除多数类中距离最远的样本,但不考虑少数类样本。# 初始化 NearMiss,选择版本 1
nearmiss = NearMiss(version=1, random_state=42)X_resampled_nearmiss, y_resampled_nearmiss = nearmiss.fit_resample(X, y)df_nearmiss = pd.DataFrame(X_resampled_nearmiss)
df_nearmiss['target'] = y_resampled_nearmiss
print("Resampled dataset shape (NearMiss Version 1):", df_nearmiss['target'].value_counts())

相关文章:

  • React 第四十二节 Router 中useLoaderData的用途详解
  • 牛客网NC22015:最大值和最小值
  • 全面解析机器学习与深度学习中的模型权重文件格式与应用场景
  • 【HarmonyOS 5】鸿蒙mPaaS详解
  • 《Python星球日记》 第80天:目标检测(YOLO、Mask R-CNN)
  • Uniapp 安卓实现讯飞语音听写(复制即用)
  • 隆重推荐(Android 和 iOS)UI 自动化工具—Maestro
  • [数据结构]7. 堆-Heap
  • 单片机-STM32部分:17、数码管
  • Elasticsearch 分片机制高频面试题(含参考答案)
  • 乡村农家游乐小程序源码介绍
  • 【测试工具】selenium和playwright如何选择去构建自动化平台
  • duxapp 2025-01-13 更新 支持小程序配置文件
  • STC8H系列单片机STC8H_H头文件功能注释
  • 【hot100-动态规划-300.最长递增子序列】
  • Vue3 本地环境 Vite 与生产环境 Nginx 反向代理配置方法汇总【反向代理篇】
  • Python多线程
  • 微信小程序医院挂号系统+SSM开发详解
  • conda更换清华源
  • 音频/AI/BLE/WIFI/玩具/商业等方向的论坛网站总结
  • 国税总局上海市税务局回应刘晓庆被举报涉嫌偷漏税:正依法依规办理
  • “养胃骗局”大公开,真正有用的方法究竟是?
  • 今年前4个月上海对拉美国家进出口总值增长2%
  • 人民日报评外卖平台被约谈:合法规范经营,公平有序竞争
  • 多家外资看好中国市场!野村建议“战术超配”,花旗上调恒指目标价
  • 甘肃:今年6月前,由县级党委、政府制定农村彩礼倡导性标准