当前位置: 首页 > news >正文

AI人工智能之机器学习sklearn-数据预处理和划分数据集

1、概要

  本篇学习AI人工智能之机器学习sklearn数据预处理和划分数据集,从代码层面讲述如何进行数据的预处理和数据集划分。

2、简介

本片讲述数据预处理的标准化处理、归一化处理,以常用的两个类为例

  • 标准化处理类 StandardScaler
  • 归一化处理类 MinMaxScaler

在数据处理方面,使用train_test_split函数处理列表数据集为例

3、 数据预处理和数据集划分

3.1 安装依赖

python安装机器学习库: pip install scikit-learn

3.2、定义数据集
from sklearn.feature_extraction import text, DictVectorizer
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.model_selection import train_test_split

# 示例数据集合,是一个经过处理的列表数据  X
X = [[1, 2], [3, 4], [5, 6], [7, 8]]
print("data:", X)

# 示例打标的数据,
y = [0, 1, 0, 1]
print("tag", y)

运行上述代码,您将得到如下输出:

data: [[1, 2], [3, 4], [5, 6], [7, 8]]
tag [0, 1, 0, 1]
3.3 数据预处理 StandardScaler、MinMaxScaler
# 标准化处理
ss = StandardScaler()
# 将特征缩放到零均值和单位方差
X = ss.fit_transform(X)
X

运行上述代码,您将得到如下输出:

array([[-1.34164079, -1.34164079],
       [-0.4472136 , -0.4472136 ],
       [ 0.4472136 ,  0.4472136 ],
       [ 1.34164079,  1.34164079]])
# 归一化处理
mms = MinMaxScaler()
# 将特征缩放到一个范围(如[0,1])
X = mms.fit_transform(X) 
X

运行上述代码,您将得到如下输出:

array([[0.        , 0.        ],
       [0.33333333, 0.33333333],
       [0.66666667, 0.66666667],
       [1.        , 1.        ]])
3.4 划分数据集 train_test_split
# 划分训练集 _train, 测试集 _test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
print(f"训练集: {X_train} - {y_train}")
print(f"测试集: {X_test} - {y_test}")

运行上述代码,您将得到如下输出:

训练集: [[1.         1.        ]
 [0.         0.        ]
 [0.66666667 0.66666667]] - [1, 0, 0]
测试集: [[0.33333333 0.33333333]] - [1]

4、 总结

本篇以自定义数据集为例,从代码视角讲述如何对数据集进行预处理和数据集的划分。

相关文章:

  • 在使用ragflow时docker desktop出现内存不足的问题
  • 自定义SpringBoot Starter
  • 反向代理模块kfj
  • Java 内部类
  • 3_Hadoop集群的格式化、启动、关闭和状态
  • C++命名空间域
  • Pi币与XBIT:在去中心化交易所的崛起中重塑加密市场
  • 专业的UML开发工具StarUML
  • 华山论剑之JAVA中的“方法论”
  • 深入剖析:基于红黑树实现自定义 map 和 set 容器
  • 【运维】内网服务器借助通过某台可上外网的服务器实现公网访问
  • 双指针2:1089. 复写零
  • #6【TIP2023】Dif-Fusion
  • CSS 真的会阻塞文档解析吗?
  • android studio 中止了一个已建立的连接
  • 线程的状态
  • 结构化需求分析SA
  • JavaWeb开发入门:从前端到后端的完整流程解析
  • vue3按钮级别权限处理,自定义指令
  • redis主从哨兵模式+Lua报错-READONLY You can‘t write against a read
  • 百度手机导航官方新版/seo专家是什么意思
  • 中外商贸网站建设平台/首页排名关键词优化
  • 公司网页需要哪些内容/免费的关键词优化软件
  • 该网站正在建设中 马上就来/怎么在百度发广告
  • 织梦做的网站为什么显示404/精准数据营销方案
  • dreamweaver做网站学习解析/手机优化大师