当前位置：首页 > wzjs >正文

工程建设合同湖南专业seo优化

wzjs 2025/8/7 19:58:27

工程建设合同,湖南专业seo优化,天猫入驻官网入口,蚌埠网站优化制作公司学习笔记(24): 机器学习之数据预处理Pandas和转换成张量格式[2] 学习机器学习，需要学习如何预处理原始数据，这里用到pandas，将原始数据转换为张量格式的数据。学习笔记(23): 机器学习之数据预处理Pandas和转换成张量格式[1]-CSDN博客下面…

学习笔记(24): 机器学习之数据预处理Pandas和转换成张量格式[2]

学习机器学习，需要学习如何预处理原始数据，这里用到pandas，将原始数据转换为张量格式的数据。

学习笔记(23): 机器学习之数据预处理Pandas和转换成张量格式[1]-CSDN博客

下面介绍下：处理缺失值(删除法)

为什么要这样做？

这种处理缺失值的策略很实用，当某列的缺失值比例过高时，保留该列可能会对后续分析造成负面影响。删除缺失值最多的列可以避免在缺失值填充时引入过多噪声，提高数据质量。

原始数据:
NumRoos Alley Price
0 NaN Pave 127500
1 2.0 NaN 106000
2 4.0 NaN 178100
3 NaN NaN 140000

1、处理缺失值(删除法)

“NaN”项代表缺失值。为了处理缺失的数据，典型的方法包括插值法和删除法，其中插值法用一个替代值弥补缺失值，而删除法则直接忽略缺失值。在这里，我们将考虑删除法。

1.1、代码

# 处理缺失值
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
# 转换 NumRoos 列为数值类型（将 'NA' 转为 NaN）
inputs['NumRoos'] = pd.to_numeric(inputs['NumRoos'],errors='coerce')# 计算每列的缺失值数量
miss_counts = inputs.isna().sum()
print("\n各列缺失值数量:")
print(miss_counts)# 找出缺失值最多的列
if not miss_counts.empty:max_miss = miss_counts.max()  # 计算最大缺失值数量,结果为3（Alley列有3个缺失值print(max_miss)clos_drop = miss_counts[miss_counts ==max_miss].index.tolist() #筛选出缺失值数量等于最大值的列,miss_counts == max_miss 返回布尔 Seriesinputs = inputs.drop(columns=clos_drop)  #删除筛选出的列print(f"\n已删除缺失值最多的列: {clos_drop}")# 用均值填充 NumRoos 列的缺失值
inputs['NumRoos'] = inputs['NumRoos'].fillna(inputs['NumRoos'].mean())print("\n处理后的数据:")
print(inputs)

代码解析如下

1. 数据分割：提取输入特征和输出标签
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]

inputs：提取数据的前两列（索引 0 和 1）作为特征（NumRoos和Alley）。
outputs：提取第三列（索引 2）作为目标变量（Price）。
2. 将NumRoos列转换为数值类型
inputs['NumRoos'] = pd.to_numeric(inputs['NumRoos'], errors='coerce')

pd.to_numeric(..., errors='coerce')：将字符串类型的数值转换为数字，无法转换的（如NA）会被转为NaN（缺失值）。
3. 计算每列的缺失值数量
miss_counts = inputs.isna().sum()
print("\n各列缺失值数量:")
print(miss_counts)
inputs.isna()：返回一个布尔型 DataFrame，标记每个位置是否为缺失值。
.sum()：统计每列的True（缺失值）数量。

#筛选出缺失值数量等于最大值的列

clos_drop = miss_counts[miss_counts == max_miss].index.tolist()

这行代码主要做了三件事：筛选、提取索引、转换为列表。

1、筛选操作 missing_counts[...]

miss_counts == max_miss 返回布尔 Series
miss_counts[...] 筛选出值为True的行（即Alley）。

# 结果:
# NumRoos False
# Alley True
# dtype: bool

2、.index 获取列名

筛选结果是一个新的 Series，我们需要它的索引（也就是列名）

# 结果:
# Index(['Alley'], dtype='object')

3、.tolist() 转换为列表

.index.tolist() 将列名转为列表 ['Alley']。

为什么要转换为列表？

你可能会问：为什么不直接用索引对象，而非要转成列表呢？这主要是为了兼容drop()方法。drop()方法的columns参数可以接受列名列表或索引对象，但列表更灵活，方便后续处理。

关键细节总结
1、缺失值处理策略：
优先删除缺失比例最高的列（Alley列缺失率 75%）。
对剩余列（NumRoos）用均值填充。
2、数据类型转换：
pd.to_numeric(..., errors='coerce') 是处理含缺失值的数值列的常用方法。
3、边缘情况处理：
当有多个列缺失值数量相同时（如两列均有 3 个缺失值），会同时删除这些列。
if not miss_counts.empty 确保无缺失值时不会报错。

# 用均值填充 NumRoos 列的缺失值

inputs['NumRoos'] = inputs['NumRoos'].fillna(inputs['NumRoos'].mean())

inputs['NumRoos'].mean()：计算NumRoos列的均值（结果为 3.0，因为有效数值为 2 和 4）。
.fillna(...)：将NumRoos列的缺失值（NaN）填充为均值 3.0。

1.2、执行结果

2、转换为张量格式

现在inputs和outputs中的所有条目都是数值类型，它们可以转换为张量格式。

2.1、代码

import torch
print("\n转换成张量数据:")
x = torch.tensor(inputs.to_numpy(dtype=float))
print(x)
y = torch.tensor(outputs.to_numpy(dtype=float))
print(y)

2.2、执行结果

pandas软件包是Python中常用的数据分析工具中，pandas可以与张量兼容。
用pandas处理缺失的数据时，我们可根据情况选择用插值法和删除法。

查看全文

http://www.dtcms.com/wzjs/257479.html

html5网页设计软件网站优化课程

购物网站管理系统免费建站网站一级

网站制作价格明细百度客户端手机版

asp做企业网站很好啊大连网络推广

刚做外贸最好用哪个网站北京搜索优化排名公司

嵌入式软件开发是什么专业短视频seo优化排名

凡客手机网站怎么建设网络推广属于什么专业

交友免费的网站建设哈尔滨最新今日头条新闻

淘客手机版网站怎么做免费推广app软件下载

百度收录网站的图片整合营销传播工具有哪些

phpcms做的网站网站制作论文

网站怎么做站内美化成人技能培训机构

珲春建设局网站苏州优化排名seo

html5手机网站制作软件seo教程seo教程

邱县做网站北京网站优化推广方案

网站代备案网络推广软件免费

英文网站策划产品推广策划书

建设工程公司企业文化惠州seo外包公司

人民政府网站建设网站关键词全国各地的排名情况

电子网站建设策划模板seo关键词排名优化的方法

潍坊网站建设服务商百度推广四川成都地区服务中心

做网站时怎样图片上传怎么才能让图片不变形_有什么插件吗网站查询备案信息

网站制作网站做网重庆关键词排名推广

往网站添加图片吗种子搜索神器在线搜

做便宜网站百度搜索简洁版网址

烟台网站制作培训营销公司取名字大全

东莞塘厦做网站媒体网站

界首做网站软文广告300字范文

学校网站代码广告联盟接单平台

滨海新区做网站电话手机网站seo免费软件