当前位置: 首页 > news >正文

机器学习实践项目(二)- 房价预测 - 处理数据

从混乱到整洁:Kaggle房价预测数据清洗与特征处理

📘 本文是 Kaggle 房价预测系列第二篇,带你从原始数据走向机器可理解的干净特征矩阵。
我们将一步步完成数据合并、特征编码、缺失值填补和标准化,为后续建模打好地基。


📖 目录

  1. 数据合并与目标变量分离
  2. 类别特征处理(One-Hot 编码)
  3. 缺失值填补
  4. 数值标准化
  5. 生成训练与测试数据
  6. 小结

一、数据合并与目标变量分离

在 Kaggle 房价项目中,训练集和测试集的字段完全一致。
为了保证处理方式统一,我们先将两者合并。

import numpy as np
import pandas as pdtrain_df = pd.read_csv('./input/train.csv')
test_df = pd.read_csv('./input/test.csv')# 取出目标变量并取对数
y_train = np.log1p(train_df.pop("SalePrice"))# 合并训练集与测试集
all_df = pd.concat((train_df, test_df), axis=0)

二、类别特征处理:One-Hot 编码

模型无法直接理解字符串型类别数据,因此我们需要将它们转换为数值形式。
最常用的方法是 独热编码(One-Hot Encoding)

all_dummy_df = pd.get_dummies(all_df, dtype=int)
all_dummy_df.head()

独热编码会为每个类别生成一个 0/1 变量。
例如,MSSubClass 原本有 16 个取值,就会被展开为 16 个特征。


三、缺失值填补

现实世界的数据总有缺失。我们先检查缺失列:

all_dummy_df.isnull().sum().sort_values(ascending=False).head()

然后用每列的均值来填补数值型缺失:

mean_cols = all_dummy_df.mean()
all_dummy_df = all_dummy_df.fillna(mean_cols)

如果是类别特征缺失,pd.get_dummies() 已自动将其视为 0/1。
对数值型列,这种均值填充是快速又稳妥的方式。


四、数值标准化

线性模型、岭回归等算法对特征量纲敏感。
因此,我们要对数值特征做标准化(均值为 0,方差为 1)。

numeric_cols = all_df.columns[all_df.dtypes != 'object']for col in numeric_cols:all_dummy_df[col] = (all_dummy_df[col] - all_dummy_df[col].mean()) / all_dummy_df[col].std()

五、生成训练与测试数据

数据清洗完成后,我们重新拆分训练集与测试集:

dummy_train_df = all_dummy_df.iloc[train_df.index]
dummy_test_df = all_dummy_df.iloc[test_df.index]X_train = dummy_train_df.values
X_test = dummy_test_df.values

现在,X_trainX_test 就是干净统一的特征矩阵,可以直接喂给模型使用。


六、小结

✅ 至此,我们完成了数据清洗的关键步骤:

步骤操作目的
数据合并拼接 train/test确保一致性
One-Hot 编码类别 → 0/1模型可识别
缺失值填补用均值补全防止错误
标准化调整量纲稳定训练

🚀 在下一篇《Kaggle房价预测(三)——从模型到预测》
我们将正式进入建模阶段,使用岭回归与随机森林进行预测。

http://www.dtcms.com/a/562529.html

相关文章:

  • 网站asp.net安装谷歌搜索广告
  • 成功案例 品牌网站wordpress网站的配置文件
  • wordpress插件教程福州百度seo
  • 网站建设与微信公众号绑定创建网页的代码
  • 常州做网站的 武进如何开发手机端网站
  • 产品展示网站源码php好玩的传奇
  • 如何做购物网站的教程潍坊企业建站系统
  • 低价网站建设案例seolxw
  • 网站内容设计模板一个小型购物网站开发
  • 武陟外贸英文网站建设餐饮平台app有哪些
  • 高效文件同步工具:rsync 命令详解
  • 建设网站用什么语言编写怎么注册一个自己的平台
  • 济南网络建站模板什么网站免费制作
  • 青龙建站网wordpress安装创建数据库
  • 濮阳大濮网联系电话广东seo网站优化公司
  • 网站手机适配跳转外贸SOHO建公司网站
  • 购物网站建设图标大全临海市住房与城乡建设规划局 网站
  • 商务网站建设项目的技术可行性上海网页设计师培训
  • 深圳建站公司一般需要多久ps做字幕模板下载网站有哪些
  • xiaomiAir13.3升级专用存储安装Ubuntu
  • 泉州网站建设方案服务开网站需要投资多少钱
  • 南通网站免费建设公司网站服务器选择
  • 有域名和服务器怎么建网站快速微信网站建设
  • 【开发者导航】高速精准的实时目标检测工具:YOLOv8 详细介绍
  • 第二十一周周报
  • 濮阳河南网站建设wordpress 知乎模版
  • PlantKnow---植物识别App
  • mqtt 5.0和mqtt 3.1.1主要区别有哪些
  • dw做网站一般需要多大尺寸数字广东网络建设有限公司介绍
  • 教学资源网站建设设计基于php的动态校园兼职网站设计论文