当前位置：首页 > news >正文

Kaggle——House Prices（房屋价格预测）简单实现

news 2025/11/4 9:20:49

题目‌：

从Kaggle的“House Prices - Advanced Regression Techniques”数据集
使用Pandas读取数据，并查看数据的基本信息。
选择一些你认为对房屋价格有重要影响的特征，并进行数据预处理（如缺失值处理、异常值处理等）。
使用matplotlib绘制特征与目标变量（房屋价格）之间的散点图或箱线图，观察它们之间的关系。
将数据分为训练集和测试集。
使用numpy或scikit-learn搭建一个线性回归模型，并在训练集上进行训练。
在测试集上评估模型的性能，并计算均方误差（MSE）或均方根误差（RMSE）。
尝试使用不同的特征组合或进行特征选择，观察模型性能的变化。

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error# 设置中文显示
plt.rcParams["font.sans-serif"] = ["SimHei"]
plt.rcParams["axes.unicode_minus"] = Falsedef load_data(file_path):"""加载数据并查看基本信息"""df = pd.read_csv(file_path, encoding="utf-8")print("数据基本信息：",df.columns)return dfdef preprocess_data(df, features, target):"""数据预处理：去除重复特征、处理缺失值和异常值"""features = list(set(features))  # 去除重复特征X = df[features]Y = df[target]# 合并特征和目标变量combined = pd.concat([X, Y], axis=1)# 删除包含缺失值的行combined = combined.dropna()# 异常值处理（使用 IQR 方法）def remove_outliers(df):Q1 = df.quantile(0.25)Q3 = df.quantile(0.75)IQR = Q3 - Q1df = df[~((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).any(axis=1)]return dfcombined = remove_outliers(combined)# 重新分离特征和目标变量X = combined[features]Y = combined[target]return X, Ydef plot_features(X, Y):"""绘制特征与目标变量的散点图"""for feature in X.columns:plt.scatter(X[feature], Y)plt.title(f"{feature}-房价")plt.xlabel(feature)plt.ylabel("房价")plt.show()def train_model(X, Y):"""划分训练集和测试集，训练模型并评估性能"""x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=22)# 数据标准化transfer = StandardScaler()x_train = transfer.fit_transform(x_train)x_test = transfer.transform(x_test)# 训练模型estimator = Ridge(alpha=1)estimator.fit(x_train, y_train)# 预测y_predict = estimator.predict(x_test)# 评估模型ret = estimator.score(x_test, y_test)mse = mean_squared_error(y_test, y_predict)rmse = np.sqrt(mse)print("预测值：", y_predict)print("准确率：", ret)print("均方误差（MSE）：", mse)print("均方根误差（RMSE）：", rmse)return estimatorif __name__ == "__main__":file_path = "./data/train.csv"df = load_data(file_path)x = ['GrLivArea', 'OverallQual', 'TotalBsmtSF', 'GarageCars']y = ['SalePrice']X, Y = preprocess_data(df, x, y)plot_features(X, Y)model = train_model(X, Y)

结果展示：

准确率： 0.8232886900015453
均方误差（MSE）： 591601359.6413734
均方根误差（RMSE）： 24322.856732739543

查看全文

http://www.dtcms.com/a/174915.html

java springboot deepseek流式对话集成示例

推荐系统架构设计

计算机网络复习资料

内存管理（C++)

Polygon Miden网络：具有客户端执行的边缘区块链

IBM BAW（原BPM升级版）使用教程：基本概念

Houdini制作烟雾消散并导入UE5

数字孪生储能充电站，实现智慧能源设施全景管控

JDK 发展历史及其版本特性

Python训练打卡Day17

基于 AI 的工程投标六随机五区间报价得分模型模拟计算

云计算与大数据进阶 | 25、可扩展系统构建

力扣面试150题--对称二叉树

【大模型面试每日一题】Day 10：混合精度训练如何加速大模型训练？可能出现什么问题？如何解决？

MYSQL的DDL语言和单表查询

LearnOpenGL---绘制三角形

多线程网络编程：粘包问题、多线程/多进程服务器实战与常见问题解析

【实战项目】简易版的 QQ 音乐：一

文件上传/读取/包含漏洞技术说明

大模型——GraphRAG基于知识图谱+大模型技术构建的AI知识库系统

第1.3讲、什么是 Attention？——从点菜说起 [特殊字符]️

LeetCode 1781. 所有子字符串美丽值之和题解

ultralytics框架进行RT-DETR目标检测训练

EASM外部攻击面管理平台

Relay算子注册

7.9/Q1，Charls最新文章解读

Dagger中编译import报找不到ProvideClientFactory，initialize中ProvideClientFactory爆红

猿人学刷题系列(第一届比赛)——第一题

技术对暴力的削弱

【C/C++】构造函数与析构函数

相关文章：