Sklearn 机器学习 房价预估 计算房价和特征值的相关性
💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖
本博客的精华专栏:
【自动化测试】 【测试经验】 【人工智能】 【Python】
Sklearn 机器学习实战:房价预估与特征相关性分析
在机器学习的房价预测任务中,了解 房价(目标值)与各个特征之间的相关性 至关重要。
高相关性的特征通常为模型提供更多有效信息,而低相关甚至负相关的特征则可能需要进一步分析或剔除。
本文将使用 Scikit-learn + Pandas + Matplotlib 分析房价与特征的相关性,并可视化结果。
📌 一、项目背景与数据准备
我们使用 sklearn.datasets 提供的 fetch_california_housing
数据集,这是一个经典的回归预测数据集。
- 目标值:加州各地区的房屋中位数价格(单位:$100,000)
- 特征值:房屋年龄、平均房间数、人口数、纬度经度等信息
特征值说明:
- MedInc:该地区住户的平均收入(单位:万美元)
- HouseAge:该地区房屋的平均年龄(单位:年)
- AveRooms:该地区平均每户的房间数
- AveBedrms:该地区平均每户的卧室数
- Population:该地区的人口数量
- AveOccup:该地区平均每户的居住人数
- Latitude:该地区的纬度
- Longitude:该地区的经度
1. 导入依赖库与加载数据
from sklearn.datasets import fetch_california_housing
import pandas as pd
import matplotlib.pyplot as plt# 设置中文显示
plt.rcParams["font.family"] = ["SimHei", "WenQuanYi Micro Hei", "Heiti TC"]
plt