当前位置: 首页 > news >正文

数据分析实战:城市房价分析

流程图:

1.读数据表

首先,读取数据集。

CRIMZNINDUSCHASNOXRMAGEDISRADTAXPTRATIOBLSTATtarget
0.00632182.3100.5386.57565.24.09129615.3396.94.9824
0.0273107.0700.4696.42178.94.9671224217.8396.99.1421.6
0.0272907.0700.4697.18561.14.9671224217.8392.834.0334.7
0.0323702.1800.4586.99845.86.0622322218.7394.632.9433.4
0.0690502.1800.4587.14754.26.0622322218.7396.95.3336.2

读取数据集之后,通过了解各个字段的具体含义,详细含义可见此处。可以初步将房价以外的13个字段大致分为四类用于探索其与房价之间的关系,四类分别为:房屋房间数(包含字段RM)、居民质量(包含字段LSTAT,B,CRIM以及PTRATIO)、周边交通情况(包含字段DIS,RAD)、以及环境问题(包含字段CHAS)。接下来的可视化分析将基于以上四大类开展,逐一分析其分布情况与该类字段与波士顿地区房价的关系。

2.字段基本统计信息

查看数据集中各个字段的样本数、均值、标准差、最小值、四分位数等基本信息。

CRIMZNINDUSCHASNOXRMAGEDISRADTAXPTRATIOBLSTATtarget
样本数506506506506506506506506506506506506506506
均值3.613523557311.363636363611.13677865610.06916996050.55469505936.284634387468.57490118583.79504268779.5494071146408.237154150218.4555335968356.674031620612.653063241122.5328063241
标准差8.601545105323.32245299456.86035294090.25399404130.11587767570.702617143428.14886140692.10571012668.7072593842168.5371160552.164945523791.29486438427.14106151139.1971040874
最小值0.0063200.4600.3853.5612.91.1296118712.60.321.735
下四分位数0.08204505.1900.4495.885545.0252.100175427917.4375.37756.9517.025
中位数0.2565109.6900.5386.208577.53.20745533019.05391.4411.3621.2
上四分位数3.677082512.518.100.6246.623594.0755.1884252466620.2396.22516.95525
最大值88.976210027.7410.8718.7810012.12652471122396.937.9750

根据数据字段的基本统计信息,可以得出此数据集中所有的字段包含506个样本数,因此数据集不存在缺失值的情况。通过结合均值、标准差、最小值和下四分位数可以发现字段AGE最小值在2.9,但是均值达到68.6左右,因此可以后续用箱线图探究此字段中数值的合理性。同样,通过查看数据基本信息可以初步判断出其他字段的数据较为合理。

判断完字段的合理性之后对数据大致的波动性以及离散程度进行预估,其中字段CRIM,ZN,RAD,DIS的标准差高于或接近均值,可以看出以上字段的波动性较大,初步判断波士顿地区存在房源质量差距较大的现象,预测会有一些较为优质房源以及一些质量非常低的房源。因此,在后续进行可视化分析的时候着重定位优质房源。

3.平均房价直方图

读取数据集、查看各个字段的基本信息以及验证各个字段的数据合理性之后将具体分析该案例。由于此案例针对波士顿的房价,因此可以将重心定位在探究波士顿房价的影响因素,重点分析字段target

首先,通过绘制平均房价的直方图探究波士顿地区的房价的基本情况。

从该直方图中可以得知在波士顿地区18500美元的房价最多,集中分布在14000美元到23000美元,存在少量高房价房源。接下来可以通过绘制箱线图具体查看较高房价房源的情况。

4.平均房价箱线图

通过直方图分析完波士顿地区平均房价之后,接着通过箱线图查看字段target的最大值、最小值、四分位数以及异常点,目的是初步了解波士顿地区房价的具体分布情况并查看异常点的值。

5.自用房屋比例的箱线图

由于数据字段基本信息统计中字段AGE的数值相对较为异常,因此可以通过箱线图进一步验证该字段数据的合理性。

8 平均房间数与房价的散点图

想要探究影响这些波士顿房价异常高的原因,先进行假设房价异常高的直接影响因素是房间数较多,占地面积较大。为了证明这一假设的准确性,将绘制数据集中字段RMtarget的散点图探究平均房间数与房价之间的相关性。

已知在波士顿地区,距离市中心的远近程度在很大程度上并不影响房屋的均价之后,将探究距离辐射公路是否影响房屋的均价。因此,通过绘制距离辐射公路与房价的散点图进行查看。

相关文章:

  • 从浅入深讲解Java继承
  • ctfshow-反序列化(web267-web270)
  • 用的到的linux-Day1
  • 100天精通Python(实用脚本篇)——第113天:基于Tesseract-OCR实现OCR图片文字识别实战
  • 如何发布自己的npm包
  • C语言算法赛——蓝桥杯(省赛试题)
  • 基于SpringBoot Vue高校失物招领系统
  • Docker consul
  • Flink(十四)【Flink SQL(中)查询】
  • How to disagree with ideas
  • 【Nginx】使用自生成证书配置nginx代理https
  • Nginx快速入门
  • mariadb数据库从入门到精通
  • 数据库常用系统表及常用功能
  • 大模型学习与实践笔记(七)
  • SQL慢语句执行的很慢,如何分析优化呢,(如何优化的呢?)
  • H5小游戏如何提升APP变现收益?
  • SQL执行时间过长如何优化
  • 阿里云国外服务器多少钱一个月?24元/月
  • VRPSolverEasy:支持VRP问题快速建模的精确算法Python包
  • 颜福庆与顾临的争论:1930年代在中国维持一家医学院要花多少钱
  • 中国女足将于5月17日至6月2日赴美国集训并参加邀请赛
  • 中美是否计划讨论美方以芬太尼为由对华征收的特别关税?外交部回应
  • 寒武纪陈天石:公司的产品力获得了行业客户广泛认可,市场有望迎来新增量需求
  • 浙江公开征集涉企行政执法问题线索,包括乱收费、乱罚款等
  • 在地球另一端的交流,架起2万公里间更多共赢的桥梁