当前位置: 首页 > news >正文

【数据集分享】汽车价格预测数据集

该数据集由作者:Rehan Liaqat 更新于一个月前,是用于汽车价格预测的结构化数据集,

包含市场上单个汽车的消费者导向记录,每一行对应一辆车,涵盖Car ID(唯一标识)、品牌、型号、年份、发动机规格、燃油类型、变速箱类型、里程数、车况等特征及作为目标变量的市场价格
数据集具有可直接应用、精简聚焦、用途多样、适合演示教学的优势,可用性评分为10.00,采用ODC Public Domain Dedication and Licence(PDDL)许可,无预期更新频率,标签为“Beginner”,

数据文件“car_price_prediction_.csv”大小为160.09 kB,可用于探索性数据分析、特征工程和监督学习等任务。

源地址:https://www.kaggle.com/datasets/rehan497/car-price-prediction-dataset

在这里插入图片描述
本数据集采用 ODC PDDL 公共领域许可,允许自由分享、使用及修改(许可详情见:https://opendatacommons.org/licenses/pddl/1-0/)

一、数据集

1.1 数据集基础信息

信息类别具体内容关键说明
数据集创建/更新者Rehan Liaqat明确数据集的归属主体
数据文件详情文件名:car_price_prediction_.csv;文件大小:160.09 kB展示数据存储形式及规模,小体积便于快速处理
可用性评分10.00满分评分,表明数据集质量高、易用性强
许可类型ODC Public Domain Dedication and Licence(PDDL)属于公共领域许可,允许自由使用、分享和修改
预期更新频率Never数据集为静态数据,后续不会定期或不定期更新
标签Beginner适合初学者用于学习和实践相关数据分析、机器学习任务
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns# 设置中文字体
plt.rcParams["font.family"] = ["SimHei"]
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题# 1. 加载数据
df = pd.read_csv('car_price_prediction.csv')# 2. 查看数据基本信息
print("数据集形状:", df.shape)
print("\n前5行数据:")
print(df.head())
print("\n数据类型信息:")
print(df.dtypes)# 3. 数据质量检查
print("\n缺失值统计:")
print(df.isnull().sum())
print("\n重复值统计:", df.duplicated().sum())# 4. 描述性统计
print("\n数值型变量统计描述:")
print(df.describe().round(2))# 5. 分类变量分析
print("\n分类变量类别分布:")
categorical_cols = ['Brand', 'Fuel Type', 'Transmission', 'Condition']
for col in categorical_cols:print(f"\n{col} 分布:")print(df[col].value_counts())print(f"唯一值数量:{df[col].nunique()}")

以下是整理后的表格形式数据分析结果:

1. 数据集基本信息

项目详情
数据集形状(2500, 10)
记录数2500条
特征数10个
缺失值
重复值

2. 数据类型分布

特征名称数据类型
Car IDint64
Brandobject
Yearint64
Engine Sizefloat64
Fuel Typeobject
Transmissionobject
Mileageint64
Conditionobject
Pricefloat64
Modelobject

3. 数值型变量统计描述

统计量Car IDYearEngine SizeMileagePrice
count2500.002500.002500.002500.002500.00
mean1250.502011.633.47149749.8452638.02
std721.836.991.4387919.9527295.83
min1.002000.001.0015.005011.27
25%625.752005.002.2071831.5028908.48
50%1250.502012.003.40149085.0053485.24
75%1875.252018.004.70225990.5075838.53
max2500.002023.006.00299967.0099982.59

count(计数):该变量的有效记录数量,反映数据的完整性。
mean(均值):所有数值的算术平均值,体现数据的集中趋势。
std(标准差):衡量数值的离散程度,标准差越大,数据波动越明显。
min(最小值):变量的最小取值。
25%(第一四分位数):将数据从小到大排序后,位于 25% 位置的数值。
50%(中位数):将数据从小到大排序后,位于中间位置的数值,反映数据的中间水平。
75%(第三四分位数):将数据从小到大排序后,位于 75% 位置的数值。
max(最大值):变量的最大取值。

# 6. 价格分布分析
plt.figure(figsize=(10, 6))
sns.histplot(df['Price'], kde=True, color='skyblue')
plt.axvline(df['Price'].mean(), color='red', linestyle='--', label=f'平均值: {df["Price"].mean():.2f}')
plt.axvline(df['Price'].median(), color='green', linestyle='--', label=f'中位数: {df["Price"].median():.2f}')
plt.title('汽车价格分布')
plt.xlabel('价格')
plt.ylabel('频数')
plt.legend()
plt.tight_layout()
plt.show()

在这里插入图片描述


# 7. 品牌与价格关系
plt.figure(figsize=(12, 6))
sns.boxplot(x='Brand', y='Price', data=df)
plt.title('不同品牌的价格分布')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

在这里插入图片描述


# 8. 燃油类型与价格关系
plt.figure(figsize=(10, 6))
sns.boxplot(x='Fuel Type', y='Price', data=df)
plt.title('不同燃油类型的价格分布')
plt.tight_layout()
plt.show()

在这里插入图片描述

# 9. 相关性分析
plt.figure(figsize=(10, 8))
numeric_cols = ['Year', 'Engine Size', 'Mileage', 'Price']
corr_matrix = df[numeric_cols].corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('数值变量相关性热力图')
plt.tight_layout()
plt.show()

在这里插入图片描述

# 10. 各品牌平均价格
brand_mean_price = df.groupby('Brand')['Price'].mean().sort_values(ascending=False)
plt.figure(figsize=(10, 6))
brand_mean_price.plot(kind='bar', color='lightgreen')
plt.title('各品牌平均价格')
plt.ylabel('平均价格')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

在这里插入图片描述

http://www.dtcms.com/a/600823.html

相关文章:

  • 汽车网络安全综合参考架构
  • 亚远景-ISO 26262与ISO 21434:未来汽车安全标准的发展趋势
  • Leverege 携手谷歌云和BigQuery,赋能大规模企业级物联网(IoT)解决方案
  • 国外网站服务器免费网站被做跳转
  • 分享一个我自用的 Python 消息发送模块,支持邮件、钉钉、企业微信
  • 南昌商城网站建设网页设计作业文件
  • 物联网传感器数据漂移自适应补偿与精度动态校正技术
  • docker 按带ssh的python环境的容器
  • 基于深度随机森林(Deep Forest)的分类算法实现
  • Ansible:高效自动化运维工具详解
  • 调用qwen3-omni的api对本地文件生成视频文本描述(批量生成)
  • 标签分类调研
  • 太原有网站工程公司吗网站建设预招标
  • 宁夏住房和城乡建设厅网站执业资格游戏门户网站建设
  • 社区养老保障|智慧养老|基于springboot+小程序社区养老保障系统设计与实现(源码+数据库+文档)
  • 基于springboot个性化定制的智慧校园管理系统【带源码和文档】
  • 12306自动抢票系统:基于DrissionPage的智能购票实战
  • 【内容检测 EXPO-HM】 优化训练方式 提升解释性与准确性
  • 医疗小程序05我的就诊卡
  • React与Vue 的声明式 UI 对比原理篇(1)
  • vue3实现列表无缝滚动
  • 如何开通自己的网站北京门户网站制作
  • 【前端面试】Vue篇
  • AI重塑IT职场:挑战与机遇并存
  • 微信小程序uniapp开发附源码——长图拼接
  • MySQL【表的内外连接】
  • 名字姓名起名打分评分抖音快手微信小程序看广告流量主开源
  • Windows下使用 Docker 安装MySQL
  • 微信小程序里用 setData() 修改数据并打印输出 的几种写法
  • 微信小程序map组件聚合簇样式自定义