2025电脑价格数据集/构建电脑价格预测模型/数据量为 10 万行
源地址:https://www.kaggle.com/datasets/paperxd/all-computer-prices
我用夸克网盘给你分享了「电脑价格数据集」链接:https://pan.quark.cn/s/01432247d14d
基础属性:数据量为 10 万行,是多源电脑价格数据的合并版本,已完成清洗,列含义直观易懂。
核心用途:用于构建电脑价格预测模型,通过电脑的各项硬件、配置等特征,预测其对应的价格。
使用权限:遵循 CC BY 4.0 国际许可协议。
更新频率:每年更新一次,保证数据在长期使用中的时效性。
一、数据概述
import pandas as pd# 加载数据集
df = pd.read_csv('/computer_prices_all.csv')print('数据基本信息:')
df.info()# 查看数据集行数和列数
rows, columns = df.shapeif rows < 100 and columns < 20:# 短表数据(行数少于100且列数少于20)查看全量数据信息print('数据全部内容信息:')print(df.to_csv(sep='\t', na_rep='nan'))
else:# 长表数据查看数据前几行信息print('数据前几行内容信息:')print(df.head().to_csv(sep='\t', na_rep='nan'))
- 文件名为 computer_prices_all.csv,包含了电脑的相关信息。
- 该数据集共有 100000 行,包含了
device_type
、brand
、model
等 33 列相关信息。
二、价格分布
1. 价格的描述性统计分析
# 二、价格分布
import matplotlib.pyplot as plt
import seaborn as sns# 获取价格的描述性统计信息,并保留两位小数
price_stats = df['price'].describe().round(2).reset_index()
print(price_stats)
index | price |
---|---|
count | 100000.00 |
mean | 1928.76 |
std | 580.49 |
min | 372.99 |
25% | 1503.99 |
50% | 1863.99 |
75% | 2287.99 |
max | 10984.99 |
从这些统计数据中我们可以推测到以下信息:
- 数据规模:
count
值为 100000.00,说明样本数量较大,这使得基于此数据的分析结果具有较高的可靠性和代表性。 - 平均价格:
mean
(均值)为 1928.76,这是所有价格数据的平均值,可作为整体价格水平的一个参考。 - 价格离散程度:
std
(标准差)为 580.49,表明价格数据相对较为分散,不同产品之间的价格差异较大。 - 价格范围:
min
(最小值)为 372.99,max
(最大值)为 10984.99,价格跨度非常大,从几百到一万多,这可能意味着数据涵盖了不同档次、不同类型的产品。25%、50% 和 75% 分位数则进一步展示了价格数据的分布情况,例如 50% 分位数(中位数)为 1863.99,说明一半的产品价格低于这个数值。
三、品牌与设备类型
# 三、品牌与设备类型
# 查看品牌分布
brand_distribution = df['brand'].value_counts()# 查看设备类型分布
device_distribution = df['device_type'].value_counts()print('品牌分布:')
print(brand_distribution)
print('设备类型分布:')
print(device_distribution)
1. 品牌分布
品牌 | 数量 |
---|---|
Lenovo | 15992 |
HP | 14114 |
Dell | 14005 |
Apple | 11915 |
ASUS | 10159 |
Acer | 9925 |
Samsung | 8066 |
MSI | 7891 |
Gigabyte | 4900 |
Razer | 3033 |
从品牌分布的数据来看,联想(Lenovo)的数量最多,达到 15992,这可能表明联想在该数据所涉及的市场中市场占有率较高,具有较强的品牌竞争力。惠普(HP)和戴尔(Dell)的数量也较多,与联想处于同一梯队,说明这几个品牌在市场上较为常见,可能是消费者比较青睐的品牌。而像雷蛇(Razer)数量相对较少,可能其定位是较为小众的市场,比如游戏高端设备等特定领域。
2. 设备类型分布
设备类型 | 数量 |
---|---|
Laptop | 59844 |
Desktop | 40156 |
在设备类型方面,笔记本电脑(Laptop)的数量远多于台式电脑(Desktop),这可能反映出在当前市场环境下,消费者对于笔记本电脑的需求更高。笔记本电脑具有便携性的特点,更符合现代人移动办公、学习和娱乐的需求。而台式电脑可能由于其体积大、不便移动等因素,受众相对较少。
四、关键硬件参数与价格的相关性
# 四、关键硬件参数与价格的相关性
# 选择关键硬件参数列
hardware_columns = ['release_year', 'cpu_tier', 'cpu_cores', 'cpu_threads', 'cpu_base_ghz', 'cpu_boost_ghz','gpu_tier', 'vram_gb', 'ram_gb','storage_gb', 'display_size_in','refresh_hz', 'battery_wh','charger_watts', 'psu_watts', 'warranty_months']# 计算与价格的相关性,并保留两位小数
correlation = df[hardware_columns + ['price']].corr()['price'].round(2).reset_index(name='相关系数').sort_values(by='相关系数', ascending=False)print(correlation)
1. 关键硬件参数与价格的相关系数分析
index | 相关系数 |
---|---|
price | 1.00 |
ram_gb | 0.76 |
cpu_tier | 0.76 |
gpu_tier | 0.76 |
cpu_cores | 0.72 |
cpu_threads | 0.58 |
cpu_base_ghz | 0.53 |
cpu_boost_ghz | 0.51 |
vram_gb | 0.31 |
battery_wh | 0.15 |
charger_watts | 0.13 |
release_year | 0.09 |
storage_gb | 0.09 |
refresh_hz | 0.08 |
warranty_months | -0.00 |
display_size_in | -0.14 |
psu_watts | -0.14 |
- 强正相关参数:
ram_gb
(内存容量)、cpu_tier
(CPU 层级)和gpu_tier
(GPU 层级)与价格的相关系数均为 0.76,呈现强正相关。这表明在该数据集中,内存容量越大、CPU 和 GPU 层级越高,电脑价格往往越高。可以推测,对于消费者而言,这些硬件参数是影响他们对电脑价格预期的重要因素,同时也是厂商定价的关键依据。 - 中等正相关参数:
cpu_cores
(CPU 核心数)、cpu_threads
(CPU 线程数)、cpu_base_ghz
(CPU 基础主频)和cpu_boost_ghz
(CPU 睿频主频)与价格的相关系数在 0.51 - 0.72 之间,呈中等程度的正相关。这说明 CPU 的性能参数也是影响电脑价格的重要因素,性能越强价格越高。 - 弱正相关参数:
vram_gb
(显存容量)、battery_wh
(电池容量)、charger_watts
(充电器功率)、release_year
(发布年份)、storage_gb
(存储容量)和refresh_hz
(屏幕刷新率)与价格的相关系数较低,在 0.08 - 0.31 之间,呈现弱正相关。这些参数虽然对价格有一定影响,但相比前面的参数影响程度较小。 - 弱负相关参数:
display_size_in
(屏幕尺寸)和psu_watts
(电源功率)与价格呈现弱负相关,相关系数为 -0.14。这可能暗示在该数据集中,屏幕尺寸和电源功率并非是提升价格的主要因素,甚至可能存在一些特殊情况,例如某些小屏幕但高性能配置的电脑价格较高,或者电源功率的提升并没有带来明显的价格上涨。而warranty_months
(保修时长)与价格几乎无相关性。