当前位置: 首页 > news >正文

2025电脑价格数据集/构建电脑价格预测模型/数据量为 10 万行

源地址:https://www.kaggle.com/datasets/paperxd/all-computer-prices
我用夸克网盘给你分享了「电脑价格数据集」链接:https://pan.quark.cn/s/01432247d14d

基础属性:数据量为 10 万行,是多源电脑价格数据的合并版本,已完成清洗,列含义直观易懂。
核心用途:用于构建电脑价格预测模型,通过电脑的各项硬件、配置等特征,预测其对应的价格。
使用权限:遵循 CC BY 4.0 国际许可协议。
更新频率:每年更新一次,保证数据在长期使用中的时效性。

一、数据概述

import pandas as pd# 加载数据集
df = pd.read_csv('/computer_prices_all.csv')print('数据基本信息:')
df.info()# 查看数据集行数和列数
rows, columns = df.shapeif rows < 100 and columns < 20:# 短表数据(行数少于100且列数少于20)查看全量数据信息print('数据全部内容信息:')print(df.to_csv(sep='\t', na_rep='nan'))
else:# 长表数据查看数据前几行信息print('数据前几行内容信息:')print(df.head().to_csv(sep='\t', na_rep='nan'))
  • 文件名为 computer_prices_all.csv,包含了电脑的相关信息。
  • 该数据集共有 100000 行,包含了 device_typebrandmodel 等 33 列相关信息。

二、价格分布

1. 价格的描述性统计分析

# 二、价格分布
import matplotlib.pyplot as plt
import seaborn as sns# 获取价格的描述性统计信息,并保留两位小数
price_stats = df['price'].describe().round(2).reset_index()
print(price_stats)
indexprice
count100000.00
mean1928.76
std580.49
min372.99
25%1503.99
50%1863.99
75%2287.99
max10984.99

从这些统计数据中我们可以推测到以下信息:

  • 数据规模count 值为 100000.00,说明样本数量较大,这使得基于此数据的分析结果具有较高的可靠性和代表性。
  • 平均价格mean(均值)为 1928.76,这是所有价格数据的平均值,可作为整体价格水平的一个参考。
  • 价格离散程度std(标准差)为 580.49,表明价格数据相对较为分散,不同产品之间的价格差异较大。
  • 价格范围min(最小值)为 372.99,max(最大值)为 10984.99,价格跨度非常大,从几百到一万多,这可能意味着数据涵盖了不同档次、不同类型的产品。25%、50% 和 75% 分位数则进一步展示了价格数据的分布情况,例如 50% 分位数(中位数)为 1863.99,说明一半的产品价格低于这个数值。

三、品牌与设备类型

# 三、品牌与设备类型
# 查看品牌分布
brand_distribution = df['brand'].value_counts()# 查看设备类型分布
device_distribution = df['device_type'].value_counts()print('品牌分布:')
print(brand_distribution)
print('设备类型分布:')
print(device_distribution)

1. 品牌分布

品牌数量
Lenovo15992
HP14114
Dell14005
Apple11915
ASUS10159
Acer9925
Samsung8066
MSI7891
Gigabyte4900
Razer3033

从品牌分布的数据来看,联想(Lenovo)的数量最多,达到 15992,这可能表明联想在该数据所涉及的市场中市场占有率较高,具有较强的品牌竞争力。惠普(HP)和戴尔(Dell)的数量也较多,与联想处于同一梯队,说明这几个品牌在市场上较为常见,可能是消费者比较青睐的品牌。而像雷蛇(Razer)数量相对较少,可能其定位是较为小众的市场,比如游戏高端设备等特定领域。

2. 设备类型分布

设备类型数量
Laptop59844
Desktop40156

在设备类型方面,笔记本电脑(Laptop)的数量远多于台式电脑(Desktop),这可能反映出在当前市场环境下,消费者对于笔记本电脑的需求更高。笔记本电脑具有便携性的特点,更符合现代人移动办公、学习和娱乐的需求。而台式电脑可能由于其体积大、不便移动等因素,受众相对较少。

四、关键硬件参数与价格的相关性

# 四、关键硬件参数与价格的相关性
# 选择关键硬件参数列
hardware_columns = ['release_year', 'cpu_tier', 'cpu_cores', 'cpu_threads', 'cpu_base_ghz', 'cpu_boost_ghz','gpu_tier', 'vram_gb', 'ram_gb','storage_gb', 'display_size_in','refresh_hz', 'battery_wh','charger_watts', 'psu_watts', 'warranty_months']# 计算与价格的相关性,并保留两位小数
correlation = df[hardware_columns + ['price']].corr()['price'].round(2).reset_index(name='相关系数').sort_values(by='相关系数', ascending=False)print(correlation)

1. 关键硬件参数与价格的相关系数分析

index相关系数
price1.00
ram_gb0.76
cpu_tier0.76
gpu_tier0.76
cpu_cores0.72
cpu_threads0.58
cpu_base_ghz0.53
cpu_boost_ghz0.51
vram_gb0.31
battery_wh0.15
charger_watts0.13
release_year0.09
storage_gb0.09
refresh_hz0.08
warranty_months-0.00
display_size_in-0.14
psu_watts-0.14
  • 强正相关参数ram_gb(内存容量)、cpu_tier(CPU 层级)和 gpu_tier(GPU 层级)与价格的相关系数均为 0.76,呈现强正相关。这表明在该数据集中,内存容量越大、CPU 和 GPU 层级越高,电脑价格往往越高。可以推测,对于消费者而言,这些硬件参数是影响他们对电脑价格预期的重要因素,同时也是厂商定价的关键依据。
  • 中等正相关参数cpu_cores(CPU 核心数)、cpu_threads(CPU 线程数)、cpu_base_ghz(CPU 基础主频)和 cpu_boost_ghz(CPU 睿频主频)与价格的相关系数在 0.51 - 0.72 之间,呈中等程度的正相关。这说明 CPU 的性能参数也是影响电脑价格的重要因素,性能越强价格越高。
  • 弱正相关参数vram_gb(显存容量)、battery_wh(电池容量)、charger_watts(充电器功率)、release_year(发布年份)、storage_gb(存储容量)和 refresh_hz(屏幕刷新率)与价格的相关系数较低,在 0.08 - 0.31 之间,呈现弱正相关。这些参数虽然对价格有一定影响,但相比前面的参数影响程度较小。
  • 弱负相关参数display_size_in(屏幕尺寸)和 psu_watts(电源功率)与价格呈现弱负相关,相关系数为 -0.14。这可能暗示在该数据集中,屏幕尺寸和电源功率并非是提升价格的主要因素,甚至可能存在一些特殊情况,例如某些小屏幕但高性能配置的电脑价格较高,或者电源功率的提升并没有带来明显的价格上涨。而 warranty_months(保修时长)与价格几乎无相关性。
http://www.dtcms.com/a/490410.html

相关文章:

  • Linux 系统下 MySQL 的安装配置
  • 16、Docker Compose 安装Kafka(含Zookeeper)
  • QT(c++)开发自学笔记:2.TCP/IP
  • C语言基础语法进阶
  • 池州网站建设公司好的网站你知道
  • 从零起步学习MySQL || 第五章:select语句的执行过程是怎么样的?(结合源码深度解析)
  • 专业的家居网站建设网站单页支付宝支付怎么做的
  • CC10-判断链表中是否有环
  • 【ZEGO即构开发者日报】谷歌推出新款视频生成模型 Veo 3.1;腾讯开源通用文本表示模型Youtu-Embedding;AI 陪伴赛道观察……
  • [Sora] 视频自动编码器(VAE) | `encode_``decode`
  • 算法沉淀第四天(Winner)
  • 西藏地图飞线html
  • 网站建设与管理课程代码做徽章标牌的企业网站
  • selenium实现自动化脚本的常用函数
  • 大语言模型,一个巨大的矩阵
  • 衡阳营养师报考网站大宗贸易交易平台
  • Azure API Management 负载均衡与故障转移策略完整指南
  • TI CCS软件安装
  • 内存映射文件
  • 网站开发开发语言企业网站做seo的优势
  • 资料片:R语言中常见的英文术语及其含义
  • 企业出海的挑战与应对方案
  • 架构术语:什么是东西流量和南北流量
  • 电子电器架构——车载网关转发buffer心得汇总
  • (Python)终端着色进阶:256色基础及色码效果展示
  • 《R for Data Science (2e)》免费中文翻译 (第10章) --- Exploratory data
  • 简述对网站进行评析的几个方面.wordpress 内涵
  • Python自动化从入门到实战(23):Python打地鼠游戏开发
  • (论文速读)ECLIPSE:突破性的轻量级文本到图像生成技术
  • dede 网站入侵新媒体h5是什么