当前位置: 首页 > news >正文

爬虫与数据分析相结合案例总结

一、案例概述

本案例通过爬取“高三网”中国大学排名数据(学校名称、总分、排名、星级等),结合 Python爬虫技术 和 Pandas/Matplotlib数据分析工具,完成以下流程:

数据爬取 → 2. 数据存储(CSV) → 3. 数据预处理 → 4. 数据分析与可视化

二、核心知识点总结
1. 数据爬取(爬虫技术)

代码:

2. 数据预处理(Pandas)

问题总分列存在空值(NaN)。

解决方法

删除空行

df.dropna(subset=["总分"], inplace=True)  

代码:

替换空值

用固定值填充(如"暂无分数"):

df["总分"].fillna("暂无分数", inplace=True)  

用均值/中位数填充:

mean_score = df["总分"].mean()  
df["总分"].fillna(mean_score, inplace=True)  

代码:

3. 数据分析与可视化

可视化工具:Matplotlib。

柱状图(直观对比数量):

plt.bar(["8星", "7星", ...], [8, 16, ...])  
plt.title("不同星级学校数量分布")  

饼图(展示占比):

plt.pie([8, 16, ...], labels=["8星", "7星", ...], autopct="%.1f%%")  

代码:

4. 关键注意事项

中文显示问题

plt.rcParams["font.sans-serif"] = ["SimHei"]  # 解决Matplotlib中文乱码  

数据一致性

确保爬取字段与CSV列名匹配(如总分列名需一致)。

可视化时,数据与标签长度必须一致(避免 ValueError)。

三、案例技术栈
步骤工具/库关键方法/函数
数据爬取requestsBeautifulSouprequests.get()soup.find_all()
数据存储pandaspd.to_csv()
数据预处理pandasfillna()dropna()mean()
数据可视化matplotlibplt.bar()plt.pie()

http://www.dtcms.com/a/325924.html

相关文章:

  • 远程服务器下载百度云里文件
  • golang包管理工具中 GOPATH 与 Go Modules 的区别总结
  • JSON Schema
  • LabVIEW模糊逻辑控制车辆停靠
  • 在docker上部署fastapi的相关操作
  • day072-代码检查工具-Sonar与maven私服-Nexus
  • 深度学习-卷积神经网络-VGG
  • Maven 报错:Blocked mirror for repositories【完美解决】
  • 文旅元宇宙:科技重塑数字消费新文明
  • Azimutt:一款免费开源的多功能数据库工具
  • USB 设备百科
  • 解决:Error updating changes: detected dubious ownership in repository at
  • 爬虫和数据分析相结合的案例
  • Nami Cloud 提供高性能云服务,加速 Walrus 的应用普及
  • K8s集群+Rancher Server:部署DolphinScheduler 3.2.2集群
  • etf期权剩余0天还能交易吗?
  • Facebook广告投放进阶:ABO精测与CBO放量的协同增长策略
  • Android13 Framework隐藏某些App
  • 【深度学习基础】贝叶斯理论
  • Next.js API 路由:构建后端端点
  • 数据结构3线性表——单链表(C)
  • Flutter - 应用启动/路由管理
  • 13、Docker Compose 安装 Redis 哨兵集群(一主两从)
  • 容器技术之docker
  • Excel 连接阿里云 RDS MySQL
  • AAAI-2025 | 北理工具身导航新范式!FloNa:基于平面图引导的具身视觉导航
  • Dashboard.vue 组件分析
  • CLIP在文生图模型中的应用
  • 《范仲淹传》读书笔记与摘要
  • sqli-labs通关笔记-第42关 POST字符型堆叠注入(单引号闭合 手工注入+脚本注入两种方法)