当前位置：首页 > news >正文

实战：用Matplotlib将爬取的CSV数据变成直观图表

news 2025/10/30 8:24:37

引言：为什么需要数据可视化？

一、准备阶段：环境搭建与数据获取

1.1 基础环境配置

1.2 爬取示例数据

二、数据清洗：让数据"干净"起来

三、基础图表制作：柱状图与折线图

3.1 城市职位分布柱状图

3.2 薪资趋势折线图

四、进阶图表：散点图与饼图

4.1 薪资与经验相关性散点图

4.2 薪资范围饼图

五、多图表组合：子图与仪表盘

5.1 创建包含多个图表的仪表盘

六、样式优化：让图表更专业

6.1 全局样式设置

6.2 颜色搭配技巧

七、实际应用案例：电商价格监控

7.1 品牌价格对比箱线图

7.2 价格与评分散点图

常见问题Q&A

结语：数据可视化的价值

免费python编程教程：https://pan.quark.cn/s/2c17aed36b72

引言：为什么需要数据可视化？

当你在电商网站爬取了10万条商品价格数据，或是从气象站抓取了3年的温度记录，面对密密麻麻的CSV表格时，是否感到无从下手？这时候，数据可视化就像给数据装上了一副"透视镜"，能让你一眼看穿数据背后的规律。

本文将带你完成一个完整的数据可视化实战：从爬取某招聘网站的职位信息，到用Matplotlib生成专业图表。不需要数学博士背景，只需跟着步骤操作，你就能做出让同事惊叹的可视化报告。

一、准备阶段：环境搭建与数据获取

1.1 基础环境配置

首先确保你的Python环境已安装必要的库：

pip install matplotlib pandas requests beautifulsoup4

这四个库的分工很明确：

requests：负责发送HTTP请求获取网页
BeautifulSoup4：解析HTML提取数据
pandas：处理CSV数据
matplotlib：绘制可视化图表

1.2 爬取示例数据

以某招聘网站为例，我们爬取Python开发岗位的薪资和城市分布数据：

import requests
from bs4 import BeautifulSoup
import pandas as pddef crawl_job_data():headers = {'User-Agent': 'Mozilla/5.0'}jobs = []for page in range(1, 6):  # 爬取前5页url = f"https://example.com/jobs?page={page}&keyword=Python"response = requests.get(url, headers=headers)soup = BeautifulSoup(response.text, 'html.parser')# 假设每个职位在class为'job-item'的div中for item in soup.find_all('div', class_='job-item'):title = item.find('h2').text.strip()salary = item.find('span', class_='salary').text.strip()city = item.find('span', class_='location').text.strip()jobs.append({'title': title, 'salary': salary, 'city': city})df = pd.DataFrame(jobs)df.to_csv('job_data.csv', index=False)return dfdata = crawl_job_data()

提示：实际爬取时需遵守网站的robots协议，建议添加延迟（time.sleep(2)）避免被封。

二、数据清洗：让数据"干净"起来

爬取的原始数据往往包含脏数据，比如薪资字段可能包含"15-20K/月"这样的文本。我们需要将其转换为数值：

def clean_salary(salary_str):try:# 提取数字部分，例如"15-20K/月"→[15,20]parts = salary_str.replace('K', '').replace('/月', '').split('-')if len(parts) == 2:return (float(parts[0]) + float(parts[1])) / 2  # 取平均值return float(parts[0])except:return Nonedata['salary'] = data['salary'].apply(clean_salary)
data = data.dropna(subset=['salary'])  # 删除薪资为空的记录

对于城市字段，我们可能需要统计每个城市的职位数量：

city_counts = data['city'].value_counts().head(10)  # 取前10个城市

三、基础图表制作：柱状图与折线图

3.1 城市职位分布柱状图

柱状图最适合展示分类数据的对比：

import matplotlib.pyplot as pltplt.figure(figsize=(12, 6))
city_counts.plot(kind='bar', color='#4C72B0')plt.title('Python岗位城市分布', fontsize=16)
plt.xlabel('城市', fontsize=12)
plt.ylabel('职位数量', fontsize=12)
plt.xticks(rotation=45)  # 旋转x轴标签
plt.grid(axis='y', linestyle='--', alpha=0.7)# 在柱子上方显示数值
for i, v in enumerate(city_counts):plt.text(i, v + 50, str(v), ha='center')plt.tight_layout()  # 自动调整布局
plt.savefig('city_distribution.png', dpi=300)
plt.show()

效果说明：

蓝色柱子高度代表职位数量
每个柱子上方显示具体数值
网格线辅助读数
图片保存为300dpi高清图

3.2 薪资趋势折线图

假设我们按经验要求分组统计平均薪资：

# 假设数据中有'experience'字段
exp_salary = data.groupby('experience')['salary'].mean()plt.figure(figsize=(10, 5))
exp_salary.plot(kind='line', marker='o', color='#DD8452')plt.title('不同经验要求的平均薪资', fontsize=14)
plt.xlabel('经验要求', fontsize=11)
plt.ylabel('平均薪资(K)', fontsize=11)
plt.grid(True, linestyle=':', alpha=0.6)# 标记数据点
for x, y in zip(exp_salary.index, exp_salary):plt.text(x, y, f'{y:.1f}K', ha='center', va='bottom')plt.show()

关键点：

橙色折线连接各数据点
每个数据点上方显示具体数值
虚线网格增强可读性

四、进阶图表：散点图与饼图

4.1 薪资与经验相关性散点图

探索薪资与工作经验是否相关：

# 假设我们随机生成一些经验年限数据
import numpy as np
np.random.seed(42)
data['experience_years'] = np.random.randint(1, 11, size=len(data))plt.figure(figsize=(10, 8))
plt.scatter(data['experience_years'], data['salary'], alpha=0.6, color='#55A868', s=50)  # s控制点大小plt.title('工作经验与薪资关系', fontsize=15)
plt.xlabel('工作经验(年)', fontsize=12)
plt.ylabel('薪资(K)', fontsize=12)# 添加趋势线
z = np.polyfit(data['experience_years'], data['salary'], 1)
p = np.poly1d(z)
plt.plot(data['experience_years'], p(data['experience_years']), "r--", linewidth=1)plt.grid(True)
plt.show()

解读：

绿色散点表示各个数据点
红色虚线为线性趋势线
透明度(alpha)设置避免点重叠

4.2 薪资范围饼图

展示不同薪资区间的职位占比：

# 创建薪资区间
bins = [0, 10, 15, 20, 30]
labels = ['10K以下', '10-15K', '15-20K', '20K以上']
data['salary_range'] = pd.cut(data['salary'], bins=bins, labels=labels)range_counts = data['salary_range'].value_counts()plt.figure(figsize=(8, 8))
plt.pie(range_counts, labels=range_counts.index, autopct='%1.1f%%', startangle=90,colors=['#C44E52', '#CCB974', '#64776D', '#798E87'])plt.title('Python岗位薪资分布', fontsize=15)
plt.tight_layout()
plt.show()

技巧：

autopct显示百分比
startangle控制起始角度
自定义颜色让图表更美观

五、多图表组合：子图与仪表盘

5.1 创建包含多个图表的仪表盘

fig, axes = plt.subplots(2, 2, figsize=(14, 10))
fig.suptitle('Python岗位数据分析仪表盘', fontsize=18)# 子图1：城市分布
axes[0,0].bar(city_counts.index, city_counts.values, color='#4C72B0')
axes[0,0].set_title('城市分布')
axes[0,0].tick_params(axis='x', rotation=45)# 子图2：经验-薪资散点
axes[0,1].scatter(data['experience_years'], data['salary'], alpha=0.5, color='#55A868')
axes[0,1].set_title('经验与薪资关系')# 子图3：薪资范围饼图
axes[1,0].pie(range_counts, labels=None, autopct='%1.1f%%',colors=['#C44E52', '#CCB974', '#64776D', '#798E87'])
axes[1,0].set_title('薪资分布')# 子图4：经验要求折线图
exp_salary.plot(kind='line', marker='o', ax=axes[1,1], color='#DD8452')
axes[1,1].set_title('经验要求与平均薪资')plt.tight_layout()
plt.subplots_adjust(top=0.92)  # 调整标题位置
plt.savefig('dashboard.png', dpi=300)
plt.show()

优势：

单张图片展示多个维度
适合放入分析报告
保持统一的风格

六、样式优化：让图表更专业

6.1 全局样式设置

plt.style.use('seaborn')  # 使用seaborn样式
# 或自定义样式
plt.rcParams.update({'font.family': 'Microsoft YaHei',  # 中文支持'axes.titlesize': 14,'axes.labelsize': 12,'xtick.labelsize': 10,'ytick.labelsize': 10,'figure.figsize': (10, 6),'savefig.dpi': 300
})

6.2 颜色搭配技巧

推荐使用以下配色方案：

分类数据：['#4C72B0', '#55A868', '#C44E52', '#CCB974']
连续数据：['#313695', '#4575b4', '#74add1', '#abd9e9']

可以使用在线工具Coolors生成配色方案。

七、实际应用案例：电商价格监控

假设我们爬取了某电商平台的手机价格数据：

# 模拟数据
phone_data = {'brand': ['Apple']*5 + ['Samsung']*5 + ['Huawei']*5,'model': ['iPhone13']*3 + ['iPhone13 Pro']*2 + ['S22']*3 + ['S22 Ultra']*2 +['P50']*3 + ['Mate50']*2,'price': [5999, 6799, 5499, 8999, 9799,4999, 5499, 6299, 7999, 8999,4499, 4999, 5299, 6799, 7499],'rating': [4.8, 4.9, 4.7, 4.9, 4.8,4.6, 4.7, 4.8, 4.9, 4.8,4.5, 4.6, 4.7, 4.8, 4.7]
}df = pd.DataFrame(phone_data)

7.1 品牌价格对比箱线图

plt.figure(figsize=(10, 6))
df.boxplot(column='price', by='brand', patch_artist=True,boxprops=dict(facecolor='#4C72B0', color='black'),medianprops=dict(color='white'))plt.title('各品牌手机价格分布')
plt.suptitle('')  # 去除自动生成的标题
plt.xlabel('品牌')
plt.ylabel('价格(元)')
plt.grid(True, linestyle='--', alpha=0.6)
plt.show()

7.2 价格与评分散点图

plt.figure(figsize=(10, 6))
brands = df['brand'].unique()
colors = {'Apple': '#4C72B0', 'Samsung': '#55A868', 'Huawei': '#C44E52'}for brand in brands:subset = df[df['brand'] == brand]plt.scatter(subset['price'], subset['rating'], s=100, label=brand, color=colors[brand])plt.title('手机价格与评分关系')
plt.xlabel('价格(元)')
plt.ylabel('评分')
plt.legend()
plt.grid(True)
plt.show()

常见问题Q&A

Q1：被网站封IP怎么办？
A：立即启用备用代理池，建议使用住宅代理（如站大爷IP代理），配合每请求更换IP策略。可以在requests请求中添加代理参数：

proxies = {'http': 'http://your-proxy-ip:port','https': 'https://your-proxy-ip:port'
}
response = requests.get(url, headers=headers, proxies=proxies)

Q2：中文显示乱码如何解决？
A：在代码开头添加以下配置：

plt.rcParams['font.sans-serif'] = ['SimHei']  # Windows系统
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题
# 或使用Mac/Linux的字体
# plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']

Q3：如何保存透明背景的图表？
A：使用savefig的transparent参数：

plt.savefig('transparent.png', dpi=300, transparent=True)

Q4：图表中的文字重叠怎么办？
A：可以尝试以下方法：

旋转x轴标签：plt.xticks(rotation=45)
调整图表大小：plt.figure(figsize=(12, 6))
使用tight_layout()自动调整
手动调整子图间距：plt.subplots_adjust(wspace=0.4, hspace=0.6)

Q5：如何实现动态图表？
A：可以使用matplotlib.animation模块创建动态图表，或导出为HTML使用Plotly等库实现交互式可视化。

结语：数据可视化的价值

通过本文的实战，你应该已经掌握了从数据爬取到专业可视化的完整流程。记住，好的可视化不是追求花哨的效果，而是准确、清晰地传达数据背后的信息。下次当你面对一堆CSV数据时，不妨先用Matplotlib画几张图，往往能发现意想不到的洞察。

数据可视化就像给数据讲故事，而Matplotlib就是你手中的画笔。现在，是时候用你爬取的数据，创作属于自己的数据故事了！

查看全文

http://www.dtcms.com/a/544853.html

python数据分析项目之:房地产数据可视化分析

银川微信网站开发一块地需要多少钱

Unity编辑器扩展入门篇 - Unity Assets菜单

html中音乐网站怎么做自助建站系统建的网站做排名吗

【Linux命令】对ps -ef命令的输出的解读

第二届大数据、神经网络与深度学习研讨会（BDNNDL 2025）

2025年免费aippt排行

【大模型】理论基础（1）：函数与神经网络

认识主板总结与硬件工程师岗位笔试面试题集

Spring Boot Actuator 监控机制解析

建设网站协议范本哈尔滨制作网页公司

文章修改网站旅游管理论文题目选题

Rabbitmq扇形队列取消绑定交换机之后任然接收消息问题

网站正在建设中代码哪个软件发视频可以赚钱

web网页开发，天气可视化开发，基于Python,FlaskWeb,无数据,数据写死

S11e Protocol：重塑品牌资产的 Web3 RWA 基础设施革命

34_AI智能体工具插件之动态注册钉钉待办工具构建企业级任务管理AI助手

Java 大视界 -- Java 大数据在智慧文旅旅游线路规划与游客流量均衡调控中的应用实践

33_AI智能体工具插件之钉钉API交互工具封装构建企业级AI应用

数字孪生热力图可视化为何被广泛应用？

国内免费可商用图片素材网站孝感做招聘信息的网站

Django在服务端的部署（无废话）

当 AI Agent 遇上 MCP：微软 Agent Framework 的“瑞士军刀“式扩展之道

个人网站建设培训药品网络营销公司

20MW-10MWh储能项目施工方案

RHCA - DO374 | Day05：管理主机清单

【完整源码+数据集+部署教程】【天线＆水】无人机视角水面漂浮物体检测系统源码＆数据集全套：改进yolo11-REPVGGOREPA

思源实时同步设置步骤和节点部署

电脑间如何快速传输大文件？4种高效数据迁移方法任选

云栖实录 | AI原生搜索引擎：Elasticsearch 换“芯”——AI原生搜索内核增强技术

引言：为什么需要数据可视化？

一、准备阶段：环境搭建与数据获取

1.1 基础环境配置

1.2 爬取示例数据

二、数据清洗：让数据"干净"起来

三、基础图表制作：柱状图与折线图

3.1 城市职位分布柱状图

3.2 薪资趋势折线图

四、进阶图表：散点图与饼图

4.1 薪资与经验相关性散点图

4.2 薪资范围饼图

五、多图表组合：子图与仪表盘

5.1 创建包含多个图表的仪表盘

六、样式优化：让图表更专业

6.1 全局样式设置

6.2 颜色搭配技巧

七、实际应用案例：电商价格监控

7.1 品牌价格对比箱线图

7.2 价格与评分散点图

常见问题Q&A

结语：数据可视化的价值

相关文章：