当前位置: 首页 > news >正文

Python 数据建模与分析项目实战预备 Day 4 - EDA(探索性数据分析)与可视化

✅ 今日目标

  • 使用 Pandas + Matplotlib/Seaborn 对简历数据进行探索性分析
  • 分析不同字段与目标变量的相关性
  • 通过可视化呈现简历筛选的潜在规律

🧾 一、建议分析内容

🔹 分类字段分析

字段图表建议说明
degree柱状图(分组通过率)分析学历与通过率关系
university_type条形图是否为双一流影响筛选?

🔹 数值字段分析

字段图表建议说明
work_years箱型图 / 小提琴图工龄 vs 通过率分布
project_count, desc_len散点图项目数量/质量是否有利筛选

🔹 多变量交叉分析

  • 使用 hue="pass_screening" 对比不同特征组合
  • 相关系数热力图 sns.heatmap(df.corr())

📦 所需工具

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

✏️ 今日练习任务

编写 eda_visualize.py 实现以下内容:

  • 读取原始数据 resume_data.csv

  • 绘制多个字段与通过率之间的图表

  • 可输出为本地图片或显示图形窗口

    # eda_visualize.py - 简历数据可视化分析脚本import pandas as pd
    import seaborn as sns
    import matplotlib.pyplot as pltplt.rcParams['font.family'] = 'Arial Unicode MS'  # Mac 用户可用
    plt.rcParams['axes.unicode_minus'] = False# 设置风格
    sns.set(style="whitegrid")# 读取数据
    df = pd.read_csv("./data/resume_data.csv")# 设置字体显示中文(可选)
    plt.rcParams['font.family'] = ['Arial Unicode MS']  # macOS
    # plt.rcParams['font.sans-serif'] = ['SimHei']  # Windows
    # plt.rcParams['axes.unicode_minus'] = False# 学历 vs 通过率
    plt.figure(figsize=(6, 4))
    sns.barplot(x="degree", y="pass_screening", data=df)
    plt.title("学历 vs 简历通过率")
    plt.savefig("plot_degree_pass.png")# 学校类型 vs 通过率
    plt.figure(figsize=(6, 4))
    sns.barplot(x="university_type", y="pass_screening", data=df)
    plt.title("学校类型 vs 简历通过率")
    plt.savefig("plot_univ_pass.png")# 工龄分布对通过率影响
    plt.figure(figsize=(6, 4))
    sns.boxplot(x="pass_screening", y="work_years", data=df)
    plt.title("工龄 vs 简历通过情况")
    plt.savefig("plot_work_years_pass.png")# 项目描述长度 vs 筛选通过(散点图)
    plt.figure(figsize=(6, 4))
    sns.scatterplot(x="project_desc_len", y="project_count", hue="pass_screening", data=df)
    plt.title("项目描述长度 & 数量 vs 筛选")
    plt.savefig("plot_project_scatter.png")# 相关系数热力图
    plt.figure(figsize=(10, 6))
    corr = df.corr(numeric_only=True)
    sns.heatmap(corr, annot=True, cmap="YlGnBu")
    plt.title("字段相关系数热力图")
    plt.savefig("plot_corr_heatmap.png")print("✅ 图表已生成并保存为 PNG 文件。")
    

    字段相关系数热力图:
    在这里插入图片描述

http://www.dtcms.com/a/277116.html

相关文章:

  • ansible自动化部署考试系统前后端分离项目
  • 09.获取 Python 列表的首尾元素与切片技巧
  • 论文Review 3DGSSLAM GauS-SLAM: Dense RGB-D SLAM with Gaussian Surfels
  • OkHttp SSE 完整总结(最终版)
  • JAVA学习笔记 首个HelloWorld程序-002
  • javaweb-day10案例
  • Linux 系统——管理 MySQL
  • 入职华为od一个月的感受
  • 2025年渗透测试面试题总结-2025年HW(护网面试) 44(题目+回答)
  • 鸿蒙项目构建配置
  • TDengine 使用最佳实践(2)
  • SpringBoot-23-企业云端开发实践之Vue框架组件化开发和第三方组件element-ui
  • 谷歌推出Vertex AI Memory Bank:为AI智能体带来持久记忆,支持连续对话
  • 【源力觉醒 创作者计划】文心开源大模型ERNIE-4.5私有化部署保姆级教程与多功能界面窗口部署
  • zotero自由编辑参考文献格式(2)
  • Dubbo + Spring Boot + Zookeeper 快速搭建分布式服务
  • spring--xml注入时bean的property属性
  • 20250713-`Seaborn.pairplot` 的使用注意事项
  • jenkins部署前端vue项目使用Docker+Jenkinsfile方式
  • 【PTA数据结构 | C语言版】字符串插入操作
  • java.net.InetAddress
  • 学习笔记-Excel统计分析——描述统计量的计算
  • SpringBoot单元测试类拿不到bean报空指针异常
  • 算法 - 蛇形矩阵-上三角
  • 2.3 单链表的应用
  • 图像读取与模型保存--基于NWPU-RESISC45数据集的图像二分类实战
  • stm32f103c8t6移植freeRTOS内存不足报错问题的解决办法
  • 浏览器渲染原理与性能优化全解析
  • 快速傅里叶变换(FFT)中的振幅和相位
  • 【计算机网络架构】环型架构简介