当前位置: 首页 > news >正文

Python 数据分析与可视化 Day 8 - Pandas 高级操作技巧

✅ 今日目标

  • 掌握 Pandas 的索引体系(Index / MultiIndex)
  • 使用 set_index()reset_index() 管理数据索引
  • 理解 pivot_tablemeltstack/unstack 重塑数据形态
  • 初步理解“宽表”与“长表”在数据分析与可视化中的应用场景

📚 一、深入理解 Pandas 的索引系统

1. 默认索引 vs 自定义索引

df = pd.read_csv("./data/students_cleaned.csv")# 自定义“姓名”为索引列
df_indexed = df.set_index("姓名")
print(df_indexed.head())# 还原索引为普通列
df_reset = df_indexed.reset_index()

2. 多级索引(MultiIndex)

df_multi = df.set_index(["性别", "是否及格"])
print(df_multi.head())# 多级索引选择
print(df_multi.loc[("男", True)])

📊 二、数据透视表(pivot_table)

类似 Excel 的数据透视功能,可做汇总/分组/聚合操作

# 性别 + 及格情况的平均成绩
pivot = pd.pivot_table(df, values="成绩", index="性别", columns="是否及格", aggfunc="mean")
print(pivot)

🔁 三、数据重塑:长表 ↔ 宽表

1. melt(宽表 → 长表)

df_melted = pd.melt(df, id_vars=["姓名", "性别"], value_vars=["成绩", "是否及格"])
print(df_melted.head())

2. pivot(长表 → 宽表)

# 从 melt 回 pivot
df_pivot = df_melted.pivot(index=["姓名", "性别"], columns="variable", values="value")
print(df_pivot.head())

3. stack & unstack

stacked = df.set_index(["姓名", "性别"]).stack()
print(stacked.head())unstacked = stacked.unstack()
print(unstacked.head())

🧪 今日练习任务建议

  1. 使用 set_indexreset_index 操作学生数据

  2. 创建一个以“性别 + 是否及格”为索引的多级索引表

  3. 统计不同性别在及格与否下的平均成绩(pivot_table)

  4. 使用 melt 将成绩 & 是否及格转换为“指标名 + 值”形式

  5. 使用 stack/unstack 查看层级结构变化

    data/students_cleaned.csv如数如图:
    在这里插入图片描述

    代码示例:

    import pandas as pd
    import os# 数据路径
    input_path = "data/students_cleaned.csv"
    if not os.path.exists(input_path):raise FileNotFoundError("❌ 缺少 students_cleaned.csv,请先运行 clean_data.py")# 加载数据
    df = pd.read_csv(input_path)
    print("✅ 已加载数据:")
    print(df.head())# ========== 一、索引操作 ==========print("\n👉 使用 set_index() 将姓名设为索引:")
    df_indexed = df.set_index("姓名")
    print(df_indexed.head())print("\n🔁 使用 reset_index() 还原索引:")
    df_reset = df_indexed.reset_index()
    print(df_reset.head())# ========== 二、多级索引 ==========print("\n📦 设置多级索引(性别 + 是否及格):")
    df_multi = df.set_index(["性别", "是否及格"])
    print(df_multi.head())print("\n🔍 查询:性别为 '女' 且 及格 的学生:")
    print(df_multi.loc[("女", True)])# ========== 三、pivot_table 操作 ==========print("\n📊 pivot_table 统计性别 + 是否及格下的平均成绩:")
    pivot = pd.pivot_table(df, values="成绩", index="性别", columns="是否及格", aggfunc="mean")
    print(pivot)# ========== 四、melt 数据重塑 ==========print("\n🔄 使用 melt 变长表结构(指标列合并):")
    df_melted = pd.melt(df, id_vars=["姓名", "性别"], value_vars=["成绩", "是否及格"])
    print(df_melted.head())# ========== 五、pivot 还原宽表结构 ==========print("\n🔁 使用 pivot 将 melt 数据还原回宽表:")
    df_pivot = df_melted.pivot(index=["姓名", "性别"], columns="variable", values="value")
    print(df_pivot.head())# ========== 六、stack 和 unstack ==========print("\n📚 使用 stack 增加层级结构(列 → 行):")
    df_stacked = df.set_index(["姓名", "性别"]).stack()
    print(df_stacked.head())print("\n📂 使用 unstack 还原结构(行 → 列):")
    df_unstacked = df_stacked.unstack()
    print(df_unstacked.head())
    

    运行结果:

    ✅ 已加载数据:姓名 性别     成绩   是否及格
    0  张三  男  88.00   True
    1  李四  女  81.75   True
    2  王五  男  59.00  False
    3  田七  女  81.75   True
    4  赵六  女  92.00   True👉 使用 set_index() 将姓名设为索引:性别     成绩   是否及格
    姓名                 
    张三  男  88.00   True
    李四  女  81.75   True
    王五  男  59.00  False
    田七  女  81.75   True
    赵六  女  92.00   True🔁 使用 reset_index() 还原索引:姓名 性别     成绩   是否及格
    0  张三  男  88.00   True
    1  李四  女  81.75   True
    2  王五  男  59.00  False
    3  田七  女  81.75   True
    4  赵六  女  92.00   True📦 设置多级索引(性别 + 是否及格):姓名     成绩
    性别 是否及格            
    男  True   张三  88.00True   李四  81.75False  王五  59.00True   田七  81.75True   赵六  92.00🔍 查询:性别为 '女' 且 及格 的学生:姓名     成绩
    性别 是否及格           
    女  True  李四  81.75True  田七  81.75True  赵六  92.00📊 pivot_table 统计性别 + 是否及格下的平均成绩:
    是否及格  False      True 
    性别                    
    女       NaN  85.16666759.0  88.000000🔄 使用 melt 变长表结构(指标列合并):姓名 性别 variable  value
    0  张三  男       成绩   88.0
    1  李四  女       成绩  81.75
    2  王五  男       成绩   59.0
    3  田七  女       成绩  81.75
    4  赵六  女       成绩   92.0🔁 使用 pivot 将 melt 数据还原回宽表:
    variable     成绩 是否及格
    姓名 性别               
    张三 男       88.0  1.0
    李四 女      81.75  1.0
    王五 男       59.0  0.0
    田七 女      81.75  1.0
    赵六 女       92.0  1.0📚 使用 stack 增加层级结构(列 → 行):
    姓名  性别      
    张三  男   成绩       88.0是否及格     True
    李四  女   成绩      81.75是否及格     True
    王五  男   成绩       59.0
    dtype: object📂 使用 unstack 还原结构(行 → 列):成绩   是否及格
    姓名 性别              
    张三 男    88.0   True
    李四 女   81.75   True
    王五 男    59.0  False
    田七 女   81.75   True
    赵六 女    92.0   True
    

🧾 今日总结

  • 索引是 Pandas 操作效率与表达力的核心
  • 多级索引可构建灵活的数据结构,适合多维度聚合分析
  • pivot_table 是强大而高效的“表格重建”工具
  • melt / pivot / stack / unstack 是数据“变形”关键方法

文章转载自:
http://beta.ciuzn.cn
http://biosystematics.ciuzn.cn
http://bename.ciuzn.cn
http://chasuble.ciuzn.cn
http://airer.ciuzn.cn
http://cantonization.ciuzn.cn
http://chassid.ciuzn.cn
http://bernard.ciuzn.cn
http://amphitryon.ciuzn.cn
http://aftergrowth.ciuzn.cn
http://audible.ciuzn.cn
http://barbola.ciuzn.cn
http://chiffchaff.ciuzn.cn
http://cabobs.ciuzn.cn
http://calif.ciuzn.cn
http://abc.ciuzn.cn
http://abstractively.ciuzn.cn
http://besieged.ciuzn.cn
http://antimonarchical.ciuzn.cn
http://audrey.ciuzn.cn
http://achromatopsy.ciuzn.cn
http://breadless.ciuzn.cn
http://catabolize.ciuzn.cn
http://carpellate.ciuzn.cn
http://argyle.ciuzn.cn
http://brassiere.ciuzn.cn
http://bluetongue.ciuzn.cn
http://beth.ciuzn.cn
http://aerospace.ciuzn.cn
http://bureaucratise.ciuzn.cn
http://www.dtcms.com/a/260389.html

相关文章:

  • 表单数据收集实现分析
  • Python 中 `bytes` 与 `str` 的核心差异及注意事项
  • python中学物理实验模拟:斜面受力分析
  • IDEA + Spring Boot + javadoc 实例应用
  • Java底层原理:深入理解JVM性能调优与监控
  • 腾讯云产品都有哪些
  • 永磁无刷电机旋转原理
  • 大脑感官:视觉系统中将感观信息转换为神经信号
  • 苍穹外卖day3--公共字段填充+新增菜品
  • Python打卡:Day36
  • 《告别一换就崩:前端游戏物理引擎适配层设计哲学》
  • Redis-set集合
  • Altera PCI IP target设计分享
  • dockers virbox 安装
  • MySQL多表关系
  • 【已解决】Android Studio gradle遇到unresolved reference错误
  • 归因问答-如何进行人类评估
  • 桌面小屏幕实战课程:DesktopScreen 11 SPI 水墨屏
  • Docker安装Mysql、配置文件挂载、修改Mysql编码
  • Spark 之 QueryStage
  • 高标准通信国际接轨,Ethercat与PROFINET网关实现全自动化生产线
  • 【Pandas】pandas DataFrame first_valid_index
  • 大厂测开实习和小厂开发实习怎么选
  • 使用 ReAct 框架在 Ollama 中实现本地代理(Agent)
  • moduo之缓冲区Buffer
  • Ubuntu网络数据包发送工具大全
  • MT4完全操作指南:从零基础到EA自动交易
  • LLM复杂记忆存储-多会话隔离案例实战
  • 高斯混合模型(Gaussian Mixture Model, GMM)
  • Spark SQL to_json 函数介绍