当前位置：首页 > wzjs >正文

免费驾校网站模板网站导航栏设计代码

wzjs 2025/9/3 22:23:51

免费驾校网站模板,网站导航栏设计代码,易捷商城小程序,网站项目开发收费标准文章概要本文详细介绍 Pandas 的进阶数据处理技术，包括： 数据转换数据合并数据分组数据透视实际应用示例数据转换数据类型转换 # 查看数据类型 df.dtypes# 转换数据类型 df[列名] df[列名].astype(int64) df[列名] df[列名].astype(float64) d…

文章概要

本文详细介绍 Pandas 的进阶数据处理技术，包括：

数据转换
数据合并
数据分组
数据透视
实际应用示例

数据转换

数据类型转换

# 查看数据类型
df.dtypes# 转换数据类型
df['列名'] = df['列名'].astype('int64')
df['列名'] = df['列名'].astype('float64')
df['列名'] = df['列名'].astype('str')
df['列名'] = pd.to_datetime(df['列名'])# 使用 to_numeric 转换
df['列名'] = pd.to_numeric(df['列名'], errors='coerce')

数据格式转换

# 日期格式转换
df['日期'] = pd.to_datetime(df['日期'])
df['日期'] = df['日期'].dt.strftime('%Y-%m-%d')# 字符串格式转换
df['列名'] = df['列名'].str.upper()
df['列名'] = df['列名'].str.lower()
df['列名'] = df['列名'].str.strip()
df['列名'] = df['列名'].str.replace('旧值', '新值')

数据重塑

# 宽格式转长格式
df_long = pd.melt(df, id_vars=['ID'], value_vars=['列1', '列2'],var_name='变量名',value_name='值')# 长格式转宽格式
df_wide = df_long.pivot(index='ID',columns='变量名',values='值')# 堆叠和反堆叠
df_stacked = df.stack()
df_unstacked = df_stacked.unstack()

数据合并

concat 操作

# 垂直合并（按行）
df_concat = pd.concat([df1, df2], axis=0)# 水平合并（按列）
df_concat = pd.concat([df1, df2], axis=1)# 设置索引
df_concat = pd.concat([df1, df2], ignore_index=True)# 使用键
df_concat = pd.concat([df1, df2], keys=['df1', 'df2'])

merge 操作

# 内连接
df_merged = pd.merge(df1, df2, on='键列')# 左连接
df_merged = pd.merge(df1, df2, on='键列', how='left')# 右连接
df_merged = pd.merge(df1, df2, on='键列', how='right')# 外连接
df_merged = pd.merge(df1, df2, on='键列', how='outer')# 使用多个键
df_merged = pd.merge(df1, df2, on=['键1', '键2'])

join 操作

# 使用索引连接
df_joined = df1.join(df2)# 指定连接方式
df_joined = df1.join(df2, how='left')# 使用列作为索引
df_joined = df1.set_index('键列').join(df2.set_index('键列'))

数据分组

groupby 操作

# 基本分组
grouped = df.groupby('列名')# 多列分组
grouped = df.groupby(['列1', '列2'])# 使用函数分组
grouped = df.groupby(lambda x: x.year)# 使用字典分组
grouped = df.groupby({'A': '组1', 'B': '组1', 'C': '组2'})

聚合函数

# 基本聚合
df.groupby('列名').sum()
df.groupby('列名').mean()
df.groupby('列名').count()# 多函数聚合
df.groupby('列名').agg(['sum', 'mean', 'count'])# 自定义聚合
df.groupby('列名').agg({'列1': 'sum','列2': ['mean', 'std']
})# 使用自定义函数
def custom_agg(x):return x.max() - x.min()df.groupby('列名').agg(custom_agg)

转换函数

# 标准化
df.groupby('列名').transform(lambda x: (x - x.mean()) / x.std())# 填充缺失值
df.groupby('列名').transform(lambda x: x.fillna(x.mean()))# 排名
df.groupby('列名').transform('rank')

过滤函数

# 过滤条件
df.groupby('列名').filter(lambda x: x['值'].mean() > 100)# 大小过滤
df.groupby('列名').filter(lambda x: len(x) > 10)# 多条件过滤
df.groupby('列名').filter(lambda x: (x['值1'].mean() > 100) & (x['值2'].std() < 50))

数据透视

pivot 操作

# 基本透视
df_pivot = df.pivot(index='行索引',columns='列索引',values='值')# 多值透视
df_pivot = df.pivot(index='行索引',columns='列索引',values=['值1', '值2'])

pivot_table 操作

# 基本透视表
df_pivot = pd.pivot_table(df,index='行索引',columns='列索引',values='值',aggfunc='mean')# 多聚合函数
df_pivot = pd.pivot_table(df,index='行索引',columns='列索引',values='值',aggfunc=['mean', 'sum', 'count'])# 填充缺失值
df_pivot = pd.pivot_table(df,index='行索引',columns='列索引',values='值',fill_value=0)

crosstab 操作

# 基本交叉表
df_cross = pd.crosstab(df['行'], df['列'])# 添加合计
df_cross = pd.crosstab(df['行'], df['列'], margins=True)# 使用聚合函数
df_cross = pd.crosstab(df['行'], df['列'], values=df['值'], aggfunc='mean')# 标准化
df_cross = pd.crosstab(df['行'], df['列'], normalize='index')

实际应用示例

示例1：销售数据分析

# 创建示例数据
sales = pd.DataFrame({'日期': pd.date_range('2023-01-01', periods=10),'产品': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B', 'A', 'C'],'地区': ['北京', '上海', '广州', '北京', '上海', '广州', '北京', '上海', '广州', '北京'],'销量': [100, 150, 120, 80, 200, 90, 110, 180, 130, 95],'单价': [10, 15, 10, 20, 15, 10, 20, 15, 10, 20]
})# 计算销售额
sales['销售额'] = sales['销量'] * sales['单价']# 按产品和地区分组统计
product_region_stats = sales.groupby(['产品', '地区']).agg({'销量': 'sum','销售额': 'sum'
}).round(2)# 创建透视表
pivot_table = pd.pivot_table(sales,index='产品',columns='地区',values='销售额',aggfunc='sum',margins=True)print("分组统计结果：")
print(product_region_stats)
print("\n透视表结果：")
print(pivot_table)

示例2：学生成绩分析

# 创建示例数据
grades = pd.DataFrame({'班级': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'] * 2,'科目': ['语文', '语文', '数学', '数学', '英语', '英语', '物理', '物理'] * 2,'学生': ['张三', '李四', '王五', '赵六', '钱七', '孙八', '周九', '吴十'] * 2,'成绩': [85, 92, 78, 88, 95, 82, 90, 87, 88, 85, 92, 78, 88, 95, 82, 90]
})# 按班级和科目分组计算统计量
class_subject_stats = grades.groupby(['班级', '科目']).agg({'成绩': ['mean', 'std', 'min', 'max', 'count']
}).round(2)# 创建交叉表
cross_tab = pd.crosstab(grades['班级'], grades['科目'], values=grades['成绩'], aggfunc='mean')print("班级科目统计结果：")
print(class_subject_stats)
print("\n交叉表结果：")
print(cross_tab)