当前位置：首页 > news >正文

5. Pandas 缺失值与异常值处理

news 2025/10/4 18:04:59

Pandas 缺失值与异常值处理

在数据分析中，缺失值与异常值是常见问题。如果不处理，可能导致分析结果偏差或模型性能下降。本篇文章系统介绍 Pandas 中缺失值与异常值的检查与处理方法，包括检测、删除、填充以及简单的异常值处理技巧，为数据清洗和建模提供可靠基础。

1. 检查缺失值

在数据分析中，缺失值（NaN）是常见问题。Pandas 提供 isnull 和 notnull 方法来检测缺失值。

import pandas as pd
import numpy as npdata = {"姓名": ["张三", "李四", "王五", "赵六"],"年龄": [23, np.nan, 29, 40],"城市": ["北京", "上海", None, "深圳"]
}df = pd.DataFrame(data)
print(df)

   姓名    年龄   城市
0  张三  23.0   北京
1  李四   NaN   上海
2  王五  29.0  None
3  赵六  40.0   深圳

1.1 判断缺失值

# 每个元素是否为缺失值
print(df.isnull())

      姓名     年龄     城市
0  False  False  False
1  False  False  False
2  False  False  False
3  False  False  False

1.2 统计缺失值

# 每列缺失值数量
print(df.isnull().sum())

姓名    0
年龄    0
城市    0
dtype: int64

# 非缺失值数量
print(df.notnull().sum())

姓名    4
年龄    4
城市    4
dtype: int64

2. 删除缺失值

使用 dropna 可以删除含有缺失值的行或列。

axis=0（默认）：删除行
axis=1：删除列

# 删除含有缺失值的行
df_drop_row = df.dropna()
print(df_drop_row)

   姓名    年龄  城市
0  张三  23.0  北京
3  赵六  40.0  深圳

# 删除含有缺失值的列
df_drop_col = df.dropna(axis=1)
print(df_drop_col)

   姓名
0  张三
1  李四
2  王五
3  赵六

3. 填充缺失值

3.1 使用常数填充

df_fill = df.fillna({'年龄': 30, '城市': '未知'})
print(df_fill)

   姓名    年龄  城市
0  张三  23.0  北京
1  李四  30.0  上海
2  王五  29.0  未知
3  赵六  40.0  深圳

3.2 前向/后向填充

# 前向填充
df_ffill = df.fillna(method='ffill')
print(df_ffill)

   姓名    年龄  城市
0  张三  23.0  北京
1  李四  23.0  上海
2  王五  29.0  上海
3  赵六  40.0  深圳

# 后向填充
df_bfill = df.fillna(method='bfill')
print(df_bfill)

   姓名    年龄  城市
0  张三  23.0  北京
1  李四  29.0  上海
2  王五  29.0  深圳
3  赵六  40.0  深圳

前向填充(ffill)用前一行的值填充，后向填充(bfill)用后一行的值填充，可根据业务场景选择。

4. 简单异常值处理方法

异常值通常指明显偏离数据分布的极端值。常用处理方法包括逻辑筛选、均值/中位数替换以及四分位数法。

4.1 条件筛选

data = {"姓名": ["张三", "李四", "王五", "赵六"],"年龄": [23, 120, 29, 40],"城市": ["北京", "上海", "重庆", "深圳"]
}df = pd.DataFrame(data)
print(df)

   姓名   年龄  城市
0  张三   23  北京
1  李四  120  上海
2  王五   29  重庆
3  赵六   40  深圳

# 假设年龄应在 0~100 岁之间
df_clean = df[(df['年龄'] >= 0) & (df['年龄'] <= 100)]
print(df_clean)

   姓名  年龄  城市
0  张三  23  北京
2  王五  29  重庆
3  赵六  40  深圳

4.2 均值/中位数替换

# 将年龄中的异常值（这里以大于100为例）替换为平均值
mean_age = df['年龄'].mean()
df['年龄'] = df['年龄'].apply(lambda x: mean_age if x > 100 else x)
print(df)

   姓名    年龄  城市
0  张三  23.0  北京
1  李四  53.0  上海
2  王五  29.0  重庆
3  赵六  40.0  深圳

4.3 四分位数法（IQR）检测

Q1 = df['年龄'].quantile(0.25)
Q3 = df['年龄'].quantile(0.75)
IQR = Q3 - Q1
outliers = df[(df['年龄'] < Q1 - 1.5*IQR) | (df['年龄'] > Q3 + 1.5*IQR)]print(f'筛选范围为：x < {Q1 - 1.5*IQR} 或 x > {Q3 + 1.5*IQR}')print(outliers)

筛选范围为：x < 3.875 或 x > 66.875
Empty DataFrame
Columns: [姓名, 年龄, 城市]
Index: []

5. 小结

缺失值处理
- isnull() / notnull()：检测缺失值
- dropna()：删除缺失值
- fillna()：填充缺失值，可用常数、前向或后向填充
异常值处理
- 条件筛选
- 均值/中位数替换
- 四分位数法（IQR）

掌握这些方法可以有效提升数据质量，为统计分析、建模与可视化提供坚实基础。

查看全文

http://www.dtcms.com/a/440406.html

网站集约建设后网站域名规范企业培训机构排名前十

做教育集团的网站企业网站建设示范平台

济南网站建设策划方案濮阳网站建设公司名字

深圳市宝安区住房和建设局网站可以做动漫的网站有哪些

吉林建设厅官方网站头条号权重查询

麓谷网站建设学科建设网站

济南手机建站价格汕头市城市建设总公司网站

公司网站建设设计公司哪家好电子版简历免费的

库存网站建设定制二学一做网站

魔方网站建设辽宁建设工程信息网老网站

绍兴网站建设报价做微商如何引流推广怎么找客源

php和html5做网站国外网站素材

南宁著名的网站如何做自己的游戏网站

卢沟桥网站建设事件营销的方法

做电商搜素材网站都是什么汾阳网架公司

免建网站互联网运营

海南房产网站开发网页制作和网页制作设计

信息推广网站点不开的那种怎么做个人建站免费服务器

英文网站建设怎么样做能支付的网站贵吗

58网站做现浇混凝土微博手机网页版入口

外卖网站建设方案书个人主页怎么申请

深圳做企业网站沈阳建设工程管理中心

巩义移动网站建设网站服务器拒绝连接

网站建设免费视频网站怎么添加关键词好让百度收入_ 现在网站用的是模板做的

termsrv!InitializeSystemTrace函数分析开启调试TraceEnable和TraceClass和TraceDebugger

网站建设合同百度文库wordpress 计划表格

公司域名注册网站哪个好网站建设需求分析流程图

FTP 概念及题目

如手机网站源码软件开发专业好吗

公司网站建设会计分录西安wordpress开发