当前位置：首页 > wzjs >正文

全运网站的建设怎么建设游戏网站

wzjs 2025/9/2 9:19:54

全运网站的建设,怎么建设游戏网站,科技公司官网设计,杭州开发区网站建设一、数据清洗概述数据清洗是数据分析过程中至关重要的一步，约占整个数据分析过程的60%-80%的时间。主要包括处理缺失值、异常值、重复值、格式不一致等问题。二、常用工具主要使用Python的Pandas库进行数据清洗： import pandas as pd import nump…

一、数据清洗概述

数据清洗是数据分析过程中至关重要的一步，约占整个数据分析过程的60%-80%的时间。主要包括处理缺失值、异常值、重复值、格式不一致等问题。

二、常用工具

主要使用Python的Pandas库进行数据清洗：

import pandas as pd

import numpy as np

三、常见数据问题及处理方法

3.1缺失值处理

（1）创建示例数据

data = {'姓名': ['张三', '李四', '王五', '赵六', None],

'年龄': [25, 30, None, 35, 40],

'工资': [5000, 6000, 5500, None, 7000]}

df = pd.DataFrame(data)

（2）查看缺失值

print(df.isnull().sum())

（3）处理方法

处理方法1：删除缺失行

df_drop = df.dropna()

print("删除缺失值后的数据:\n", df_drop)

处理方法2：填充缺失值

df_fill = df.fillna({'姓名': '未知', '年龄': df['年龄'].mean(), '工资': df['工资'].median()})

print("填充缺失值后的数据:\n", df_fill)

处理方法3：插值法

df['年龄'] = df['年龄'].interpolate()

print("插值处理后的数据:\n", df)

3.2重复值处理

（1）创建含重复值的数据

data = {'姓名': ['张三', '李四', '张三', '王五', '李四'],

'年龄': [25, 30, 25, 35, 30],

'工资': [5000, 6000, 5000, 5500, 6000]}

df = pd.DataFrame(data)

（2）检查重复值

print("重复值数量:", df.duplicated().sum())

（3）删除完全重复的行

df_drop_dup = df.drop_duplicates()

print("去重后的数据:\n", df_drop_dup)

（4）基于特定列删除重复值

df_drop_dup_name = df.drop_duplicates(subset=['姓名'])

print("基于姓名去重后的数据:\n", df_drop_dup_name)

3.3异常值处理

（1）创建含异常值的数据

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

data = {

'数学': [85, 90, 78, 92, 87, 130, 88, 95, 72, 150],

'物理': [72, 85, 90, 68, 82, 95, 78, 120, 65, 88],

'化学': [88, 92, 85, 78, 95, 102, 82, 78, 115, 90]

}

df = pd.DataFrame(data)

（2）基于3σ原则定义函数

def sigma_rule_outliers(df):

outliers_mask = pd.DataFrame(index=df.index, columns=df.columns)

#创建一个与原始df具有相同索引和列名的空DataFrame，所有单元格值被填充为False

for col in df.columns:

mean = df[col].mean()

std = df[col].std()

lower = mean - 3*std

upper = mean + 3*std

outliers_mask[col] = ~df[col].between(lower, upper)

return outliers_mask

（3）基于箱线图定义函数（IQR方法）

def iqr_rule_outliers(df):

outliers_mask = pd.DataFrame(index=df.index, columns=df.columns)

for col in df.columns:

Q1 = df[col].quantile(0.25)

Q3 = df[col].quantile(0.75)

IQR = Q3 - Q1

lower = Q1 - 1.5*IQR

upper = Q3 + 1.5*IQR

outliers_mask[col] = ~df[col].between(lower, upper)

return outliers_mask

（4）检测并处理异常值

--检测异常值：

sigma_outliers = sigma_rule_outliers(df)

iqr_outliers = iqr_rule_outliers(df)

print("\n3σ原则检测到的异常值位置:")

print(sigma_outliers)

print("\n箱线图(IQR)方法检测到的异常值位置:")

print(iqr_outliers)

--处理异常值（替换为中位数）：

def replace_outliers(df, outliers_mask):

df_clean = df.copy( )

for col in df.columns:

median = df[col].median()

df_clean[col] = df_clean[col].mask(outliers_mask[col], median)

return df_clean

# 使用3σ原则处理

df_sigma_clean = replace_outliers(df, sigma_outliers)

# 使用IQR方法处理

df_iqr_clean = replace_outliers(df, iqr_outliers)

print("\n3σ原则处理后的数据:")

print(df_sigma_clean)

print("\nIQR方法处理后的数据:")

print(df_iqr_clean)

（5）建议

数据分布接近正态时：优先使用3σ原则

数据分布未知或偏态时：使用IQR方法

重要决策时：两种方法结合使用，人工复核异常值

查看全文

http://www.dtcms.com/wzjs/563217.html

wp做购物网站简述网站的建设流程

网站的公司百度投放广告怎么收费

服装行业网站建设比较好湖南工商网址

初学者求教怎样做网站最有创意促销活动方案

做MAD生肉网站网站建设费用应该开专票还是普票

网站页面用什么软件做电商平台运营是做什么

小女孩做网站软件外包多少钱

长宁做手机网站建设珠海高端网站建设公司

烟台网站排行榜怎么在建设银行网站留言

网站定制开发上海建设网站的目的和意义

帮别人做网站的单子七牛云cdn加速wordpress

微信网站开发教程视频wordpress lightsns

wordpress 消耗资源seo统计

东莞市网站建设创建网络平台

如何下wordpress广州搜索排名优化

住房与城乡建设部网站注册中心太原网站公司哪家好

网站开发与制作论文开题建站产品

北京企业建设网站公司房产信息门户网站建设方案

wordpress制作网站模板企业招标信息发布平台

免费自助建站软件有哪些网站换域名seo

金堂县建设局网站目前最好的旅游网站

粉色帝国网站微页制作网站模板免费下载

赤峰建网站的电话建网360 网站建设

住房和城乡建设部网站唐山长春网络公司营销模式

各大网站推荐小程序设计用什么软件

门户网站的优点深圳市宝安区西乡街道邮政编码

logo做ppt模板下载网站小型企业软件管理系统

我的网站要换新域名如何做江门网红桥

网站做成响应式的有什么弊端江阴市做网站的

温州做网站制作最有效的免费推广方法

一、数据清洗概述

二、常用工具

三、常见数据问题及处理方法

3.1缺失值处理

3.2重复值处理

3.3异常值处理

相关文章：