当前位置：首页 > wzjs >正文

wordpress 整站下载广告优化师是做什么的

wzjs 2025/9/1 11:00:54

wordpress 整站下载,广告优化师是做什么的,免费涨1000粉丝网站,wordpress恢复备份一、数据清洗概述数据清洗是数据分析过程中至关重要的一步，约占整个数据分析过程的60%-80%的时间。主要包括处理缺失值、异常值、重复值、格式不一致等问题。二、常用工具主要使用Python的Pandas库进行数据清洗： import pandas as pd import nump…

一、数据清洗概述

数据清洗是数据分析过程中至关重要的一步，约占整个数据分析过程的60%-80%的时间。主要包括处理缺失值、异常值、重复值、格式不一致等问题。

二、常用工具

主要使用Python的Pandas库进行数据清洗：

import pandas as pd

import numpy as np

三、常见数据问题及处理方法

3.1缺失值处理

（1）创建示例数据

data = {'姓名': ['张三', '李四', '王五', '赵六', None],

'年龄': [25, 30, None, 35, 40],

'工资': [5000, 6000, 5500, None, 7000]}

df = pd.DataFrame(data)

（2）查看缺失值

print(df.isnull().sum())

（3）处理方法

处理方法1：删除缺失行

df_drop = df.dropna()

print("删除缺失值后的数据:\n", df_drop)

处理方法2：填充缺失值

df_fill = df.fillna({'姓名': '未知', '年龄': df['年龄'].mean(), '工资': df['工资'].median()})

print("填充缺失值后的数据:\n", df_fill)

处理方法3：插值法

df['年龄'] = df['年龄'].interpolate()

print("插值处理后的数据:\n", df)

3.2重复值处理

（1）创建含重复值的数据

data = {'姓名': ['张三', '李四', '张三', '王五', '李四'],

'年龄': [25, 30, 25, 35, 30],

'工资': [5000, 6000, 5000, 5500, 6000]}

df = pd.DataFrame(data)

（2）检查重复值

print("重复值数量:", df.duplicated().sum())

（3）删除完全重复的行

df_drop_dup = df.drop_duplicates()

print("去重后的数据:\n", df_drop_dup)

（4）基于特定列删除重复值

df_drop_dup_name = df.drop_duplicates(subset=['姓名'])

print("基于姓名去重后的数据:\n", df_drop_dup_name)

3.3异常值处理

（1）创建含异常值的数据

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

data = {

'数学': [85, 90, 78, 92, 87, 130, 88, 95, 72, 150],

'物理': [72, 85, 90, 68, 82, 95, 78, 120, 65, 88],

'化学': [88, 92, 85, 78, 95, 102, 82, 78, 115, 90]

}

df = pd.DataFrame(data)

（2）基于3σ原则定义函数

def sigma_rule_outliers(df):

outliers_mask = pd.DataFrame(index=df.index, columns=df.columns)

#创建一个与原始df具有相同索引和列名的空DataFrame，所有单元格值被填充为False

for col in df.columns:

mean = df[col].mean()

std = df[col].std()

lower = mean - 3*std

upper = mean + 3*std

outliers_mask[col] = ~df[col].between(lower, upper)

return outliers_mask

（3）基于箱线图定义函数（IQR方法）

def iqr_rule_outliers(df):

outliers_mask = pd.DataFrame(index=df.index, columns=df.columns)

for col in df.columns:

Q1 = df[col].quantile(0.25)

Q3 = df[col].quantile(0.75)

IQR = Q3 - Q1

lower = Q1 - 1.5*IQR

upper = Q3 + 1.5*IQR

outliers_mask[col] = ~df[col].between(lower, upper)

return outliers_mask

（4）检测并处理异常值

--检测异常值：

sigma_outliers = sigma_rule_outliers(df)

iqr_outliers = iqr_rule_outliers(df)

print("\n3σ原则检测到的异常值位置:")

print(sigma_outliers)

print("\n箱线图(IQR)方法检测到的异常值位置:")

print(iqr_outliers)

--处理异常值（替换为中位数）：

def replace_outliers(df, outliers_mask):

df_clean = df.copy( )

for col in df.columns:

median = df[col].median()

df_clean[col] = df_clean[col].mask(outliers_mask[col], median)

return df_clean

# 使用3σ原则处理

df_sigma_clean = replace_outliers(df, sigma_outliers)

# 使用IQR方法处理

df_iqr_clean = replace_outliers(df, iqr_outliers)

print("\n3σ原则处理后的数据:")

print(df_sigma_clean)

print("\nIQR方法处理后的数据:")

print(df_iqr_clean)

（5）建议

数据分布接近正态时：优先使用3σ原则

数据分布未知或偏态时：使用IQR方法

重要决策时：两种方法结合使用，人工复核异常值

查看全文

http://www.dtcms.com/wzjs/554576.html

一流的江苏网站建设内蒙古网站建设费用

网站建设中请稍后再访问网页制作网站首页

广州网站建设优化公司wordpress 首页设置幻灯片

幻灯网站源码个人网站百度推广收费

大连模板网站做英文简历的网站

网站开发需要什么软件北京vi设计方案

公司网站建设设计公司排名做网站的公司贵阳

萝卜建站分类信息做门户网站多少钱

可免费商用的cms建站系统厦门网站排名优化软件

网站ip流量查询厦门建设企业网站

谷歌推广外贸建站wordpress网址改坏了

公司备案查询网站传媒公司宣传

免费建站的方法流程专业做网站套餐

乐从网站建设做seo网站优化哪家强

四川建设厅证件查询网站江苏建设工程

深圳物流公司网站淄博网站备案

网站建设开发工具 pythonword怎么做网站

网站怎做中国行业网站大全

网站婚礼服务态网站建设论文wordpress开发ide

网站建设标书网站建设好公司

调兵山网站建设网站开发的编程语言有哪些

苏州知名网站建设设计公司品质好的深圳装修

杭州比较好的网站建设公司手机网站网站建设

江苏建设工程招投标网站网址大全123介绍

超可爱做头像的网站定制小程序开发公司收费

网站推广的搜索引擎推广现在开发个网站多少钱

网站建设怎么管理业务员国外过期域名查询网站

天津做胎儿鉴定网站网站不可以做哪些东西

网站网站做员工犯法吗网络开发是什么专业

购房者网站亚马逊跨境电商开店有风险吗

一、数据清洗概述

二、常用工具

三、常见数据问题及处理方法

3.1缺失值处理

3.2重复值处理

3.3异常值处理

相关文章：