当前位置: 首页 > wzjs >正文

腾讯云10g数字盘做网站够么无锡做网站服务

腾讯云10g数字盘做网站够么,无锡做网站服务,网页设计100种技巧,wordpress插件代码一、数据清洗概述 数据清洗是数据分析过程中至关重要的一步,约占整个数据分析过程的60%-80%的时间。主要包括处理缺失值、异常值、重复值、格式不一致等问题。 二、常用工具 主要使用Python的Pandas库进行数据清洗: import pandas as pd import nump…

一、数据清洗概述

数据清洗是数据分析过程中至关重要的一步,约占整个数据分析过程的60%-80%的时间。主要包括处理缺失值、异常值、重复值、格式不一致等问题。

 二、常用工具

主要使用Python的Pandas库进行数据清洗:

import pandas as pd

import numpy as np

 三、常见数据问题及处理方法

3.1缺失值处理

(1)创建示例数据

data = {'姓名': ['张三', '李四', '王五', '赵六', None],

        '年龄': [25, 30, None, 35, 40],

        '工资': [5000, 6000, 5500, None, 7000]}

df = pd.DataFrame(data)

(2) 查看缺失值

print(df.isnull().sum())

(3)处理方法

处理方法1:删除缺失行

df_drop = df.dropna()

print("删除缺失值后的数据:\n", df_drop)

 处理方法2:填充缺失值

df_fill = df.fillna({'姓名': '未知', '年龄': df['年龄'].mean(), '工资': df['工资'].median()})

print("填充缺失值后的数据:\n", df_fill)

 处理方法3:插值法

df['年龄'] = df['年龄'].interpolate()

print("插值处理后的数据:\n", df)

3.2重复值处理

(1)创建含重复值的数据

data = {'姓名': ['张三', '李四', '张三', '王五', '李四'],

        '年龄': [25, 30, 25, 35, 30],

        '工资': [5000, 6000, 5000, 5500, 6000]}

df = pd.DataFrame(data)

(2)检查重复值

print("重复值数量:", df.duplicated().sum())

(3)删除完全重复的行

df_drop_dup = df.drop_duplicates()

print("去重后的数据:\n", df_drop_dup)

(4)基于特定列删除重复值

df_drop_dup_name = df.drop_duplicates(subset=['姓名'])

print("基于姓名去重后的数据:\n", df_drop_dup_name)

3.3异常值处理

(1)创建含异常值的数据

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

data = {

    '数学': [85, 90, 78, 92, 87, 130, 88, 95, 72, 150],

    '物理': [72, 85, 90, 68, 82, 95, 78, 120, 65, 88],

    '化学': [88, 92, 85, 78, 95, 102, 82, 78, 115, 90]

}

df = pd.DataFrame(data)

(2)基于3σ原则定义函数

def sigma_rule_outliers(df):

outliers_mask = pd.DataFrame(index=df.index, columns=df.columns)

#创建一个与原始df具有相同索引和列名的空DataFrame,所有单元格值被填充为False

    for col in df.columns:

        mean = df[col].mean()

        std = df[col].std()

        lower = mean - 3*std

        upper = mean + 3*std

outliers_mask[col] = ~df[col].between(lower, upper)

     return outliers_mask

(3)基于箱线图定义函数(IQR方法)

def iqr_rule_outliers(df):

    outliers_mask = pd.DataFrame(index=df.index, columns=df.columns)

    for col in df.columns:

        Q1 = df[col].quantile(0.25)

        Q3 = df[col].quantile(0.75)

        IQR = Q3 - Q1

        lower = Q1 - 1.5*IQR

        upper = Q3 + 1.5*IQR

        outliers_mask[col] = ~df[col].between(lower, upper)

    return outliers_mask

(4)检测并处理异常值

--检测异常值:

sigma_outliers = sigma_rule_outliers(df)

iqr_outliers = iqr_rule_outliers(df)

print("\n3σ原则检测到的异常值位置:")

print(sigma_outliers)

print("\n箱线图(IQR)方法检测到的异常值位置:")

print(iqr_outliers)

--处理异常值(替换为中位数):

def replace_outliers(df, outliers_mask):

    df_clean = df.copy( ) 

    for col in df.columns:

        median = df[col].median()

        df_clean[col] = df_clean[col].mask(outliers_mask[col], median)

    return df_clean

# 使用3σ原则处理

df_sigma_clean = replace_outliers(df, sigma_outliers)

# 使用IQR方法处理

df_iqr_clean = replace_outliers(df, iqr_outliers)

print("\n3σ原则处理后的数据:")

print(df_sigma_clean)

print("\nIQR方法处理后的数据:")

print(df_iqr_clean)

(5)建议

数据分布接近正态时:优先使用3σ原则

数据分布未知或偏态时:使用IQR方法

重要决策时:两种方法结合使用,人工复核异常值


文章转载自:

http://2txKHw87.rdnjc.cn
http://srZekBTM.rdnjc.cn
http://anvxsYno.rdnjc.cn
http://Db69sBb1.rdnjc.cn
http://7D871TsT.rdnjc.cn
http://ERqPjazZ.rdnjc.cn
http://bwvYz5Ju.rdnjc.cn
http://ztFMhBmg.rdnjc.cn
http://k9bPzWdI.rdnjc.cn
http://EiSmY7GZ.rdnjc.cn
http://oVXXGk9d.rdnjc.cn
http://hI3WSVLm.rdnjc.cn
http://GXSJenge.rdnjc.cn
http://NxsBSczS.rdnjc.cn
http://8KeHW124.rdnjc.cn
http://IkWZe7mo.rdnjc.cn
http://iTdrBwHV.rdnjc.cn
http://AF64D1hA.rdnjc.cn
http://ao4pPCXV.rdnjc.cn
http://qhsEfEFr.rdnjc.cn
http://EPcAcoL8.rdnjc.cn
http://0XqWapoV.rdnjc.cn
http://hrmSR8tB.rdnjc.cn
http://AWU0EGWY.rdnjc.cn
http://dugqPJg1.rdnjc.cn
http://38vg1Rmb.rdnjc.cn
http://p0a2fnp1.rdnjc.cn
http://X4VwnjoM.rdnjc.cn
http://XEAdT1BP.rdnjc.cn
http://J0wnIdSG.rdnjc.cn
http://www.dtcms.com/wzjs/766603.html

相关文章:

  • 做药品的电商网站做铜字接单网站
  • 上传网站工具小程序商城哪家好经销商
  • 小城镇建设网站参考文献数字媒体艺术设计主要学什么
  • 襄阳市建设厅官方网站美术设计
  • 重庆网站排名典型的口碑营销案例
  • 黄冈做网站技术支持的wordpress分类不显示图片
  • 珠海有什么网站智能logo设计网站
  • 双语版网站爱南宁app信息查看在哪里
  • 有哪些网站交互效果做的好的wordpress取订阅数据库
  • com域名的网站品牌推广策划公司
  • 网站搭建公司排行ui设计与制作培训
  • 自己做的网站怎么爬数据库友情链接赚钱
  • 中国域名网站排名小程序开发平台哪家产品较好
  • 科技网站 网站建设规划设计公司资质要求
  • 建设房屋出租网站网页设计作业效果图
  • 高端网站建设必须要满足哪些要求北京关键词优化报价
  • 淘宝客静态网站18岁可以注册cn域名吗
  • 公司的网站金融品牌网站设计
  • php做网站软件公司网站服务费多少钱
  • 做详情页生成代码的网站网站建设设计师
  • 济南品质网站建设哪家好灵璧县住房和城乡建设局网站
  • ppt汇精美ppt模板免费下载网站上海网站快速排名
  • 一学一做教育视频网站二级域名需要备案吗
  • 海南专业做网站的公司怎么自己写网站
  • django网站开发规范广州建工集团有限公司官网
  • 网站建设前规划企业登记代理公司
  • 郑州网站优化的微博_腾讯微博视觉设计包括哪些内容
  • 设计和建设企业网站心得和体会wordpress通过微信投稿
  • 用备案的网站做违法网站动漫网站开发优势
  • 如何用自己电脑做网站免费网站优化软件