当前位置: 首页 > news >正文

数据清洗之处理缺失点

一 、删除缺失值:

在数据清洗过程中,处理缺失值的方法之一是删除缺失值。这种方法适用于缺失值数量较少或者缺失值对于分析任务的影响较小的情况。

条件删除根据特定条件,删除包含缺失值的行或者列
删除行除包含缺失值的行
删除列如果某一列缺失值过多或者对分析任务没有贡献,可以选择删除该列

删除阈值

设置阈值,如果某一行或者列中的缺失值数量超过阈值,则删除该行或者列。

数学表达:空值滤波

isNull(x) 函数:用于判断参数X是否为空值,

空值,返回1;非空,返回0.

D^{'}=\left \{ x\in D | isNull(x)=0)\right \}

二 、插值法

插值是通过已知数据点的信息来估计未知点的值。这种方法对于连续型数据的缺失值填充尤其有用。

线性插值通过已知的相邻数据点之间的线性关系来进行估计
多项式插值使用更高阶的多项式来适应已知数据点
样条插值样条插值使用分段函数(通常是三次样条)来逼近已知数据
Kriging插值Kriging是一种基于地理空间的插值方法,广泛用于地理信息系统(GIS)

 三 、填充法

使用填充法来填补缺失值。填充法主要通过一些规则或统计量来估算缺失值。

中位数填充计算变量的中位数,将缺失值替换为中位数
众数填充计算变量的众数,将缺失值替换为众数
最近邻填充计算样本之间的相似度,选择最近邻的样本来填充缺失值
回归模型填充对于含有缺失值的特征,将其看作目标变量,使用其他特征建立回归模型,预测缺失值
随机填充从非缺失值中随机选择一个值,用于填充缺失值
业务填充根据特定业务场景的规则,为缺失值设定合适的数值

相关文章:

  • 蓝凌EKP平台表单控件升级:一行配置引入LayUI新UI体验
  • 74系列数字电路时钟冒险解决
  • v4.0 论文投稿-Latex论文投稿注意事项
  • ShardingSphere-读写分离
  • 2024 CKA模拟系统制作 | Step-By-Step | 10、题目搭建-调度 pod 到指定节点
  • 树莓派安装中文字体和中文输入法
  • 鸿蒙OSUniApp 开发支持图片和视频的多媒体展示组件#三方框架 #Uniapp
  • 基线配置管理:为什么它对网络稳定性至关重要
  • java上机测试错题回顾(2)
  • 鸿蒙OSUniApp 开发的商品筛选器与排序功能#三方框架 #Uniapp
  • 互联网大厂Java求职面试:从Spring到微服务的技术探讨
  • 预约按摩小程序源码介绍
  • 数据泄露频发,Facebook的隐私保护是否到位?
  • 青少年编程与数学 02-020 C#程序设计基础 07课题、控制结构
  • 理解vue-cli中的webpack
  • RabbitMQ搭建集群
  • kafka SASL/PLAIN 认证及 ACL 权限控制
  • Python整合Milvus向量数据库案例实战
  • 【Opencv+Yolo】Day2_图像处理
  • 探索C++标准模板库(STL):从容器到底层奥秘-全面解析String类高效技巧(上篇)
  • 网站建设中企/360免费做网站
  • 做外贸网站建设/深圳seo优化推广公司
  • 企业网站建设单位/优化方案模板
  • 武汉市建设厅官方网站/百度竞价关键词怎么优化
  • wordpress网站名称函数/谷歌优化技巧
  • 公司注册地址异常如何处理/站长工具seo综合查询广告