当前位置: 首页 > news >正文

数据清洗之处理缺失点

一 、删除缺失值:

在数据清洗过程中,处理缺失值的方法之一是删除缺失值。这种方法适用于缺失值数量较少或者缺失值对于分析任务的影响较小的情况。

条件删除根据特定条件,删除包含缺失值的行或者列
删除行除包含缺失值的行
删除列如果某一列缺失值过多或者对分析任务没有贡献,可以选择删除该列

删除阈值

设置阈值,如果某一行或者列中的缺失值数量超过阈值,则删除该行或者列。

数学表达:空值滤波

isNull(x) 函数:用于判断参数X是否为空值,

空值,返回1;非空,返回0.

D^{'}=\left \{ x\in D | isNull(x)=0)\right \}

二 、插值法

插值是通过已知数据点的信息来估计未知点的值。这种方法对于连续型数据的缺失值填充尤其有用。

线性插值通过已知的相邻数据点之间的线性关系来进行估计
多项式插值使用更高阶的多项式来适应已知数据点
样条插值样条插值使用分段函数(通常是三次样条)来逼近已知数据
Kriging插值Kriging是一种基于地理空间的插值方法,广泛用于地理信息系统(GIS)

 三 、填充法

使用填充法来填补缺失值。填充法主要通过一些规则或统计量来估算缺失值。

中位数填充计算变量的中位数,将缺失值替换为中位数
众数填充计算变量的众数,将缺失值替换为众数
最近邻填充计算样本之间的相似度,选择最近邻的样本来填充缺失值
回归模型填充对于含有缺失值的特征,将其看作目标变量,使用其他特征建立回归模型,预测缺失值
随机填充从非缺失值中随机选择一个值,用于填充缺失值
业务填充根据特定业务场景的规则,为缺失值设定合适的数值


文章转载自:
http://bonfire.hnsdj.cn
http://arlington.hnsdj.cn
http://assurer.hnsdj.cn
http://cherubim.hnsdj.cn
http://amortization.hnsdj.cn
http://allopatrically.hnsdj.cn
http://byway.hnsdj.cn
http://artistical.hnsdj.cn
http://anyplace.hnsdj.cn
http://chipper.hnsdj.cn
http://boutiquier.hnsdj.cn
http://amatively.hnsdj.cn
http://centrical.hnsdj.cn
http://biographical.hnsdj.cn
http://chiromancer.hnsdj.cn
http://and.hnsdj.cn
http://buckingham.hnsdj.cn
http://catamnesis.hnsdj.cn
http://aerenchyma.hnsdj.cn
http://amid.hnsdj.cn
http://amati.hnsdj.cn
http://balsamine.hnsdj.cn
http://allocation.hnsdj.cn
http://chine.hnsdj.cn
http://amphitrite.hnsdj.cn
http://blissfully.hnsdj.cn
http://casuistry.hnsdj.cn
http://carnivalesque.hnsdj.cn
http://chlorine.hnsdj.cn
http://bronchiole.hnsdj.cn
http://www.dtcms.com/a/216083.html

相关文章:

  • 蓝凌EKP平台表单控件升级:一行配置引入LayUI新UI体验
  • 74系列数字电路时钟冒险解决
  • v4.0 论文投稿-Latex论文投稿注意事项
  • ShardingSphere-读写分离
  • 2024 CKA模拟系统制作 | Step-By-Step | 10、题目搭建-调度 pod 到指定节点
  • 树莓派安装中文字体和中文输入法
  • 鸿蒙OSUniApp 开发支持图片和视频的多媒体展示组件#三方框架 #Uniapp
  • 基线配置管理:为什么它对网络稳定性至关重要
  • java上机测试错题回顾(2)
  • 鸿蒙OSUniApp 开发的商品筛选器与排序功能#三方框架 #Uniapp
  • 互联网大厂Java求职面试:从Spring到微服务的技术探讨
  • 预约按摩小程序源码介绍
  • 数据泄露频发,Facebook的隐私保护是否到位?
  • 青少年编程与数学 02-020 C#程序设计基础 07课题、控制结构
  • 理解vue-cli中的webpack
  • RabbitMQ搭建集群
  • kafka SASL/PLAIN 认证及 ACL 权限控制
  • Python整合Milvus向量数据库案例实战
  • 【Opencv+Yolo】Day2_图像处理
  • 探索C++标准模板库(STL):从容器到底层奥秘-全面解析String类高效技巧(上篇)
  • 在RK3588上实现YOLOv8n高效推理:从模型优化到GPU加速后处理全解析
  • element-ui upload 组件源码分享
  • C语言数据存储
  • 【b站计算机拓荒者】【2025】微信小程序开发教程 - chapter3 项目实践 - 2信息采集
  • Python打卡训练营打卡记录day38
  • 科技趋势分析系统 BBC (Big Bang of Computing)
  • 大模型(4)——Agent(基于大型语言模型的智能代理)
  • MYSQL 学习笔记
  • 解决ubuntu服务器未使用空间的分配
  • VUE npm ERR! code ERESOLVE, npm ERR! ERESOLVE could not resolve, 错误有效解决