数据清洗之处理缺失点
一 、删除缺失值:
在数据清洗过程中,处理缺失值的方法之一是删除缺失值。这种方法适用于缺失值数量较少或者缺失值对于分析任务的影响较小的情况。
条件删除 | 根据特定条件,删除包含缺失值的行或者列 |
删除行 | 除包含缺失值的行 |
删除列 | 如果某一列缺失值过多或者对分析任务没有贡献,可以选择删除该列 |
删除阈值 | 设置阈值,如果某一行或者列中的缺失值数量超过阈值,则删除该行或者列。 |
数学表达:空值滤波
isNull(x) 函数:用于判断参数X是否为空值,
空值,返回1;非空,返回0.
二 、插值法
插值是通过已知数据点的信息来估计未知点的值。这种方法对于连续型数据的缺失值填充尤其有用。
线性插值 | 通过已知的相邻数据点之间的线性关系来进行估计 |
多项式插值 | 使用更高阶的多项式来适应已知数据点 |
样条插值 | 样条插值使用分段函数(通常是三次样条)来逼近已知数据 |
Kriging插值 | Kriging是一种基于地理空间的插值方法,广泛用于地理信息系统(GIS) |
三 、填充法
使用填充法来填补缺失值。填充法主要通过一些规则或统计量来估算缺失值。
中位数填充 | 计算变量的中位数,将缺失值替换为中位数 |
众数填充 | 计算变量的众数,将缺失值替换为众数 |
最近邻填充 | 计算样本之间的相似度,选择最近邻的样本来填充缺失值 |
回归模型填充 | 对于含有缺失值的特征,将其看作目标变量,使用其他特征建立回归模型,预测缺失值 |
随机填充 | 从非缺失值中随机选择一个值,用于填充缺失值 |
业务填充 | 根据特定业务场景的规则,为缺失值设定合适的数值 |