当前位置：首页 > news >正文

基于K近邻的缺失值填补：原理、步骤与实战解析

news 2025/8/2 11:24:17

在真实世界的数据集中，缺失值就像藏在数据拼图里的空白碎片——它们可能源于数据采集设备的故障、用户未填写的表单字段，或是系统传输过程中的意外丢失。据统计，超过 60% 的实际业务数据集存在不同程度的缺失值问题，若直接删除或简单填充，可能导致模型偏差甚至错误结论。本文将深入解析一种经典的缺失值填补方法：K近邻填补（K-Nearest Neighbors Imputation），通过原理拆解、步骤演示和Python实战，带你掌握这一“数据侦探”的核心技能。

一、K近邻填补的核心思想

1.1 什么是K近邻填补？

K近邻填补（K-Nearest Neighbors Imputation，简称KNN填补）是一种 基于相似性的填补方法。它的核心逻辑是：“物以类聚”——与缺失值所在样本最相似的K个邻居，它们的值能更好地反映该缺失位置的真实情况。

举个例子：假设你想估算某小区某套房子的价格（缺失值），与其直接猜测，不如参考同小区、同户型、相近面积的3套已知价格的房子（K=3的邻居），取它们的均价作为参考——这就是KNN填补的思想。
在这里插入图片描述

1.2 关键组件解析

距离度量（Distance Metric）：衡量样本间“相似性”的工具，常用欧氏距离（Euclidean Distance）、曼哈顿距离（Manhattan Distance）等。
欧氏距离公式（二维示例）：
d(x,y)=(x1−y1)2+(x2−y2)2
值越小，说明两个样本越相似。
K值选择：需要填补的样本的“邻居数量”。K太小（如1）容易受异常值干扰，K太大可能引入不相关样本的噪声，通常通过交叉验证选择（常见值为3-10）。
加权平均：邻居的贡献度由其与缺失样本的距离决定——距离越近的邻居权重越高（对填补结果影响更大），距离越远的权重越低。

二、KNN填补的完整流程

2.1 步骤拆解（结合原文案例）

假设我们有一个包含4个变量（列）和11个观测（行）的数据集，其中第5行第2列的值缺失（用“■”表示）。以下是KNN填补的具体步骤：

步骤1：定位缺失值

目标：找到数据集中需要填补的缺失位置（如第5行第2列的变量2）。

步骤2：计算相似性（距离）

对除缺失值外的所有其他样本（共10个），计算它们与缺失样本（第5行）在

所有非缺失变量上的距离

。

关键点

：若其他变量也有缺失，需先处理（如用简单均值填补临时值，或仅使用完全无缺失的样本参与计算）。
- 常用距离：欧氏距离（适合连续变量）、汉明距离（适合分类变量）。
- 例如：比较第5行与第1行、第2行…第11行（除自身）在变量1、变量3、变量4（假设变量2是缺失列）上的数值差异，综合计算距离。

步骤3：选取K近邻

根据计算出的距离，排序并选择距离最近的

K个样本

（原文案例中K=3）。
- 这些邻居是“最像缺失样本”的其他观测——它们的变量2的值能反映缺失位置的可能取值。
- 原文中的“矩形框高亮”即表示这3个最近邻居在数据集中的位置。

步骤4：加权填补缺失值

提取这K个邻居在缺失变量（变量2）上的值，按距离倒数加权计算平均值：

填补值=∑i=1K(d**i+ϵ1)∑i=1K(d**i+ϵ1×x**i,变量2)
- d**i：缺失样本与第i个邻居的距离（距离越小，权重 d**i1 越大）。
- ϵ：极小值（如1e-5），避免除零错误。
- 原文简化版：直接取K个邻居变量2的原始值平均（未显式加权，实际库函数通常支持加权选项）。

三、Python实战演示

3.1 环境准备与模拟数据

我们用Python的sklearn库实现KNN填补，并构造一个包含缺失值的示例数据集：

import numpy as np
import pandas as pd
from sklearn.impute import KNNImputer# 构造示例数据（4列11行，第5行第2列缺失）
data = {'变量1': [1.2, 1.5, 1.8, 2.0, np.nan, 2.3, 2.5, 2.7, 3.0, 3.2, 3.5],'变量2': [10, 12, 15, 18, np.nan, 22, 25, 28, 30, 32, 35],  # 第5行（索引4）的变量2缺失'变量3': [100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200],'变量4': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B', 'A', 'B', 'A']
}
df = pd.DataFrame(data)print("原始数据（第5行变量2缺失）：")
print(df)

3.2 使用sklearn实现KNN填补

# 初始化KNN填补器（K=3，默认使用欧氏距离）
imputer = KNNImputer(n_neighbors=3)# 仅对数值列填补（分类列如变量4需单独处理）
numeric_cols = ['变量1', '变量2', '变量3']
df_numeric = df[numeric_cols]# 执行填补
df_imputed = pd.DataFrame(imputer.fit_transform(df_numeric), columns=numeric_cols)# 合并回原数据（保留分类列不变）
df_imputed['变量4'] = df['变量4']
print("\nKNN填补后数据（K=3）：")
print(df_imputed)

输出结果分析：