当前位置：首页 > news >正文

机器学习(一）KNN，K近邻算法（K-Nearest Neighbors）

news 2025/7/26 11:07:55

💡 建议初学者掌握KNN作为理解其他复杂算法（如SVM、决策树、神经网络）的基石。

K近邻算法（K-Nearest Neighbors, KNN）详解：原理、实践与优化

K近邻算法（K-Nearest NeighboKrs，简称KNN）是一种经典、直观且易于实现的监督学习方法，既可用于分类，也可用于回归。它“懒惰”地存储所有训练样本，直到有新样本需要预测时才临时计算，因此也被称为“懒惰学习算法”。
本文将系统介绍KNN的核心思想、算法流程、距离度量、超参数、优缺点、使用方法与完整Python实战案例，帮助读者从理论到实践全面掌握这一算法。

一、核心思想 🧠

KNN 基于以下假设：

“近朱者赤，近墨者黑”：一个样本的标签很可能与其最近邻的样本标签一致。

具体流程：

对新样本，计算它与训练集中所有样本的距离；
选出距离最小的 K 个邻居；
分类：根据邻居类别投票（通常为多数投票，但可加权）；
回归：返回邻居标签的平均值或加权平均值。

其中，三个核心超参数影响性能：

K 值
距离度量方式
投票或加权策略

二、算法流程（以分类为例）

准备训练集与测试集
对测试集中每个新样本，计算其与所有训练样本的距离
对距离排序，选取最近的 K 个邻居
投票或加权，输出预测类别
返回所有样本的预测值（分类／回归结果）

三、常见距离度量方法

不同的任务场景和数据类型，可能需要不同的距离度量方式：

距离类型	定义	适用场景
欧氏距离（L₂）	∑(xi−yi)2\sqrt{\sum (x_i - y_i)^2}	连续特征，标准的距离度量
曼哈顿距离（L₁）	(\sum	x_i - y_i
闵可夫斯基距离（Lₚ）	(\left(\sum	x_i - y_i
余弦相似度	x⋅y∥x∥∥y∥\dfrac{x \cdot y}{\\|x\\|\\|y\\|}	文本或向量空间数据的方向相似度
汉明距离	不同位数数目	分类特征、二进制特征或字符串比较

⚠️ 注意：使用KNN前通常需要对数据做标准化（如Z-score或Min-Max），防止量纲不同导致距离计算失真。

四、KNN的关键超参数

1. K值选择

K太小 → 模型复杂，容易过拟合，对噪声敏感；
K太大 → 模型过于平滑，可能欠拟合。

通常使用**交叉验证（GridSearchCV）**选择合适的K值。

2. 距离度量方式

根据特征类型和数据分布选择距离函数（见上表）。

3. 权重策略

uniform：每个邻居权重相同；
distance：距离越近的邻居权重越大。

4. 最近邻搜索算法

brute：暴力搜索，适合小规模数据；
kd_tree / ball_tree：适合中等维度（<30）的数据；
高维/大规模数据推荐使用近似搜索库：如 Faiss、Annoy、ScaNN。

五、KNN的优缺点

✅ 优点

简单直观，易于实现；
无需训练，可直接使用训练数据；
天然支持多分类与回归；
非线性决策边界处理能力强。

❌ 缺点

预测时计算量大，难以实时响应；
内存消耗高，需保存全部训练样本；
高维数据效果差（维度灾难）；
对异常值、数据不平衡敏感。

六、KNN使用方法

发挥knn作用的代码：

# 创建一个 KNN 分类器对象，设置邻居数量 k=3
knn = KNeighborsClassifier(n_neighbors=3)# 在训练集上训练模型
knn.fit(X_train, y_train)# 在测试集上进行预测
y_pred = knn.predict(X_test)# 评估预测结果的准确率
accuracy = accuracy_score(y_test, y_pred)

以鸢尾花数据为例（可直接导入数据）完整代码：

# 导入所需的库
from sklearn.datasets import load_iris                      # 用于加载鸢尾花数据集
from sklearn.model_selection import train_test_split        # 用于划分训练集和测试集
from sklearn.neighbors import KNeighborsClassifier          # K近邻分类器
from sklearn.metrics import accuracy_score                  # 用于评估模型准确率# 1. 加载鸢尾花数据集（Iris 数据集是一个经典的机器学习分类数据集）
iris = load_iris()          # 加载数据集
X = iris.data               # 特征数据：4个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度）
y = iris.target             # 标签数据：3个类别（0=setosa，1=versicolor，2=virginica）# 2. 将数据集划分为训练集和测试集
# test_size=0.2 表示20%作为测试集，80%作为训练集
# random_state=42 保证每次运行划分方式一致（可复现）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 3. 创建一个 KNN 分类器对象，设置邻居数量 k=3
knn = KNeighborsClassifier(n_neighbors=3)# 4. 在训练集上训练模型
knn.fit(X_train, y_train)# 5. 在测试集上进行预测
y_pred = knn.predict(X_test)# 6. 评估预测结果的准确率
accuracy = accuracy_score(y_test, y_pred)
print("模型在测试集上的准确率：", accuracy)

七、实践建议与优化技巧

问题类型	优化建议
高维数据（维度灾难）	使用 PCA、t‑SNE、UMAP 等进行降维处理
类别不平衡	使用加权投票（distance）或 SMOTE 等过采样方法
大规模训练样本	使用 Faiss、Annoy 等近似邻居搜索库
实时响应需求	构建索引结构（KD‑Tree、Ball‑Tree）或 LSH 近似搜索
噪音点/异常值	结合局部加权（如 LOF）、数据清洗与异常检测
特征不同类型混合	对类别型特征采用合适距离度量（如汉明距离 + 欧氏距离组合）