当前位置：首页 > news >正文

K 近邻算法（K-Nearest Neighbors, KNN）详解及案例

news 2025/7/23 5:52:00

K近邻算法（K-Nearest Neighbors, KNN）详解及案例

一、基本原理

K近邻算法是一种监督学习算法，核心思想是“物以类聚，人以群分”：对于一个新样本，通过计算它与训练集中所有样本的“距离”，找出距离最近的K个样本（即“近邻”），再根据这K个近邻的标签（分类问题）或数值（回归问题）推断新样本的结果。

KNN属于“惰性学习（Lazy Learning）”，它没有显式的“训练过程”，不会提前构建模型，而是在预测时直接依赖训练数据进行计算，因此也被称为“实例-based学习”。

二、核心要素与关键步骤

1. 距离度量

距离用于衡量样本间的相似性，距离越小，样本越相似。常用的距离度量包括：

欧氏距离（最常用）：适用于连续特征，计算n维空间中两个点的直线距离。
公式：对于样本 $x=(x_1,x_2,...,x_n)$ 和 $y=(y_1,y_2,...,y_n)$ ，欧氏距离为：
$d(x,y)=∑i=1n(xi−yi)2d(x,y)=\sqrt{\sum_{i=1}^{n}(x_i-y_i)^2}$
曼哈顿距离：适用于高维数据，计算坐标轴上的“城市街区距离”。
公式： $d(x,y)=∑i=1n∣xi−yi∣d(x,y)=\sum_{i=1}^{n}|x_i-y_i|$
余弦相似度：适用于高维稀疏数据（如文本），衡量向量方向的相似性（与模长无关）。
公式： $cos⁡θ=x⋅y∣∣x∣∣⋅∣∣y∣∣=∑i=1nxiyi∑i=1nxi2⋅∑i=1nyi2\cos\theta=\frac{x\cdot y}{||x||\cdot||y||}=\frac{\sum_{i=1}^{n}x_i y_i}{\sqrt{\sum_{i=1}^{n}x_i^2}\cdot\sqrt{\sum_{i=1}^{n}y_i^2}}$

2. K值选择

K值是KNN的核心超参数，直接影响预测结果：

K值过小：近邻数量少，易受噪声样本影响，导致“过拟合”（模型对训练数据太敏感）。
K值过大：近邻包含过多无关样本，导致“欠拟合”（模型忽略局部特征，偏向全局平均）。
常见选择：通常取奇数（避免投票平局），如3、5、7等；实际应用中通过交叉验证（如5折交叉验证）选择最优K值。

3. 决策规则

分类问题：对K个近邻的标签进行“多数投票”（少数服从多数），得票最多的标签即为新样本的预测类别。
回归问题：对K个近邻的数值取“平均值”（或加权平均值），作为新样本的预测值。

4. 核心步骤

确定距离度量方式（如欧氏距离）和K值；
计算新样本与训练集中所有样本的距离；
按距离从小到大排序，选取前K个样本作为“近邻”；
根据K个近邻的标签（分类）或数值（回归），得到新样本的预测结果。

三、优缺点

优点

简单直观：无需复杂的模型训练，原理易懂，实现难度低；
适应性强：可处理非线性数据，对特征分布无严格假设；
扩展性好：可通过优化距离计算（如KD树、球树）提升效率。

缺点

计算成本高：预测时需与所有训练样本计算距离，样本量过大时速度慢；
对不平衡数据敏感：若某类样本占比极高，K近邻易被其主导；
对噪声和异常值敏感：离群点可能被误判为“近邻”，影响预测结果；
依赖距离度量：高维数据中“距离”的意义会弱化（维度灾难）。

四、案例详情（分类问题：电影类型预测）

问题描述

已知4部电影的特征（搞笑镜头数、打斗镜头数）和标签（喜剧片/动作片），预测一部新电影的类型。

训练数据

电影ID	搞笑镜头数（特征1）	打斗镜头数（特征2）	标签
A	30	10	喜剧片
B	20	5	喜剧片
C	5	40	动作片
D	10	30	动作片

新样本

待预测电影E：搞笑镜头数=25，打斗镜头数=20，需预测其类型。

预测步骤

步骤1：确定参数

选择欧氏距离作为度量方式，K=3（奇数，避免平局）。

步骤2：计算新样本与训练样本的距离

电影E（25,20）与A、B、C、D的欧氏距离：

与A（30,10）的距离： $(25−30)2+(20−10)2=(−5)2+102=25+100=125≈11.18\sqrt{(25-30)^2+(20-10)^2}=\sqrt{(-5)^2+10^2}=\sqrt{25+100}=\sqrt{125}\approx11.18$
与B（20,5）的距离： $(25−20)2+(20−5)2=52+152=25+225=250≈15.81\sqrt{(25-20)^2+(20-5)^2}=\sqrt{5^2+15^2}=\sqrt{25+225}=\sqrt{250}\approx15.81$
与C（5,40）的距离： $(25−5)2+(20−40)2=202+(−20)2=400+400=800≈28.28\sqrt{(25-5)^2+(20-40)^2}=\sqrt{20^2+(-20)^2}=\sqrt{400+400}=\sqrt{800}\approx28.28$
与D（10,30）的距离： $(25−10)2+(20−30)2=152+(−10)2=225+100=325≈18.03\sqrt{(25-10)^2+(20-30)^2}=\sqrt{15^2+(-10)^2}=\sqrt{225+100}=\sqrt{325}\approx18.03$

步骤3：排序并选K=3个近邻

距离从小到大排序：
A（11.18）→ B（15.81）→ D（18.03）→ C（28.28）
前3个近邻为：A、B、D。

步骤4：多数投票

近邻A的标签：喜剧片；
近邻B的标签：喜剧片；
近邻D的标签：动作片；
投票结果：喜剧片（2票）＞动作片（1票）。

预测结果

电影E被预测为喜剧片。

五、总结

KNN是一种基于“相似性”的简单算法，核心依赖距离度量和K值选择。尽管存在计算成本高的问题，但因其直观性和适应性，在推荐系统、图像识别、文本分类等领域仍被广泛应用（如推荐系统中“相似用户喜欢的商品”推荐）。实际使用时需注意优化样本量和距离计算，以提升效率。

http://www.dtcms.com/a/291994.html

相关文章：

MySQL 学习二 MVCC

【时时三省】(C语言基础)指向函数的指针

SpringCloud Nacos配置中心

CentOS 8文件描述符耗尽检测与处理实战指南

Linux CentOS 虚拟机升级内核至4.x以上版本

为何在 Vue 的 v-model 指令中不能使用可选链（Optional Chaining）？

AI-调查研究-35-咖啡价格战味觉与消费体验差异：自制咖啡为何更“好喝”？

【Practical Business English Oral Scene Interpretation】 No9~10

vue 用hbuilder打包apk后返回键不好使

importlib.import_module() 的用法与实战案例

重构创作边界：川翔云电脑 - UE5云端超算引擎

B端UI组件库重构：如何让开发效率提升40%的交互逻辑拆解

拥抱区块链红利：机遇无限，风险暗涌

Python 绘制各类折线图全指南：从基础到进阶

MATLAB软件使用频繁，企业如何做到“少买多用”？

互联网隐私的未来：Web3、区块链与神秘法宝

Function Modifier

动漫短剧系统开发：构建下一代沉浸式娱乐平台的架构设计与技术突破

使用qt编写上位机程序，出现串口死掉无法接受数据的bug

Kotlin 中的单例模式（Singleton）与对象声明

力扣-链表相关题持续更新中。。。。。。

手写防抖函数、节流函数

【企业APP上架小米应用商店需要做的准备】（本示例为uniapp开发）

LLM评测框架Ragas:SQL指标（解决了Ollama推理框架不支持的问题）

oracle查询数据结构滤涉及的sql语句

程序是如何生成的-以c语言为例

行内元素垂直边距为何失效？

Vite：下一代前端构建工具的革命

金仓数据库风云

基于JAVA实现基于“obj--html--pdf” 的PDF格式文本生成