当前位置：首页 > news >正文

【漫话机器学习系列】134.基于半径的最近邻分类器（Radius-Based Nearest Neighbor Classifier）

news 2025/10/8 20:34:42

在机器学习中，最近邻（Nearest Neighbor）算法是一种基本的分类方法，它主要依赖于计算点之间的距离来进行分类。最常见的最近邻算法是 k-最近邻（k-Nearest Neighbors, k-NN），它通过选取距离目标点最近的 k 个样本，并根据它们的类别来进行预测。然而，基于半径的最近邻分类器（Radius-Based Nearest Neighbor Classifier, RBNN） 是 k-NN 的一种变体，它采用的是固定半径（Radius） 来确定最近邻，而不是选取固定数量的邻居。

1. 基于半径的最近邻分类器概述

基于半径的最近邻分类器（RBNN） 通过设定一个固定的超参数 超球半径（Radius），然后在这个半径范围内寻找所有的样本点。如果存在一个或多个样本点落入这个半径内，则采用多数投票的方式决定类别；如果在这个半径范围内没有任何样本点，则分类可能会失败或者采用默认策略（例如：最近邻策略）。

相比于 k-NN，RBNN 具有以下特点：

避免了 k-NN 可能导致的全局 K 值不适配问题：k-NN 需要手动指定 k 值，在不同密度的数据集中 k 值的选择会影响分类结果。而 RBNN 通过设定半径，能够更好地适应数据的局部密度变化。
适用于数据密度不均匀的情况：在密度较大的区域，RBNN 可以使用较少的样本点进行分类，而在密度较低的区域，它可以扩大搜索范围，提高分类的鲁棒性。
计算量依赖于半径大小：如果半径设置过大，可能会包含过多样本点，导致计算量增加；如果半径设置过小，则可能会导致无法分类的问题。

2. 图片解析

在上图中，展示了 RBNN 分类器的基本工作原理：

红色点 代表数据集中已有的样本点。
蓝色点 代表待分类的新样本点（观察分类器）。
黑色圆圈 代表以蓝色点为中心的超球体（超球半径）。
圆圈内的红色点 表示在该半径范围内的邻居点，这些点将被用于决定蓝色点的类别。
圆圈外的红色点 表示距离蓝色点过远，无法用于分类的样本。

通过这种方式，RBNN 仅利用在半径范围内的样本点进行分类，而不会考虑更远的点。

3. RBNN 分类器的数学定义

假设有一个数据集：

$D = \{(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)\}$

其中， $x_i$ 是特征向量， $y_i$ 是类别标签。

对于一个新的观测点 x′，基于半径的最近邻分类器的决策规则如下：

计算所有样本点与 x′ 之间的距离： $d(x', x_i) = \| x' - x_i \|$
选取所有满足 $d(x', x_i) \leq r$ 的样本点（即在半径 r 内的样本）。
如果选出的点不为空，则采用多数投票法，将 x′ 归为出现最多类别的类别：

$y' = \arg\max_{y} \sum_{x_i \in B_r(x')} \delta(y, y_i)$

其中， $B_r(x')$ 表示半径 r 内的点集， $\delta(y, y_i)$ 为指示函数：

$\delta(y, y_i) = \begin{cases} 1, & y = y_i \\ 0, & \text{otherwise} \end{cases}$