当前位置: 首页 > news >正文

Sklearn 机器学习 数据聚类 DBSCAN聚类算法的异常点

💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖

在这里插入图片描述

本博客的精华专栏:
【自动化测试】 【测试经验】 【人工智能】 【Python】


在这里插入图片描述

Sklearn 机器学习 | DBSCAN 聚类算法中的异常点识别与应用实战

在无监督学习中,DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 是一种基于密度的聚类算法,不仅支持发现任意形状的簇,还可以自动识别“异常点”——也称为“噪声点(Noise)”。

本文将从 算法原理Sklearn 实战代码异常点识别与可视化参数调优技巧 全面讲解 DBSCAN 的核心使用方法。读完本文,你将掌握一种强大且实用的异常点检测工具,适用于复杂数据结构分析任务。


🧩 一、什么是 DBSCAN 聚类算法?

核心思想

DBSCAN 的核心理念是通过 密度联系 来划分数据簇,具体由两个关键参数控制:

  • eps:邻域半径,表示一个点的密度半径范围;
  • min_samples:最小邻居数,表示成为“核心点”所需的最少邻居数。

工作原理详解

  1. 任取一个数据点 A,查找其 eps 半径内的所有点(包括 A 本身);
  2. 如果邻居数 ≥ min_samples,则 A 为核心点
  3. 找出所有从核心点“直接密度可达”的点(即 eps 范围内的点);
  4. 递归扩展,找出从核心点“密度可达”(包括间接路径)的一系列点,构成一个聚类;
  5. 无法从任意核心点出发密度可达的点,被标记为 -1,称为噪声点(Noise),即异常点

⚠️ 注:术语中“直接密度可达”表示某点落在核心点的 eps 邻域内,而“密度可达”是指从核心点出发,经一系列核心点跳转而可达的路径。


📊 二、DBSCAN 聚类实战:数据准备与建模

我们使用 make_moons 数据集,它由两个半圆构成,常用于测试聚类算法在非凸形状数据中的效果。

导入库:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.cluster import DBSCAN

构造数据:

<
http://www.dtcms.com/a/318457.html

相关文章:

  • MicrochipSam9x60 PIO寄存器操作流程
  • TypeScript 元组类型精简知识点
  • 网络拨测和业务拨测是什么意思
  • 【Create my OS】8 文件系统
  • 【Go】新版GORM自动字段映射规则
  • 基于深度学习的医学图像分析:使用Diffusion Models实现医学图像生成
  • word2vector细致分解(CBOW, SKIP_GRAM, 层次soft Max, 负采样)
  • 8月6日星期三今日早报简报微语报早读
  • 机器学习 朴素贝叶斯
  • 园区误报率↓79%!陌讯多模态融合算法在智慧环卫越界识别的工程实践
  • 防火墙及firewall工具详解
  • AI增强的软件测试工具
  • 解决pytorch-lightning1.6.0安装时自动下载最新的pytorch方法
  • 《深入浅出Embedding》这本书
  • 高等数学(工本)----00023 速记宝典
  • <2> Elasticsearch大规模数据迁移实战:从内存暴涨到优化策略
  • 令牌桶限流算法
  • 《动手学深度学习》读书笔记—9.3深度循环神经网络
  • 数字图像处理(冈萨雷斯)第三版:第四章——空间滤波与频域滤波(平滑与锐化)——主要内容和重点
  • SQL166 删除索引
  • 一篇认识synchronized锁
  • JAVA--流程控制语句
  • Android—服务+通知=>前台服务
  • shell基础之EOF的用法
  • 译 | 在 Python 中从头开始构建 Qwen-3 MoE
  • windos安装了python,但是cmd命令行找不到python
  • 012 网络—基础篇
  • 机器学习算法系列专栏:逻辑回归(初学者)
  • flex布局:容器的justify-content属性
  • Python训练Day35