当前位置: 首页 > news >正文

2025年9月17日学习笔记——模式识别与机器学习第11章——非监督学习与聚类

模式识别与机器学习第11章——非监督学习与聚类

  • 一.引言
    • 1.非监督学习
    • 2.聚类分析
  • 二.基于相似度度量的聚类方法

一.引言

1.非监督学习

事先不知道任何样本的类别标号,通过某种算法来把一组位置类别的样本划分成若干类别,这就是非监督模式识别。

2.聚类分析

1.聚类分析即非监督学习模式识别是最典型的非监督学习问题。
2.要使聚类结果有意义,需要对聚类有一定的数学上的要求或假定,这就是聚类的准则
3.非监督模式识别方法可以分为两类,一类是基于样本的概率分布模型进行聚类划分,如高斯混合模型(书11.2-11.3节);另一类是直接根据样本间的距离相似性度量进行聚类,如K均值、模糊k均值,分级聚类等(书11.4-11.6节),还有基于神经网络的聚类划分如SOM模型。

二.基于相似度度量的聚类方法

1.如果不估计样本的概率分布,就无法从概率分布来定义聚类,需要对聚类有其他形式的定义。
2.人们通常根据样本间的某种距离或相似性度量来定义聚类,即把相似地(或者距离近)的样本聚为同一类,而把不相似的(或距离远的)样本归在其他类。
3.分类:动态聚类算法和分级聚类算法

(一)动态聚类算法

  1. 动态聚类算法的三个要点:
    (1)选定某种距离度量作为样本间的相似性度量
    (2)确定某个评价聚类的准则函数。.
    (3)给定某个初始分类,然后用迭代算法找出使准则函数取极值的最好聚类结果。

不同的距离度量方式
1.欧氏距离
2.曼哈顿距离
3.闵可夫斯基距离distmk(x,y)=(∑u=1n∣xu−yu∣p)1pdist_{mk}(x,y)=(\sum_{u=1}^n\mid x_u-y_u\mid^p)^{\frac{1}{p}}distmk(x,y)=(u=1nxuyup)p1
4.余弦距离distcos⁡(x,y)=1−cos⁡(x,y)=1−x⋅y∥x∥∥y∥dist_{\cos}(x,y)=1-\cos(x,y)=1-\frac{x\cdot y}{\|x\|\|y\|}distcos(x,y)=1cos(x,y)=1x∥∥yxy
5.编辑距离
… …

2.特点:多次迭代,逐步调整类别划分,最终使某准则达到最优。

2.1 K均值算法

误差平方和聚类准则

Je=∑i=1k∑x∈Γi∥x−mi∥2=∑i=1kJiJ_{e}=\sum_{i=1}^{k}\sum_{x\in\Gamma_{i}}\left\|x-m_{i}\right\|^{2}=\sum_{i=1}^{k}J_{i}Je=i=1kxΓixmi2=i=1kJi
其中Γi\Gamma_{i}Γi式第i个聚类,i=1,...,ki=1,...,ki=1,...,k,其中样本数为NiN_iNiΓi\Gamma_{i}Γi中样本均值为mi=1Ni∑x∈Γixm_{i}=\frac{1}{N_{i}}\sum_{x\in\Gamma_{i}}xmi=Ni1xΓix

直观理解:
1.JeJ_eJe反映了用k个聚类中心代表k个样本子集所带来的总误差平方和
2.k均值算法的目标:最小化JeJ_eJe

K均值算法的步骤

(1)初始划分k个聚类,Γi\Gamma_{i}Γii=1,...,ki=1,...,ki=1,...,k,计算mj=1∣Γj∣∑xi∈Γjxi和Jem_{j}=\frac{1}{\left|\Gamma_{j}\right|}\sum_{x_{i}\in\Gamma_{j}}x_{i}\text{和}J_{e}mj=Γj1xiΓjxiJe
(2)对每一个样本xix_ixi计算其到各类中心mjm_jmj的距离ρij=∥xi−mj∥2j=1,…,k\rho_{ij}= \begin{Vmatrix} x_i-m_j \end{Vmatrix}^2\quad j=1,\ldots,kρij=ximj2j=1,,k
(3)更新各类集合Γj={xp:ρpj≤ρpl,∀l,1≤l≤k}\Gamma_{j}=\{x_{p}:\rho_{pj}\leq\rho_{pl},\forall l,1\leq l\leq k\}Γj={xp:ρpjρpl,l,1lk}
(4)重新计算mj,j=1,...,k和Jem_j,j=1,...,k和J_emjj=1,...,kJe
(5)若连续N次迭代JeJ_eJe不改变,则停止;否则转(2)

这是一个局部搜索算法,并不能保证收敛到全局最优解,即不能保证找到所有可能的聚类划分中误差平方和最小的解。算法结果受到初始划分样本调整顺序的影响

1.初始代表点选择

(1)凭经验选择代表点
(2)将全部数据随机分成kkk类,计算每类重心。
(3)用"密度法"选择代表点。
(4)按照样本天然的排列顺序或者将样本随机排序后用前ccc个点作为代表点。
(5)从(c−1)(c-1)c1聚类划分问题的解中产生ccc聚类划分问题的代表点。

2.初始分类方法:

(1)选择一批代表点后,其余的点离哪个代表点最近就归入哪一类,从而得到初始分类。
(2)选择一批代表点后,每个代表点自成一类,将样本依顺序归入与其距离最近的代表点的那一类,并立即重新计算该类的重点以代替原来的代表点。然后再计算下一个样本的归类,直到所有的样本都归到相应的类中。
(3)…

3.关于kkk均值方法中的聚类数目kkk

K均值聚类方法的一个基本前提就是聚类数目kkk事先给定的,这些在非监督学习问题中并不总是能满足。
(1)根据经验和先验知识确定
(2)根据聚类结构进行估计令k=1,2,3,...,k=1,2,3,...,k=1,2,3,...,求各自的Je(k)J_e(k)Je(k)找其中的肘点

样本中内在聚类不一定很紧密,类别之间并不能很好地分开,或者不同类之间样本分布地紧密程度不同会导致不存在明显肘点
人们在很多应用中采用地是根据领域知识人为指定类别数目。

http://www.dtcms.com/a/389053.html

相关文章:

  • arcgispro基于森林的分类与回归 (空间统计)
  • npm run serve 和 npm run dev的区别
  • 2025 局域网内多台服务器时间统一,最稳定且无需联网的方案是部署 NTP 离线服务器部署chrony 轻量且兼容性强,支持纯离线环境
  • 机器学习如何改变AI?
  • rook-ceph的dashboard配置覆盖与生效
  • 在 macOS 上安装 Claude Code 的完整指南
  • RocketMQ Dashboard 消息重复问题排查与修复(rocketmq-dashboard-2.0.0-source-release)
  • 卓伊凡的第一款独立游戏-详细介绍游戏开发引擎unity-以及详细介绍windows和mac的安装步骤【01】
  • 多表联合查询
  • Day26_【深度学习(6)_神经网络NN(1中)激活函数_softmax详解篇】
  • 黑盒测试:测试用例设计之等价类设计方法(等价类划分:Equivalence Partitioning)有效等价类、无效等价类、边界值分析
  • 22 C++11 初始化新姿势:{} 统一初始化(省等号)+initializer_list 底层解析
  • 黑马头条_SpringCloud项目阶段二:FreeMarker组件以及MinIO系统集成
  • MySQL 数据库基础操作指南:从创建管理到备份恢复全解析
  • 【Java】-- rjvm 项目分析
  • Markdown 常用语法参考
  • 11.2.3 固定话题聊天实现
  • CAN(控制器局域网)工业协议教学文档(一)
  • PHP基础-变量与常量(第八天)
  • SQ01,SQ02,SQ03,SE93事务码配置
  • AI提示词Excel 表格提取数据准确度处理
  • DeviceNet 转 EtherNet/IP 实现罗克韦尔 PLC 与库卡机器人在汽车白车身焊接的微秒级数据同步协作案例
  • GPT-5 vs Gemini 2.5 Pro:两大AI旗舰模型深度技术对比
  • 31、GPT核心引擎完整手工构建:从算法原理到工程优化(Generative Pre-trained Transformer)
  • MySQL MHA 完整配置与故障后原主库还原指南
  • 栈-946.验证栈序列-力扣(LeetCode)
  • spring boot3.0整合rabbitmq3.13
  • Scrapy爬虫利器:CrawlSpider详解
  • 从零开始学Flink:数据源
  • GRPO算法复现