当前位置: 首页 > wzjs >正文

范县网站建设佛山信息技术网站开发

范县网站建设,佛山信息技术网站开发,自己做网站可以赚钱吗,网站交互怎么做1 算法介绍 DBSCAN/OPTICS层次聚类主要由以下几步组成 空间变换构建最小生成树构建聚类层次结构(聚类树)压缩聚类树提取簇 2 空间变换 用互达距离来表示两个样本点之间的距离 ——>密集区域的样本距离不受影响——>稀疏区域的样本点与其他样本点的距离被放大——>…

1 算法介绍

  • DBSCAN/OPTICS+层次聚类
  • 主要由以下几步组成
    • 空间变换
    • 构建最小生成树
    • 构建聚类层次结构(聚类树)
    • 压缩聚类树
    • 提取簇

2  空间变换

  • 互达距离来表示两个样本点之间的距离
    • ——>密集区域的样本距离不受影响
    • ——>稀疏区域的样本点与其他样本点的距离被放大
    • ——>增加了HDBSCAN聚类算法对散点的鲁棒性
  • 空间变换的效果取决于ε的选择
    • 当ε较大的时候,核心距离会变大
    • ——>互达距离变化
    • ——>更多样本点被分配到稀疏区域(更多点被视为散点)

2.1 核心距离

  • 同OPTICS(算法笔记:OPTICS 聚类-CSDN博客)的核心距离

2.2 互达距离

  • 比如下图,蓝点和绿点的互达距离,就是绿点的核心距离(绿线)
  • 红点和绿点的互达距离,就是他们两个点之间的距离(黄线)

3 建立最小生成树

使用Prim算法生成最小生成树

NTU课程:MAS714(4):贪心-CSDN博客

4 构建聚类层次结构

  • 给定最小生成树,下一步是将其转换为图分裂的层次结构
  • 这里用逆向思维完成这件事
    • 第一步:将树中的所有边按照距离递增排序
    • 第二步:然后依次选取每条边,将边的链接的两个子图进行合并。(类似于层次聚类的思路)
  • 以下得到的树又称为聚类树

此时如果和层次聚类一样,设置一条distance的阈值

  • 我们就可以将红线下面最近的节点作为聚类的一个类,而红线上面的聚起来的都是散点。

但是这样得到的聚类结果,会有很多有很少量节点的簇

——>我们需要压缩聚类树

5 压缩聚类树

通过压缩聚类树,我们可以得到一棵拥有少量节点的聚类树

5.1 具体步骤

  • 1,确定最小簇的大小(HDBSCAN的一个参数)
  • 2,当最小簇大小确定了后,我们就可以自上而下遍历聚类树,并在每个节点分裂时:看分裂产生的两个样本子集的样本数是否大于最小簇大小
    • 如果左右儿子中有一个子结点的样本数少于最小族大小,我们就直间将该节点删除,并且另一个子节点保留父节点的身份
    • 如果两个子结点中的样本数都小于最小族大小,那么就将其两个子节点都删除,即当前节点不再向下分裂
    • 如果两个子结点中的样本数都大于最小族大小,那么我们进行正常分裂,即保持原聚类树不变。
    • (删除的点都是HDBSCAN视为的噪点)

6 提取簇

  • 从压缩的聚类树种提取聚类的簇
    • 为压缩聚类树的每个节点打上一个类标签
  • 提取簇的一个原则是:某个节点属于某一个簇,那么他的子节点都属于这个簇
  • 经过聚类树的压缩操作,树中已经没有了散点(散点在压缩聚类树的过程中已经被删除)
    • 现在的任务只是将较近的节点合并到一簇中去,使得最后选择的簇能够有更好的稳定性

6.1 聚类树节点稳定性

  • 首先定义一个λ,表示距离的倒数\lambda=\frac{1}{distance}
  • 对于树中的某个节点(一个节点里有一堆样本点)定义两个量:\lambda_{birth},\lambda_{death}
    • \lambda_{birth}:分裂产生当前节点时,对应断开边长度的倒数(分类当前节点的父节点)
    • \lambda_{death}:当前节点被分裂成两个子结点时,对应断开边长度的倒数。
    • 分裂父节点时,断开边长度肯定比分裂当前点的时候长,所以倒数正好反过来
      • 也即:\lambda_{birth}<\lambda_{death}
  • 之后的我就没看懂了。。。可以参考【机器学习】密度聚类算法之HDBSCAN_hdbscan速度慢-CSDN博客 r

如果有会的同学,欢迎赐教~

7  sklearn实现

class sklearn.cluster.HDBSCAN(min_cluster_size=5, min_samples=None, cluster_selection_epsilon=0.0, max_cluster_size=None, metric='euclidean', metric_params=None, alpha=1.0, algorithm='auto', leaf_size=40, n_jobs=None, cluster_selection_method='eom', allow_single_cluster=False, store_centers=None, copy=False)

7.1 主要参数

min_cluster_size一个群组中样本的最小数量,以便将该群组视为一个簇;小于此大小的群组将被视为噪声
min_samples一个点被视为核心点的邻域内的样本数量。这包括点本身。
cluster_selection_epsilon一个距离阈值。低于此值的簇将被合并
metric计算特征数组中实例之间距离时使用的度量。
algorithm

用于计算核心点距离的算法

{“auto”, “brute”, “kdtree”, “balltree”}

参考内容: 【机器学习】密度聚类算法之HDBSCAN_hdbscan速度慢-CSDN博客


文章转载自:

http://nnVK9tSH.Lpzqd.cn
http://Rysn6mws.Lpzqd.cn
http://76EB7QF2.Lpzqd.cn
http://42srag3A.Lpzqd.cn
http://5BGtSI1B.Lpzqd.cn
http://wIoXSGmb.Lpzqd.cn
http://jXPr3fLw.Lpzqd.cn
http://npL8FeHz.Lpzqd.cn
http://Fe6aVS1R.Lpzqd.cn
http://24qK6vGE.Lpzqd.cn
http://fYfUbv5V.Lpzqd.cn
http://CBUD0BnT.Lpzqd.cn
http://C3FtgSNH.Lpzqd.cn
http://s4Lwnvme.Lpzqd.cn
http://bDKNZ81u.Lpzqd.cn
http://5ZLFbpVR.Lpzqd.cn
http://ALlqrsUu.Lpzqd.cn
http://lbnLyPsv.Lpzqd.cn
http://qFed93xN.Lpzqd.cn
http://wys4AVJv.Lpzqd.cn
http://DztmnWKs.Lpzqd.cn
http://TxCLxeIV.Lpzqd.cn
http://qf51M8fZ.Lpzqd.cn
http://vMf8djtj.Lpzqd.cn
http://8irqxNjV.Lpzqd.cn
http://JQXrddEH.Lpzqd.cn
http://LjlpE26i.Lpzqd.cn
http://RhuFoHMf.Lpzqd.cn
http://i4mo6aER.Lpzqd.cn
http://BBgu098E.Lpzqd.cn
http://www.dtcms.com/wzjs/634396.html

相关文章:

  • 做儿童方面的网站简单大气的建筑公司名字
  • 家教网站建设南宁专业网站制作前十排名
  • 景观小品设计网站推荐重庆建设工程信息网官网平台
  • 自己做自营网站贵阳餐饮网站建设
  • 木马科技网站建设重庆市住房和城乡建设网站
  • 南京米雅途做网站如何怎样在在农行网站上做风险评估
  • 毕节建设局网站中小型企业查询官网
  • 佛山市做网站网站建设项目心得体会
  • 网站做seo安全吗北京商场购物中心
  • 网站开发建设合同书网站建设的文章
  • 怀仁网站建设施工企业排名
  • 找外包公司做网站望城区网站建设
  • 网站的后缀wordpress 评论邮箱改成电话
  • 外汇期货喊单网站怎么做的八年级微机网站怎么做
  • 徐州金网网站建设想开发一个app需要多少钱
  • 沈阳建站模板展示用jsp做的网站在不同浏览器显示效果差异很大如何解决
  • 把自己的电脑做网站服务器网页设计期末作品要求
  • 重庆建站费用外发加工网有哪些
  • 做网站需要多少屏湖州市住房和城乡建设局网站
  • 网站视觉规范西网站建设公司
  • 极简个人网站模板网站建设和程序开发哪个好
  • 4399游戏盒下载官方网站关于网站建设项目实训报告
  • 企业网站建设的建议摄影网站图片
  • 手机做炫光头像图的网站百度系优化
  • 网站如何做邮箱订阅怎么把一个网站的信息都抓取下来
  • 备案 网站服务类型耒阳市网站建设
  • 好的品牌设计网站怎么在网上查网站空间是双线还是单线
  • 济南正规网站建设公司哪家好企业信息化建设如何帮助客户理解网站流量
  • 电子商务网站开发要学什么如何选择邯郸网站制作
  • 租外国服务器做的网站要备案吗红色旅游网页设计