当前位置: 首页 > wzjs >正文

潍坊市作风建设年官方网站中国有几个搜索引擎

潍坊市作风建设年官方网站,中国有几个搜索引擎,jsp新闻网站,怎样建设自己网站聚类分析是一种常用的无监督学习方法,是将所观测的事物或者指标进行分类的一种统计分析方法,其目的是通过辨认在某些特征上相似的事物,并将它们分成各种类别。R语言提供了多种聚类分析的方法和包。 方法优点缺点适用场景K-means计算效率高需…

聚类分析是一种常用的无监督学习方法,是将所观测的事物或者指标进行分类的一种统计分析方法,其目的是通过辨认在某些特征上相似的事物,并将它们分成各种类别。R语言提供了多种聚类分析的方法和包。

方法优点缺点适用场景
K-means计算效率高需预设K值球形数据分布
层次聚类可视化直观计算复杂度O(n²)小数据集/层级关系分析
DBSCAN发现任意形状参数敏感噪声数据/密度差异大
PAM对异常值鲁棒计算成本高中小规模数据

一、层次聚类

它是通过计算样本之间的距离来构建一个层次化的聚类结构,结果通常用树状图(dendrogram)来表示。

实现层次聚类的常用函数是R语言内置函数hclust(),还可以用cluter扩展包agens()函数flashClust扩展包hclust()函数

1、hclust()函数

下面用flexclust扩展包中的milk数据集进行讲解,此数据集包含了25种哺乳动物乳汁的成分数据:水分(water)、蛋白质(protein)、乳糖(lactose)、脂肪(fat)和灰分(ash)。

1.1 准备数据

library(flexclust)
# 第1步 准备数据:查看数据
data(milk)
milk

 

1.2 标准化数据 

# 第2步 标准化数据
milk_data <- scale(milk, center=T, scale=T)
milk_data

1.3 计算距离

# 第3步 计算欧几里得距离;也可以选用其它方法
milk_dist <- dist(milk_data, method="euclidean")
milk_dist

1.4 层次聚类

 使用平均距离法进行层次聚类

# 使用平均距离法进行层次聚类
fit_average <- hclust(milk_dist, method="averge")
fit_average

使用离差平和法进行层次聚类

# 使用平均距离法进行层次聚类
fit_average <- hclust(milk_dist, method="ward.D2")
fit_average

1.5 可视化结果

plot(fit_average, hang=-1, cex=1.2,main="平均距离层次聚类")

plot(fit_average, hang = -1, main = "层次聚类树状图", xlab = "样本", sub = "")
# 用矩形标出3个聚类
rect.hclust(fit_average, k = 3, border = 2:4)  

 1.6 切割聚类并评估

使用flexclust扩展包中的cuttree()函数将聚类结果分为3类(为什么分为3类,在此不细究,可上网查询方法)。

clusters <- cutree(fit_average, k=3)
# 可视化结果
plot(fit_average, hang=-1, cex=1, main="平均距离层次最终聚类")
rect.hclust(fit_average, k=3)

二、K-均值聚类 

1、kmeans()函数

层次聚类是一次性的,即样本点一旦被划分道一个类中,就不会再被分配到其它的类中,而且当样本量达到数百甚至数千时,层次聚类会很难处理。

R语言中最常用的K-均值聚类函数时kmeans()函数。

1.1 数据准备

用R语言内置的iris数据集为例。首先需要将类别信息去除。

head(iris)
iris_data <- iris[, 1:4]
head(iris_data)

1.2 标准化数据

# 标准化数据,消除量纲的影响
iris_scaled <- scale(iris_data, center=T, scale=TRUE)
head(iris_scaled)

 1.3 选择最佳K值

使用肘部法选择最佳的K值:通过计算不同聚类数k对应的总组内平方和(Total Within-Cluster Sum of Squares, WSS),找到WSS下降速度显著变缓的“肘部”点,该点对应的k即为最佳聚类数。

wss <- numeric(10)
for (k in 1:10) {kmeans_model <- kmeans(iris_scaled, centers = k, nstart = 25)wss[k] <- kmeans_model$tot.withinss
}
plot(1:10, wss, type = "b", pch = 19, main = "肘部法选择最佳k值", xlab = "聚类数k", ylab = "总组内平方和(WSS)")

从下面的截图可知,当k=3时,下降速度明显变缓。 

 1.4 K-均值聚类

centers:聚类数k。

nstart:随机初始中心点的次数(建议设为25以减少局部最优影响)。

iter.max:最大迭代次数(默认10)。

set.seed(123)
# 进行K-均值聚类
fit_means <- kmeans(iris_scaled, centers=3, iter.max=100, nstart=25)

1.5 可视化结果

library(factoextra)
fviz_cluster(fit_means, data = iris_scaled, palette = "jco",  # 配色方案geom = "point",   # 仅显示点ellipse.type = "norm",  # 添加正态分布椭圆ggtheme = theme_minimal())

 

http://www.dtcms.com/wzjs/65192.html

相关文章:

  • 一个网站开发需要几人今日财经最新消息
  • 网站建设陕icp十大免费域名
  • 网站建设的总结100字baidu百度
  • 网站建设日期如何查询怎么自己做网址
  • 平面设计的前景怎么样优化技术
  • 安徽网站建设哪家好竞价sem托管公司
  • 做街机棋牌上什么网站发广告石家庄seo报价
  • 不用代码做网站的软件苏州关键词seo排名
  • 方庄网站建设公司广告策划书
  • 全国大型网站建设长沙市seo百度关键词
  • 龙港做网站大白兔网络营销策划书
  • 盐城网站建设ycbeasy百度助手app下载
  • 无锡网站推广哪家好杭州专业seo服务公司
  • 做淘宝要网站?十大短视频平台排行榜
  • 做网站可以把文字做成图片吗路由器优化大师
  • 温州做网站最好的东莞疫情最新消息今天新增病例
  • 南京网站开发公司哪家好快速的网站设计制作
  • jsp网站开发的环境配置过程西地那非能提高硬度吗
  • 优衣库网站建设百度企业官网认证
  • 郴州高椅岭四川百度推广和seo优化
  • 如何做淘宝cms导购网站企业邮箱怎么申请
  • 谷歌网站建设代理关键词歌词完整版
  • 广东一站式网站建设费用百度查重软件
  • 网站制作工具 织梦软文代写多少钱一篇
  • 北京做建筑信息的网站网络营销事件
  • 素材网站pinterest快排seo软件
  • 订阅号可以做微网站如何推广网站方法
  • 请列出页面上影响网站排名的因素什么是搜索引擎优化?
  • 用php做的网站有哪些竞价开户推广
  • wordpress yoast seo北京网站优化托管