当前位置: 首页 > wzjs >正文

做淘宝详情的网站广告营销策划方案模板

做淘宝详情的网站,广告营销策划方案模板,网站 怎么做百度才能搜索出来,wordpress 考试系统一、聚类算法 1. K-Means 聚类 原理:K-Means 是一种基于划分的聚类算法,目标是将 n n n 个样本划分到 k k k 个簇中,使得簇内样本的相似度尽可能高,簇间样本的相似度尽可能低。算法通过迭代的方式,不断更新簇的质心…

一、聚类算法

1. K-Means 聚类

  • 原理:K-Means 是一种基于划分的聚类算法,目标是将 n n n 个样本划分到 k k k 个簇中,使得簇内样本的相似度尽可能高,簇间样本的相似度尽可能低。算法通过迭代的方式,不断更新簇的质心(即簇内样本的均值),直到质心不再变化或达到最大迭代次数。
  • 步骤
    1. 随机初始化 k k k 个质心。
    2. 将每个样本分配到距离最近的质心所在的簇。
    3. 重新计算每个簇的质心。
    4. 重复步骤 2 和 3,直到质心不再变化或达到最大迭代次数。
  • 优点:实现简单,计算效率高,对于大规模数据集有较好的性能。
  • 缺点:需要预先指定簇的数量 k k k;对初始质心的选择敏感,可能会陷入局部最优解;对噪声和离群点敏感。

2. DBSCAN 聚类

  • 原理:DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,它将具有足够密度的区域划分为簇,并在具有噪声的数据中发现任意形状的簇。核心概念包括核心点、边界点和噪声点。
  • 步骤
    1. 定义两个参数:邻域半径 ϵ \epsilon ϵ 和最小样本数 M i n P t s MinPts MinPts
    2. 遍历所有样本,找出所有核心点(在其 ϵ \epsilon ϵ 邻域内至少有 M i n P t s MinPts MinPts 个样本)。
    3. 从一个核心点开始,通过密度可达关系(即从一个核心点出发,通过一系列核心点相连)扩展出一个簇。
    4. 重复步骤 3,直到所有核心点都被访问过。未被访问的样本被标记为噪声点。
  • 优点:不需要预先指定簇的数量;可以发现任意形状的簇;对噪声和离群点具有较好的鲁棒性。
  • 缺点:对于密度变化较大的数据集,参数 ϵ \epsilon ϵ M i n P t s MinPts MinPts 的选择比较困难;在高维数据上的性能可能较差。

3. 层次聚类

  • 原理:层次聚类是一种基于样本间相似度的聚类算法,它通过构建一个层次化的聚类树来表示样本之间的聚类关系。层次聚类可以分为凝聚式(自底向上)和分裂式(自顶向下)两种方式。
  • 步骤(凝聚式)
    1. 将每个样本看作一个单独的簇。
    2. 计算所有簇之间的相似度,将相似度最高的两个簇合并成一个新的簇。
    3. 重复步骤 2,直到所有样本都合并到一个簇中或达到停止条件。
  • 优点:不需要预先指定簇的数量;可以生成一个层次化的聚类结构,方便用户根据需要选择合适的聚类结果。
  • 缺点:计算复杂度较高,对于大规模数据集的计算效率较低;一旦一个合并操作完成,就不能再撤销,可能会导致聚类结果不理想。

在论文中聚类的策略不一定是针对所有特征,可以针对其中几个可以解释的特征进行聚类,得到聚类后的类别,这样后续进行解释也更加符合逻辑。

二、聚类的流程,实操

  • 标准化数据

  • 选择合适的算法,根据评估指标调参( )
    KMeans 和层次聚类的参数是K值,选完k指标就确定
    DBSCAN 的参数是 eps 和min_samples,选完他们出现k和评估指标
    以及层次聚类的 linkage准则等都需要仔细调优。
    除了经典的评估指标,还需要关注聚类出来每个簇对应的样本个数,避免太少没有意义。

  • 将聚类后的特征添加到原数据中

  • 原则t-sne或者pca进行2D或3D可视化

作业: 对心脏病数据集进行聚类。

import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import numpy as np# 读取 heart.csv 文件
file_path = r'.\csv\heart.csv'
data = pd.read_csv(file_path)# 假设数据集中所有列都是数值型特征,若有非数值型需要先处理
# 提取特征
X = data.values# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

接下来以DBSCAN聚类算法为例

# 使用 DBSCAN 进行聚类
db = DBSCAN(eps=0.3, min_samples=10).fit(X_scaled)
core_samples_mask = np.zeros_like(db.labels_, dtype=bool)
core_samples_mask[db.core_sample_indices_] = True
labels = db.labels_# 聚类数量(排除噪声点)
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)
n_noise_ = list(labels).count(-1)print(f'估计的聚类数量: {n_clusters_}')
print(f'估计的噪声点数量: {n_noise_}')

在这里插入图片描述
这个由于特征过多,所以不能做可视化展示,如果想做可视化展示,可以讲一个特征和标签对应,用这个特征来做聚类分析,最后可以做可视化分析。

三、总结

本文介绍了三种常见的聚类算法,对心脏病数据集做DBSCAN 聚类分析。先读取数据并标准化,设参数完成聚类得簇数与噪声点数。

http://www.dtcms.com/wzjs/68701.html

相关文章:

  • 我做动作你来猜的网站百度怎么推广网站
  • 福建省法冶建设知识有奖网站南京seo公司排名
  • 做网站一定要用cms长沙专业做网站公司
  • quercus wordpress知乎关键词排名优化工具
  • 供应邯郸网站建设资源搜索器
  • 番禺网站建设怎么样aso优化吧
  • 网站域名注册信息查询佛山seo
  • 安康做网站比较有名的个人网站
  • 快站微信网站制作优化设计三年级上册答案
  • 网站模板 兼容免费网页在线客服系统
  • 英文网站建设优化查数据的网站有哪些
  • seo收费还是免费深圳白帽优化
  • 教育机构网站建设方案书网站建设方案书
  • 仿威客网站百度如何做广告
  • 吉林网站建设公司天津百度推广排名优化
  • 做旅游攻略比较好的网站产品如何做市场推广
  • 做网站 编程语言让手机变流畅的软件下载
  • 成都有哪些网站建设百度在线客服人工服务
  • 网站代码字体变大百度里面的站长工具怎么取消
  • 小欢喜林磊儿什么网站做家教东莞网站建设推广
  • 山东安康建设项目管理有限公司网站南京高端品牌网站建设
  • 同一个阿里云可以做两个网站吗郑州竞价托管
  • 做网站南宁谷歌seo推广服务
  • 龙岗企业网站改版公司爱站网ip反查域名
  • 使用wordpress做网站谷歌搜图
  • 做网站有一个火箭回顶部地推任务网
  • 网站建设方案怎么写做网站的平台有哪些
  • 哪个网站可以做java项目友情链接交换平台免费
  • 网站地图可以自己做么营销咨询公司排名
  • 阿里云网站建设 部署与发布笔记怎么找当地的地推团队