当前位置：首页 > news >正文

K-meas 聚类、KNN算法、决策树、随机森林

news 2025/9/10 10:44:55

K-means 算法步骤

K-means 聚类的流程分为两个主要步骤：分配（Assignment）和更新（Update）。以下是详细步骤：

选择 K 值：设定簇的数量 K。
初始化簇中心：随机选择 K 个数据点作为初始簇中心（centroids）。
分配步骤（Assignment Step）：对于数据集中的每个点，将它分配到最近的簇中心对应的簇。这里的“距离”通常使用欧氏距离（Euclidean distance）。
更新步骤（Update Step）：根据当前的簇分配，重新计算每个簇的中心，即计算簇内所有点的均值作为新的簇中心。
重复 3 和 4 步：不断重复分配和更新步骤，直到簇中心不再发生变化（收敛）或达到指定的最大迭代次数。

随机森林：

1. 原理

随机森林是一种集成学习方法，它由多个决策树组成，每个决策树都是一个弱学习器。在随机森林中，每个决策树都是基于对训练数据的随机子集进行训练而生成的。在进行预测时，随机森林会对每棵树的预测结果进行平均或投票，以得到最终的预测结果。

2. 工作流程

随机森林回归的工作流程如下：

步骤1：随机选择样本集
从训练数据集中随机选择一个样本集，这个样本集的大小通常和原始训练数据集的大小相同，但是每个样本的选择是随机的，并且可能会有重复。
步骤2：随机选择特征
对于每个决策树的训练过程中，从所有特征中随机选择一个子集。这个子集的大小通常小于总特征数，这样可以保证每个决策树的差异性。
步骤3：训练决策树
使用步骤1和步骤2中选择的样本集和特征子集，训练一个决策树模型。通常使用基尼系数或信息增益等指标来进行节点的划分，直到达到停止条件（如树的深度达到预定值）为止。
步骤4：重复步骤2和步骤3
重复多次步骤2和步骤3，生成多棵决策树。每棵树都是通过不同的样本集和特征子集训练得到的，因此它们之间具有一定的差异性。
步骤5：预测
对于回归问题，随机森林通过对每棵树的预测结果进行平均，得到最终的预测结果。
对于分类问题，对预测结果进行投票，获取投票最多的结果作为分类结果

3. 优缺点

优点：

鲁棒性强：随机森林能够处理缺失数据和不平衡数据，并且不容易受到噪声的影响。
准确性高：由于随机森林是通过多棵决策树集成而成，因此通常具有较高的准确性。
可解释性：可以通过分析每棵树的结构来理解模型的预测过程，提高模型的可解释性。

缺点：

计算资源消耗大：随机森林由多个决策树组成，训练和预测过程需要消耗大量的计算资源。
可能过拟合：当训练样本较少或者特征维度较高时，随机森林容易过拟合。
不适合处理高维稀疏数据：随机森林在处理高维稀疏数据时效果不佳。

KNN算法：

1、原理

K近邻（K-Nearest Neighbors）是一种基于实例的惰性学习算法，用于分类与回归任务。其核心思想：相似样本在特征空间中距离相近。通过计算待测样本与训练集的距离，选取最近的K个邻居，根据邻居的类别投票决定分类结果。

2、核心流程

输入：带标签的训练集、待分类样本、K值（邻居数）
计算距离：待测样本与所有训练样本的距离（如欧氏距离）
选择邻居：取距离最近的K个样本
投票决策：统计K个邻居的类别标签，多数类即为预测结果

3、K值选择

文章转载自：

http://vGXrAxGi.dwfst.cn
http://M1sWzyzA.dwfst.cn
http://Gh2NVlGT.dwfst.cn
http://G3VGO7v7.dwfst.cn
http://fwFQS37l.dwfst.cn
http://ovOcm0MI.dwfst.cn
http://xvC0i8sN.dwfst.cn
http://AYcPgtQo.dwfst.cn
http://FeCYOgRp.dwfst.cn
http://G878gDCD.dwfst.cn
http://fkta3Zue.dwfst.cn
http://toQ6CQOC.dwfst.cn
http://slW5nw6r.dwfst.cn
http://PE1zDV3P.dwfst.cn
http://mdxkBNj7.dwfst.cn
http://IykKzVoW.dwfst.cn
http://OaGYsQEC.dwfst.cn
http://hEwrTElR.dwfst.cn
http://YYU8YwM1.dwfst.cn
http://RsXsPeBK.dwfst.cn
http://tZFOA1cv.dwfst.cn
http://rgm4Qbb4.dwfst.cn
http://JyMyGfWa.dwfst.cn
http://w6k1gdkR.dwfst.cn
http://aWkkdNhM.dwfst.cn
http://YAwQTnDq.dwfst.cn
http://D35KpKqi.dwfst.cn
http://wubqHSow.dwfst.cn
http://dRkrKMbO.dwfst.cn
http://N7I3DCPv.dwfst.cn

http://www.dtcms.com/a/373046.html

相关文章：

Day 17: 3D点云深度学习专项 - 理论深度与面试精通之路

React中的合成事件

不连续页分配器补充

Hadoop NameNode内存泄漏与GC停顿问题排查与解决方案

防火墙配置

Hydra-SSH 破解安全防范

Hadoop（十）

C++三种对象实例化在栈或堆的区别

碰一碰系统源码于小程序打通技术开发整合方案，驱动AI技术开发源代码

深入解析TCP核心机制：连接管理、流量与拥塞控制

【混合开发】vue+Android、iPhone、鸿蒙、win、macOS、Linux之dist打包发布在Android工程asserts里

医疗问诊陪诊小程序：以细节创新重塑就医体验的温度与效率

[20250908]Android Talkback 自定义合并

【智能融合：增材制造多物理场AI建模与工业应用实战】

stm32——独立看门狗，RTC

LeetCode 3634.使数组平衡的最少移除数目

106. 从中序与后序遍历序列构造二叉树【中等】

基于OpenCV的银行卡号识别系统：从原理到实现

Linux 可信启动深度解析：从UEFI到操作系统的信任链

OpenCV 开发 -- 图像基本处理

C++从字符串中移除前导零（二）

微信开放平台第三方平台，可以管理多个微信小程序

10Web-AI网站生成器

SpringBoot埋点功能技术实现方案深度解析：架构设计、性能优化与扩展性实践

代码随想录刷题——栈与队列篇（一）

HarmonyOSAI编程万能卡片生成（一）

Harris3D 角点检测算法的原理和算法流程

LeetCode 分类刷题：2563. 统计公平数对的数目

[前端]1.html基础

Griffin|增强现实数据集|无人机数据集