当前位置: 首页 > news >正文

河南企业网站排名优化价格国外 wordpress模板下载地址

河南企业网站排名优化价格,国外 wordpress模板下载地址,百度做网站的特点,沃尔玛跨境电商平台1 KNN算法介绍K最近邻(K-Nearest Neighbor,KNN)分类算法是数据挖掘分类技术中最简单的方法之一,是著名的模式识别统计学方法,在机器学习分类算法中占有相当大的地位。它是一个理论上比较成熟的方法。既是最简单的机器学习算法之一,也是基于实…

1 KNN算法介绍

K最近邻(K-Nearest Neighbor,KNN)分类算法是数据挖掘分类技术中最简单的方法之一,是著名的模式识别统计学方法,在机器学习分类算法中占有相当大的地位。它是一个理论上比较成熟的方法。既是最简单的机器学习算法之一,也是基于实例的学习方法中最基本的,又是最好的文本分类算法之一。

定义:KNN(K-Nearest Neighbor) k个最近的邻居,即每个样本都可以用它最接近的k个邻居来代表,KNN算法属于监督学习方式的分类算法,通过测量不同数据点之间的距离进行分类回归分析。

原理-“近朱者赤”:基于实例的学习(instance-based learning),属于懒惰学习(Lazy learning),即KNN没有显式的学习过程,也就是说没有训练阶段(仅仅是把样本保存起来,训练时间开销为零)它是通过测量不同数据点的之间的距离进行分类或者回归。

特点: KNN算法简单易懂,易于实现;

            无需训练阶段,直接进行分类或者回归;

            适用于多分类问题;

            对数据集的大小和维度不敏感

图中的点通常代表已知样本。在KNN算法的上下文中,这些点是已经标记好的训练数据,每个点都有一个对应的类别标签(在图中用不同的颜色表示)。这些已知样本用于帮助算法确定新数据点(待分类样本-坐标系中任何一个位置中可能出现的点)的类别。

1.1 决策边界

定义:决策边界是分类算法中用于区分不同类别的虚拟边界,通俗讲就是在什么范围内归为当前类。

边界效果:决策边界是否合理,直接影响到分类效果的好坏。

KNN与决策边界:

KNN算法通过计算待分类样本与已知样本之间的距离,找到最近的K个样本,并根据这些样本的类型信息进行投票,以确定待分类样本的类别。

如何绘制决策边界:

为了绘制出决策边界,预测的数据点是二维坐标中所有的点,为了降低计算量,需要对这些预测点进行“采样”,因此每隔距离x取一个点(预测数据点)。

1.2 距离选择

k近邻法(K-Nearest Neighbor,KNN):计算新的点(测试点)到每一个已知点(标签点)的距离,并比对距离,使用不同的距离公式会得到不同的分类效果。后面会介绍一下常用的距离计算方法

2 KNN三要素

KNN算法有三要素:1.K值选择;2.距离选择;3.分类规则选择。

2.1 K值选择

算法中的K在KNN中被称为超参数(Hyper parameter,需要人为确定的参数),它指的是在进行预测时,考虑的最近邻样本点的数量。

K值选择存在的问题:

K值过小:

优点:复杂的数据集,K值较小可能会提供更详细的决策边界,因为模型更加灵活。

缺点:容易受到局部结构的影响,模型受噪声和异常值的影响更大。

选择较小的K值,就相当于用较小的领域中的训练实例进行预测,“学习”近似误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,与此同时带来的问题是“学习”的估计误差会增大,换句话说,K值的减小就意味着整体模型变得复杂,容易发生过拟合

K值过大:

优点:考虑了更多的全局信息,对于平滑的数据集,较大的K值可以提供更稳定的决策边界。

缺点:对于复杂的数据集,较大的K值可能会导致模型过于简单,无法准确捕获数据的局部特征。

选择较大的K值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少学习的估计误差,但缺点是学习的近似误差会增大。这时候,与输入实例较远(不相似的)训练实例也会对预测器作用,使预测发生错误,且K值的增大就意味着整体的模型变得简单。

极端情况,K=N(N为训练样本个数),则完全不足取,因为此时无论输入实例是什么,都只是简单的预测它属于在训练实例中最多的类,模型过于简单,忽略了训练实例中大量有用信息。

如何科学地选择最有K值?(认识一下,初期学习不用)

在实际应用中,K值一般取一个比较适中的数值,例如采用交叉验证法。简单来说,就是把训练数据(图上红绿蓝点)在分成两组:训练集和验证集,通过计算来选择最优的K值。

2.2 距离选择

先使用欧氏距离,后面单独介绍其他距离选择方式。

2.3 分类规则选择

分类问题:对新的实例,根据与之相邻的k个训练实例的类别,通过多数表决法或者加权多数表决法等方式进行预测

回归问题:对新的实例,根据与之相邻的K个训练实例的标签,通过均值计算进行预测。

3 KNN算法步骤

输入:训练数据集T={(x1,y1),(x2,y2)...(xn,yn)},

        x1为实例的特征向量,

        yi={c1,c2,c3...ck}为实例类别。

输出:测试实例(xm,ym)所属的类别yi

步骤:

(1) 选择参数K

(2) 计算未知实例与所有已知实例的距离(可选择多种计算距离的方式)

(3) 选择最近K个已知实例

(4) 根据少数服从多数的投票法则(Majority-voting),让未知实例归类为K个最近邻样本中最多数的类别。

4 KNN算法思想

图中绿色的点就是我们要预测的那个点,假设K=3。那么KNN算法就会找到与它距离最近的三个点(这里用圆圈把它圈起来了),看看哪种类别多一些,比如这个例子中是蓝色三角形多一些,新来的绿色点就归类到蓝三角了。

代码:使用JupyterLab写代码

加深练习:

把上述KNN算法的数据量从21(3分类)改为88(4分类),采样1000*1000,x y轴范围改为0-100

http://www.dtcms.com/a/427666.html

相关文章:

  • [xboard] 20 kernel Makefile逐行分析2
  • 调试parlant的大模型配置,最终自己动手写了g4f的模块挂载
  • 如何解决Google Play商店提新包后仍旧提示存在政策问题
  • 企业网站倾向于wordpress可以大量免费发帖的网站
  • StringBoot注解
  • 【题解】洛谷 P4081 [USACO17DEC] Standing Out from the Herd P [后缀自动机 SAM]
  • 专做立体化的网站赣州君拓网络科技有限公司
  • 网站开发2019企业微信营销系统
  • Linux磁盘挂载脚本
  • nuttx实战项目:多路串口合并功能之六nuttx项目基本优化
  • mysql语句之insert语句DML事务的结束
  • 单机 6 节点打造Redis Cluster(3主3从)——从零到可用与踩坑速修
  • Cesium快速入门到精通系列教程二十:Cesium 1.95 给实体添加事件
  • 02、命令行的介绍
  • 三五互联网站管理登录地址wordpress 黑色
  • 小杰深度学习(four)——神经网络可解释性、欠拟合、过拟合
  • 【手撕机器学习 03】从“生数据”到“黄金特征”:机器学习项目中价值最高的一步
  • 网站关键字优化教程株洲发布信息网
  • 昆明优化网站公司在与客户谈网页广告时如何让客户相信网站流量
  • UNIX下C语言编程与实践21-UNIX 文件访问权限控制:st_mode 与权限宏的解析与应用
  • 瑞芯微RK35XX系列FFmpeg硬件编解码实测,详细性能对比!
  • php网站后台搭建wordpress购买返现
  • 首架机下线!“四川造”大型载客eVTOL筑低空新里程碑
  • 基于STM32与influxDB的电力监控系统-13
  • 250925-0930技术总结
  • AI 重塑实体经济:从技术落地到价值创造的实践路径
  • 认识软件测试
  • 网站服务器数据库湛江网站建设公司哪个好
  • 动手实现简单Vue.js ,探索Vue原理
  • UNIX下C语言编程与实践18-UNIX 文件存储原理:目录、i 节点、数据块协同存储文件的过程