当前位置: 首页 > wzjs >正文

长沙企业网站制作哪家好互联网推广服务

长沙企业网站制作哪家好,互联网推广服务,权重高的网站有哪些,做旅游宣传哪个网站好KNN原理及应用 机器学习方法的分类 基于概率统计的方法 K-近邻(KNN)贝叶斯模型最小均值距离最大熵模型条件随机场(CRF)隐马尔可夫模型(HMM) 基于判别式的方法 决策树(DT)感知机…

KNN原理及应用

机器学习方法的分类

基于概率统计的方法

  • K-近邻(KNN)
  • 贝叶斯模型
  • 最小均值距离
  • 最大熵模型
  • 条件随机场(CRF)
  • 隐马尔可夫模型(HMM)

基于判别式的方法

  • 决策树(DT)
  • 感知机
  • 支持向量机(SVM)
  • 人工神经网络(NN)
  • 深度学习(DL)

聚类算法

  • 基于划分的聚类
    • K-Means、K-MEDOIDS、CLARANS
  • 层次聚类
    • BIRCH、CURE、CHAMELEON
  • 密度聚类
    • DBSCAN、OPTICS、DENCLUE

增强学习方法

  • 随机森林
  • 增强算法(Boosting)
  • 极端梯度提升(Xgboost)
  • 梯度增强决策树(GBDT)

回归分析方法

  • 回归分析方法
  • 非线性回归(逻辑回归)

概率密度及累积分布函数

概率密度函数

  • 随机变量x出现的可能性,在某个确定的取值点附近的输出值,记作 p ( x ) p(x) p(x)

    在这里插入图片描述

累计分布函数

  • 随机变量 x 的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。
    也称为概率分布函数,记作 P X ( x ) P_X(x) PX(x)

    在这里插入图片描述

高斯分布

最常见的概率分布模型,也称为正态分布

二维:

p ( x ) = 1 2 π e x p ( − ( x − μ ) 2 2 σ 2 ) p(x)=\frac{1}{\sqrt{2\pi}exp(-\frac{(x-\mu)^2}{2\sigma^2})} p(x)=2π exp(2σ2(xμ)2)1

多维数据:

p X ( x 1 , ⋯ , x d ) = 1 ( 2 π ) d ∣ ∑ ∣ e ( x − μ ) T ∑ − 1 ( x − μ ) p_X(x_1,\cdots,x_d)=\frac{1}{\sqrt{(2\pi)^d|\sum|e^{(x-\mu)^T\sum^{-1}(x-\mu)}}} pX(x1,,xd)=(2π)de(xμ)T1(xμ) 1

贝叶斯决策

以分类为例

对于数据样本x,有M个类别,记作 C 1 , C 2 , ⋯ , C m C_1,C_2,\cdots,C_m C1,C2,,Cm

  • x属于各个类别的概率(后验概率):
    • p ( C 1 ∣ x ) , p ( C 2 ∣ x ) , ⋯ , p ( C m ∣ x ) p(C_1|x),p(C_2|x),\cdots,p(C_m|x) p(C1x),p(C2x),,p(Cmx)
  • 判断样本x属于类别 C i C_i Ci:
    • i = a r g M a x ( p ( C m ∣ x ) ) i=argMax(p(C_m|x)) i=argMax(p(Cmx))

后验概率的计算

  • 经典的贝叶斯概率公式:
    • P ( C i ∣ x ) = P ( x ∣ C i ) P ( C i ) P ( x ) = P ( x ∣ C i ) P ( C i ) ∑ P ( x ∣ C m ) P ( C m ) P(C_i|x)=\frac{P(x|C_i)P(C_i)}{P(x)}=\frac{P(x|C_i)P(C_i)}{\sum P(x|C_m)P(C_m)} P(Cix)=P(x)P(xCi)P(Ci)=P(xCm)P(Cm)P(xCi)P(Ci)
    • P ( C i ) = N i N P(C_i)=\frac{N_i}{N} P(Ci)=NNi
    • P ( x ∣ C i ) P(x|C_i) P(xCi)可以叫做先验概率、先验密度、似然。

基于KNN的概率密度估计方法

后验密度 p ( C i ∣ x ) p(C_i|x) p(Cix)的估算

  • 基于假设:

    • 相似的输入应该有相似的输出。

    • 局部的分布模型只受到邻近实例样本的影响。

      在这里插入图片描述
      在这里插入图片描述

  • 随机变量x落入区域R的概率:

P = ∫ R p ( x ) d x P=\int_Rp(x)dx P=Rp(x)dx

  • 从规模为N 的样本集中抽取 k 个样本落入区域 R 的概率 符合随机变量的二项分布,可以写成:

    P k = C N k P k ( 1 − P ) N − k , C N k = N ! k ! ( N − k ) ! P_k=C_N^kP^k(1-P)^{N-k},\quad C_N^k=\frac{N!}{k!(N-k)!} Pk=CNkPk(1P)Nk,CNk=k!(Nk)!N!

  • 具体操作方法

    • 从随机变量 x 出发,向四周扩展,逐渐扩大区域 R。
    • 直至区域里面包进来 k 个样本( x 最近邻的样本)
    • 此时,周边区域的大小为 V R V_R VR,分布有( k +1 )个样本。

在这里插入图片描述

  • 具体操作方法的理论:

    目标是估计给定数据点x的后验密度 p ( C ∣ x ) p(C|x) p(Cx)

    E [ k ] = N P k ≈ N P ^ \begin{align} E[k]=NP\\ k\approx N{\hat{P}} \end{align} E[k]=NPkNP^

    ( 1 ) (1) (1)说明,在区域R内,期望的最近邻点数k等于总样本数N乘以概率P。

    ( 2 ) (2) (2)说明,实际观测到的最近邻点数k近似等于NP。

    ( 2 ) (2) (2)可得:

    P ^ ≈ k N \begin{align} \hat{P}\approx\frac{k}{N} \end{align} P^Nk

    概率P可理解为密度函数 p ( x ) p(x) p(x)在区域R内的积分,近似为 p ( x ) p(x) p(x)乘以区域体积 V V V

    P = ∫ R p ( x ) d x = p ( x ) V \begin{align} P=\int_{R}p(x)dx=p(x)V \end{align} P=Rp(x)dx=p(x)V

    由式 ( 3 ) ( 4 ) (3)(4) (3)(4)可得:

    k N ≈ P ^ = ∫ R p ^ ( x ) d x ≈ p ^ ( x ) V \begin{align} \frac{k}{N}\approx\hat{P}=\int_R\hat{p}(x)dx\approx\hat{p}(x)V \end{align} NkP^=Rp^(x)dxp^(x)V

    得:

    p ^ ( x ) = k / N V \begin{align} \hat{p}(x)=\frac{k/N}{V} \end{align} p^(x)=Vk/N

    在计算后验概率的时候,没有必要计算体积V:

    ( 6 ) (6) (6)等价于 ( 7 ) (7) (7)

    p ^ ( x ) = k N V k ( x ) \begin{align} \hat{p}(x)=&\frac{k}{NV_k(x)}\\ \end{align} p^(x)=NVk(x)k

    其中, k k k x x x的邻域内所有样本的数量, N N N为总样本数, V k ( x ) V_k(x) Vk(x)是邻域的体积。

    当我们关注某个特别的类 C i C_i Ci时,公式 ( 7 ) (7) (7)中的换位特别的类 C i C_i Ci的样本数 k i k_i ki,总样本数 N i N_i Ni

    于是得到公式 ( 8 ) (8) (8),即类别条件概率密度估计:

    p ^ ( x ∣ C i ) = k i N i V k ( x ) \begin{align} \hat{p}(x|C_i)=&\frac{k_i}{N_iV_k(x)} \end{align} p^(xCi)=NiVk(x)ki

    基于频率,易得表示类别 C i C_i Ci的先验概率估计:

    p ( C i ) = N i N \begin{align} p(C_i)=\frac{N_i}{N} \end{align} p(Ci)=NNi

    ( 7 ) ( 8 ) ( 9 ) (7)(8)(9) (7)(8)(9)可得:

    P ^ ( C i ∣ x ) = k i k \begin{align} \hat{P}(C_i|x)=\frac{k_i}{k} \end{align} P^(Cix)=kki

    后验概率 P ( C i ∣ x ) P(C_i|x) P(Cix)简化为x的最近邻中属于 C i C_i Ci的比例 k i k \frac{k_i}{k} kki

KNN分类方法

由上推理可知:

k = k 1 + k 2 + k 3 P ^ ( C 1 ∣ x ) = k 1 k P ^ ( C 2 ∣ x ) = k 2 k P ^ ( C 3 ∣ x ) = k 3 k \begin{align} k=k_1+k_2+k_3\\ \hat{P}(C_1|x)=\frac{k_1}{k}\\ \hat{P}(C_2|x)=\frac{k_2}{k}\\ \hat{P}(C_3|x)=\frac{k_3}{k}\\ \end{align} k=k1+k2+k3P^(C1x)=kk1P^(C2x)=kk2P^(C3x)=kk3

在这里插入图片描述

算法描述

如果一个样本在特征空间中的 k 个最邻近 (即最相似)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

  • 特点:
    • KNN算法的预测风险基本与贝叶斯模型一样,理论上非常低的错误风险。
    • 没有明显的训练过程。
    • 算法的复杂度很高。
      • 需要记录所有的训练样本。
      • 需要计算与所有训练样本的距离。

时间复杂度

  • KNN的时间复杂度为 O ( n 2 ) O(n^2) O(n2)
    • 设:训练样本规模M,测试样本规模N,选择k个最近邻。
    • 时间复杂度为: O ( k × M × N ) O(k\times M\times N) O(k×M×N)
    • M > = N M>=N M>=N: O ( n 2 ) O(n^2) O(n2)

训练样本的有效性

不是所有样本都有用

→KNN的决策边界仅由靠近类别边界的样本决定,而远离边界的样本(如类别内部的点)对分类结果无影响

优化思路:相容子集

定义:相容子集是训练集的一个最小子集,能够保持与原训练集完全相同的分类决策边界。

目标:仅保留边界附近的样本(相容子集),减少计算量,同时保持模型准确性。

实现:贪心算法。

KNN的距离计算方法

通常采用欧氏距离公式:

d a b = ∑ k = 1 n ( x 1 k − x 2 k ) 2 \begin{align} d_{ab}=\sqrt{\sum_{k=1}^{n}(x_{1k}-x_{2k})^2} \end{align} dab=k=1n(x1kx2k)2

如果要考虑量纲影响,可以进行归一化:

d = ∑ k = 1 n ( x 1 k − x 2 k s k ) \begin{align} d=\sqrt{\sum_{k=1}^{n}(\frac{x_{1k}-x_{2k}}{s_k})} \end{align} d=k=1n(skx1kx2k)

( 15 ) (15) (15)中, s k s_k sk称为归一化因子

采用马氏距离:

  • 某一样本集的样本 Xi与Xj,样本集的协方差矩阵 S, 这两个多维向量Xi与Xj之间的马氏距离:

    D ( X i , X j ) = ( X i − X j ) T S − 1 ( X i − X j ) \begin{align} D(X_i,X_j)=\sqrt{(X_i-X_j)^TS^{-1}(X_i-X_j)} \end{align} D(Xi,Xj)=(XiXj)TS1(XiXj)

——当S为单位阵,式 ( 16 ) (16) (16)等价于 ( 14 ) (14) (14),为对角阵,式 ( 16 ) (16) (16)等价于 ( 15 ) (15) (15)


文章转载自:

http://vD6Kg5TU.dmtbs.cn
http://MR6v2lhP.dmtbs.cn
http://gfAOjNSy.dmtbs.cn
http://UMjiPYJK.dmtbs.cn
http://C4MCTJW9.dmtbs.cn
http://dbZXe2SH.dmtbs.cn
http://YY4WDgvK.dmtbs.cn
http://rRB6JWYJ.dmtbs.cn
http://r9V5qmP6.dmtbs.cn
http://ByMVwdbC.dmtbs.cn
http://MYayE3OE.dmtbs.cn
http://utclQCZN.dmtbs.cn
http://dIs4uf2H.dmtbs.cn
http://3TPGzJHK.dmtbs.cn
http://71bqu6qO.dmtbs.cn
http://GYCjAAiT.dmtbs.cn
http://5htVEgw6.dmtbs.cn
http://NOojQmu7.dmtbs.cn
http://LsOK8n6j.dmtbs.cn
http://GoUAcjBS.dmtbs.cn
http://CfTauQSj.dmtbs.cn
http://6lGVy8Rm.dmtbs.cn
http://Jc6OuuTz.dmtbs.cn
http://jwAQdkpE.dmtbs.cn
http://Y5BNy8fM.dmtbs.cn
http://TWmy8aij.dmtbs.cn
http://wY8qyZMl.dmtbs.cn
http://p2efdJU7.dmtbs.cn
http://TtR06UB4.dmtbs.cn
http://DrXIAaxn.dmtbs.cn
http://www.dtcms.com/wzjs/620063.html

相关文章:

  • 网络营销就是建立企业网站手机网站开发流程
  • 网站图片规格网站常见的域名
  • 爱站网反链分析如何在手机上制作动画
  • 电子商务网站建设参考文献书籍网站seo关键词优化技巧
  • 手机网站返回跳转七牛云域名
  • 网站开发设计费用营销型企业网站案例分析
  • 百度商桥网站加不上技能培训机构排名前十
  • 建设专业网站哪家比较好网站转化分析
  • 宿迁城乡住房建设厅网站如何建网站免费
  • 有没有人一起做网站html免费模板下载
  • 范县网站建设费用新增备案网站负责人
  • 个人博客网站建设选题说明wordpress页面模板增加
  • 江汉路做网站的公司如何优化网站导航
  • 网址导航网站建站自动跳转手机网站
  • 电子商务网站建设客户需求调查表网站 备案 注销
  • 网站域名怎样选择wordpress怎么对接公众号
  • 企业网站建设需要做些什么北京网络广播电视台
  • 网站怎么做运营推广如何处理脓包痘痘
  • 知名wordpress架构网站成都广告公司地址
  • 轻量级网站开发可以做微网站的第三方平台
  • 网站设计协议烟台网页制作
  • 网上做效果图网站wordpress主机有什么优
  • 网站规划和网站建设如何从客户网站开发客户
  • 上传网站的三种方法百度搜索引擎网址格式
  • 网站怎么做必须交钱吗网站建设贰金手指下拉
  • 深圳 网站建设培训班瑞安网站网站建设
  • 长沙门户网站建设公司北大青鸟网站开发
  • 手机搭建网站工具电子商务网站开发时间进度表
  • 网站建设技术列表如何制作h5海报
  • 怎么做一个免费的网站商务网站开发实训任务书