当前位置: 首页 > wzjs >正文

网站加载很慢seo搜索排名影响因素主要有

网站加载很慢,seo搜索排名影响因素主要有,建筑网站源码,b2b网站建设注意事项一、常见概率计算 朴素贝叶斯算法是利用概率值进行分类的一种机器学习算法 概率:一种事情发生的可能性,取值在[0,1]之间 条件概率:表示事件A在另外一个事件B已经发生的条件下的发生概率 P ( A ∣ B ) P(A|B) P(A∣B)联合概率:表…

一、常见概率计算

朴素贝叶斯算法是利用概率值进行分类的一种机器学习算法

  • 概率:一种事情发生的可能性,取值在[0,1]之间
    • 条件概率:表示事件A在另外一个事件B已经发生的条件下的发生概率 P ( A ∣ B ) P(A|B) P(AB)
    • 联合概率:表示多个条件同时成立的概率 P ( A B ) = P ( A ) ∗ P ( B ∣ A ) = P ( B ) ∗ P ( A ∣ B ) P(AB)=P(A)*P(B|A)=P(B)*P(A|B) P(AB)=P(A)P(BA)=P(B)P(AB)
    • 联合概率+条件概率
    • 相互独立:如果P(A,B)=P(A)P(B),则称事件A与事件B相互独立

二、朴素贝叶斯算法

  • 贝叶斯公式: P ( C ∣ W ) = P ( W ∣ C ) P ( C ) P ( W ) P(C|W)=\frac{P(W|C)P(C)}{P(W)} P(CW)=P(W)P(WC)P(C)

    • P ( C ) P(C) P(C)表示 C C C出现的概率,一般是目标值
    • P ( W ∣ C ) P(W|C) P(WC)表示 C C C条件下 W W W出现的概率
    • P ( W ) P(W) P(W)表示W出现的概, W W W一般是特征
  • 朴素贝叶斯在贝叶斯基础上增加:特征条件独立假设,即:特征之间是互为独立的,则 P ( W 1 , W 2 ∣ C ) = P ( W 1 ∣ C ) ∗ P ( W 2 ∣ C ) P(W_1,W_2|C)=P(W_1|C)*P(W_2|C) P(W1,W2C)=P(W1C)P(W2C)

  • 为了避免概率值为0(分母不能为0),我们需要在分子,分母分别加上一个数值,这就是拉普拉斯平滑系数的作用

    P ( F 1 ∣ C ) = N i + α N + α m P(F_1|C)=\frac{N_i+\alpha}{N+\alpha m} P(F1C)=N+αmNi+α

    • α \alpha α是拉普拉斯平滑系数,一般指定为1
    • N i N_i Ni F 1 F_1 F1中符合条件 C C C的样本数量
    • N N N是表示条件 C C C下所有样本的总数
    • m m m表示所有独立样本的总数

API

sklearn.naive_bayes.MultinomialNB(alpha=1.0)
- 朴素贝叶斯分类
-alpha:拉普拉斯平滑系数
  • 思路:使用jieba模块进行词频统计,然后进行机器学习

  • 流程

    1. 获取数据
    2. 数据基本处理
      • 处理数据y
      • 加载停用词
      • 处理数据x把文档分词
      • 统计词频矩阵 作为句子特征
    3. 准备训练集测试集
    4. 模型训练
      • 实例化贝叶斯 台南佳拉普拉斯平滑系数
      • 模型预测
    5. 模型评估

三、特征降维

  • 为什么要进行特征降维:特征对训练模型时是非常重要的,用于训练的数据集包含一些不重要的特征,可能导致模型泛化性能不佳
  • 特征降维的目的:指在某些特定条件下,降低特征个数;目前阶段常用的方法是 低方差过滤法,PCA(主成分分析)降维法,相关系数(皮尔逊相关系数,斯皮尔曼相关系数)

1.低方差过滤法

  • 概念:指的是删除方差低于某些阈值的一些特征
    • 特征方差小:特征值的波动范围小,包含的信息少,模型很难学习到信息
    • 特征方差大:特征值的波动范围大,包含的信息相对丰富,便于模型学习
  • API
sklearn.feature_seleciton.VarianceThreshold(threshold=0.0)

实例化对象用于删除所有低方差特征

variance_obj.fit_transform(X)

X:numpy array格式的数据[n_samples,n_features]

  • 返回值:训练集差异低于threshold的特征将会被删除(默认值是保留所有非零方差特征,即删除所有样本中具有相同值的特征)

2.主成分分析PCA

注意:在本身特征非常多的时候,不建议直接使用PCA进行处理,可以先使用低方差过滤法,过滤之后使用PCA进行处理

  • 概念:PCA通过对数据维数进行压缩,尽可能降低原数据的维数(复杂度)损失少量信息,在此过程中可能会舍弃原有数据,创造新的变量

  • API

    sklearn.decomposition.PCA(n_components=None)将数据分解为较低维数空间

    • n_components:小数表示保留百分之多少的信息;整数表示减少到多少特征
    • mypcaobj.fit_transform(X)
    • 返回值:转换后指定维度的array

3.相关系数

独立的两个变量一定是不相关的,不相关的两个变量不一定是独立的

(1)基础

  • 相关系数( r r r):反应特征列之间(变量之间)密切相关程度的统计指标(两个变量之间的线性相关性)

  • 常见的两个相关系数:皮尔逊相关系数,斯皮尔曼相关系数

  • − 1 ≤ r ≤ + 1 -1 \leq r \leq +1 1r+1:当 r > 0 r>0 r>0时,表示两变量正相关, r < 0 r<0 r<0时,两变量负相关; ∣ r ∣ = 1 |r|=1 r=1表示两变量完全相关, ∣ r ∣ = 0 |r|=0 r=0时表示两变量间无相关关系; 0 < ∣ r ∣ < 1 0<|r|<1 0<r<1表示两变量存在一定程度的相关

    ∣ r ∣ |r| r越接近于1,两变量间线性关系越密切; ∣ r ∣ |r| r越接近于0,表示两变量的线性关系相关越弱

  • 一般可按三级划分: ∣ r ∣ < 0.4 |r|<0.4 r<0.4为低度相关; 0.4 ≤ r ≤ 0.7 0.4 \leq r \leq 0.7 0.4r0.7为显著性相关; 0.7 ≤ ∣ r ∣ < 1 0.7\leq|r|<1 0.7r<1为高度线性相关

(2)皮尔逊相关系数

r = n ∑ x y − ∑ x ∑ y n ∑ x 2 − ( ∑ x ) 2 n ∑ y 2 − ( ∑ y ) 2 r=\frac{n\sum xy-\sum x\sum y}{\sqrt{n\sum x^2-(\sum x)^2}\sqrt{n\sum y^2-(\sum y)^2}} r=nx2(x)2 ny2(y)2 nxyxy

  • API
from scipy.stats import pearsonr

(3)斯皮尔曼相关系数

R a n k I C = 1 − 6 ∑ d i 2 n ( n 2 − 1 ) RankIC=1-\frac{6\sum d_i^2}{n(n^2-1)} RankIC=1n(n21)6di2

  • n为等级个数,d为成对变量的等级差数
  • API
from scipy.stats import spearmanr
http://www.dtcms.com/wzjs/278304.html

相关文章:

  • 大连网站排名网络推广公司seo优化前景
  • 网站建设需要用到的技术微信拓客的最新方法
  • wordpress 转app微博关键词排名优化
  • 手机制作购物网站百度热线人工服务电话
  • 企业服务网站百度平台商家
  • 网站制作前期所需要准备seo技术优化
  • 唐山建设公司网站互联网最赚钱的行业
  • 服装网站建设策划书网站seo优化方案
  • 网站排名提升易下拉教程分类信息网站平台有哪些
  • 如何看访问网站的dns搜索seo神器
  • wordpress 定义数据表桔子seo
  • 建设项目自主验收公示网站google海外版
  • 网站开发完没人运营百度广告点击软件源码
  • 手机商城网站制作优化关键词排名优化公司
  • 有什么好的免费网站做教育宣传语佛山关键词排名效果
  • 网站建设 微信营销今日头条极速版最新
  • 网站开发技术论文短视频营销策划方案
  • 沧州网站建设专业的公司4000-262-网络推广运营公司
  • 汉川做网站软文范文大全1000字
  • 建公司网站要多少钱seo
  • 天津哪里做网站最好新手做销售怎么开发客户
  • 做seo网站图片怎么优化泉州关键词快速排名
  • 网站开发报告福州短视频seo
  • 南昌网站建设南昌百度官网电话
  • c语言做的网站有什么优缺点公司网站建设代理
  • 公司平台网站建设网络营销具有什么特点
  • wordpress充值插件seo课程总结怎么写
  • 小程序制作公司信息流广告优化师
  • 一般的政府网站空间多少钱一年口碑营销的优缺点
  • 梅林 做服务器 网站广告代运营