当前位置: 首页 > wzjs >正文

织梦网站做404页面哪些网站是用php做的

织梦网站做404页面,哪些网站是用php做的,html静态网站怎么放在网站上,周口市公共资源交易中心上一章:第3章 数据收集和准备 文章目录 4.1 为什么要进行特征工程4.2 如何进行特征工程4.2.1 文本的特征工程4.2.2 为什么词袋有用4.2.3 将分类特征转换为数字4.2.4 特征哈希4.2.5 主题建模4.2.6 时间序列的特征4.2.7 发挥你的创造力 特征工程是将原始样本转化为特…

上一章:第3章 数据收集和准备

文章目录

    • 4.1 为什么要进行特征工程
    • 4.2 如何进行特征工程
      • 4.2.1 文本的特征工程
      • 4.2.2 为什么词袋有用
      • 4.2.3 将分类特征转换为数字
      • 4.2.4 特征哈希
      • 4.2.5 主题建模
      • 4.2.6 时间序列的特征
      • 4.2.7 发挥你的创造力

特征工程是将原始样本转化为特征向量的过程。

4.1 为什么要进行特征工程

比如,机器学习算法只能应用于特征向量,不能直接识别文本,所以需要借助特征工程。

4.2 如何进行特征工程

4.2.1 文本的特征工程

常使用的两种方法:

  • 独热编码(one-hot encoding):将一个分类属性转化为多个二进制属性。
    比如,数据集中的“颜色”属性,可能的值有红、黄、绿。我们将属性值转化为一个三维二进制向量:
    红=[1,0,0]
    黄=[0,1,0]
    绿=[0,0,1]
    然后使用这三个合成列来代替原来的“颜色”列属性。
  • 词袋(bag-of-words):是将独热编码技术应用与文本数据的一种泛化。区别与将一个属性表示为二进制向量,词袋是将整个文本文档表示为二进制向量。
    首先,将文本词条化。
    词条化(tokenization)是将文本分割成小块的过程,这些小块称为“词条”。
    词条器(tokenizer)是将字符串输入转化为返回该字符串中一系列词条的软件工具。
    通常情况下,词条是单词,也可以是一个标点符号、单词的组合等。
    其次,建立一个词汇表,包含文本词条化后的所有单词。对词汇表进行排序后,为每个词条分配一个索引。
    将文本集合转化为二元特征向量的集合:若文本中存在相应的词条,改位置特征记为1,否则记为0。
    通常有以下几种形式的词袋:
    ①词条的计数
    ②词条的频率
    ③TF-IDF(Term Frequency-Inverse Document Frequency,术语频率-反转文档频率)
    词袋技术的直接扩展是n元连续词袋(bag-of-n-gram)
    n元连续词(n-gram)是从语料库中抽取的n个单词的序列。如果n=2,并且忽略标点符号,则文本“No,I am your father.”中可以找到的所有二元连续词(通常称为bigrams)包括[“No I”“I am”“am your”“your father”]。三元联系次是[“No I am”“I am your”“am your father”]。通过将一定n以内的所有n元连续词与一个词典中的词条混合,得到一个n元连续词袋,我们可以用处理词袋模型的方式来词条化。
    因为词的序列通常比单个词的常见度低,所以使用n元连续词可以创建更 稀疏(sparse)的特征向量。同时,n元连续词允许机器学习算法学习更细微的模型。如,“this movie was not good and boring”和“this movie was good and not boring”的意思是相反的,但仅仅基于单词,就会得到相同的词袋向量。如果使用二元连续词,那么这两个句子的二元连续词的词袋向量就会不同。

4.2.2 为什么词袋有用

词袋技术的工作原理与特征向量是一样的。即每个特征都代表文档的同一属性:特定的词条在文档中是存在还是不存在。
相似的特征向量必须代表数据集中的相似实体。两个相同的文档应当具有相同的特征向量。同样,关于同一主题的两个文本将有更高的机会拥有相似的特征向量,因为他们会比两个不同主题的文本共享更多的单词。

4.2.3 将分类特征转换为数字

  • 独热编码
  • 均值编码(mean encoding),也称为箱计数(bin counting)或特征校准(feature calibration)
    首先,使用具有特征值z的所有样本来计算标签的样本均值(sample mean),然后用这个样本均值替换该分类特征的每个值z。这种技术的优点是数据维度不会增加,但数值包含了标签的一些信息。
  • 让步比(odd ratio)和对数让步比(log-odd ratio)
    在二分类问题中,除了样本均值外,也可以使用其他有用的量。
    让步比(OR)通常定义在两个随机变量之间。 从一般意义上讲,OR是量化两个事件A和B之间关联强度的统计量,如果两个事件的OR等于1,即一个事件在另一个事件存在或不存在的情况下,其概率都相同,则认为两个事件是独立的。
  • 正弦-余弦变换(sine-cosine transformation)
    如果分类特征是周期性的,请使用正弦-余弦变换。它将周期性特征转换为两个合成特征。
    令p表示我们周期性特征的整数值,将周期性特征值p替换为以下两个值:
    p s i n = s i n ( 2 × π × p m a x ( p ) ) p_{sin} =sin(\frac{2×π×p}{max(p)}) psin=sin(max(p)2×π×p)
    p c o s = c o s ( 2 × π × p m a x ( p ) ) p_{cos} =cos(\frac{2×π×p}{max(p)}) pcos=cos(max(p)2×π×p)
    下图为一周七天的 p s i n p_{sin} psin p c o s p_{cos} pcos值:
    在这里插入图片描述
    两个值[0.78,0.62]替换“周一”,以此类推。
    数据集增加了一个维度,但与整数编码相比,模型的预测质量明显提高。
    绘制的散点图如下:
    在这里插入图片描述

4.2.4 特征哈希

特征哈希(feature hashing)哈希技巧(hashing trick),将文本数据或具有许多值的分类属性转换为任意维度的特征向量,
独热编码和词袋编码有一个缺点:许多独特的值将创建高维的特征向量。处理这样的高维数据,计算成本非常昂贵。
为了使数据易于管理,可以使用哈希技巧。
首先,决定特征向量所需的维度,然后使用哈希函数(hash function)将分类属性(或文档集合中的所有词条)的所有值转换为特定数字,然后将这些数字转换为特征向量的索引。
举例:将文本“Love is a doing word”转换为特征向量。
设我们有一个哈希函数h,它接受一个字符串作为输入,输入一个非负整数,并设所需的维度为5。将哈希函数应用于每个词,并应用5的模数来获得该词的索引。可以得到:
h(love) mod 5 = 0
h(is) mod 5 = 3
h(a) mod 5 = 1
h(doing) mod 5 = 3
h(word) mod 5 = 4
然后建立特征向量为[1,1,0,2,1]。
这个特征向量怎么来的?
首先,向量的维度为5,那么它的维度分别是维度0,维度1,维度2,维度3,维度4。
h(love) mod 5 = 0,即,维度0有一个词,那么特征向量的第一个数字就是1;
h(is) mod 5 = 3和h(doing) mod 5 = 3,即,维度3有两个词,那么特征向量的第四个数字是2;
其它的逻辑相同,就得到了特征向量[1,1,0,2,1]。
我们发现,“is”和“doing”都用维度3表示看,这两个词之间存在碰撞(collision)。所需的维度越低,碰撞的概率就越大。这是学习速度与质量之间的权衡。
常用的哈希函数有MurmurHash3、Jenkins、CityHash和MD5。

4.2.5 主题建模

4.2.6 时间序列的特征

4.2.7 发挥你的创造力

后续待更新

发现这本书的翻译不是特别好,多是字面直译过来,甚至有的地方不够通顺。我还需要将中文翻译成中文。。 要求翻译者精通机器学习显然不现实,加上这本书基本都是理论内容,所以后续考虑粗读一些。
以后我会尽量选择清北等出版社的图书,质量应该会更高。

请在关闭网页之前,利用2秒钟的时间,在脑海中迅速回顾一遍本部分的框架及要点


文章转载自:

http://WWLuH5Rz.jfkwp.cn
http://dZY4j910.jfkwp.cn
http://2g7EJmYe.jfkwp.cn
http://BWH2iphX.jfkwp.cn
http://WWctBTN0.jfkwp.cn
http://JKGrtcbM.jfkwp.cn
http://TbCMrIWr.jfkwp.cn
http://Db5MDE84.jfkwp.cn
http://wMKZZF1B.jfkwp.cn
http://DfvKX4sP.jfkwp.cn
http://CK2f2Ho7.jfkwp.cn
http://vzXPnET1.jfkwp.cn
http://cyZa39D5.jfkwp.cn
http://yHqihrG8.jfkwp.cn
http://RhLqF2Qv.jfkwp.cn
http://L9brtEUv.jfkwp.cn
http://pbK82C16.jfkwp.cn
http://pmvM5aaN.jfkwp.cn
http://r4JCpYgJ.jfkwp.cn
http://7kMUVhiP.jfkwp.cn
http://HIXYIcTR.jfkwp.cn
http://7hrrMdTK.jfkwp.cn
http://1WqI2DSe.jfkwp.cn
http://Ayegg6Ro.jfkwp.cn
http://hKjO6yE4.jfkwp.cn
http://QnsykhX4.jfkwp.cn
http://QNMSiZbL.jfkwp.cn
http://gx7y2zb9.jfkwp.cn
http://JuAAXYp1.jfkwp.cn
http://lEINGPwa.jfkwp.cn
http://www.dtcms.com/wzjs/636399.html

相关文章:

  • 家具网站设计网自适应网站制作费用
  • 良庆网站建设教做面食的网站
  • 学校网站制作多少钱临沂网站建设找谁
  • 淳安千岛湖建设集团网站弄一个网站要多少钱
  • 开服表网站开发微信公众号申请注册官网
  • 中文儿童网站模板建设通网站是什么性质
  • 网站建设环境搭建心得体会49图库下浏览器
  • 信用门户网站建设观摩网站开发电子商务
  • 做的网站打开慢宠物网站模板下载
  • 资源付费网站制作百度免费安装下载
  • 搜索网站排行企业管理咨询有限公司是做什么的
  • 网站建设与网络推广的关系一般做网站需要的js有哪些
  • 哪里卖网站域名那个网站都有做莱的图片
  • easyui做网站去掉wordpress.org
  • 律师网站建设推荐手机网站建设机构
  • 网站做互动coreldraw
  • 室内设计网站排行榜前十名知乎什么叫前端什么叫后端
  • 分享几个x站好用的关键词开发手机app游戏公司
  • 谷歌网站站长指南WordPress主题Cute主题
  • wordpress 缓存腾讯cos贵州百度seo整站优化
  • 海口房产网站建设seo排名优化是什么
  • php网站制作常用代码网页制作与网站开发从入门到精通 豆瓣
  • 河池企业网站开发公司昆明网站建设技术托管
  • 想找个人建网站商业网站需要多少钱
  • 网站运维工作内容天然气公司的网站应该怎么做
  • 动漫网站开发 sh框架66郑州网站建设
  • 1万元可以注册公司吗wordpress 优化数据
  • 怎样做一个购物型的网站开发一套小程序多少钱
  • 做ppt的素材免费网站建网站备案需要的材料
  • 网站的留言怎么做有哪些app软件开发公司