当前位置: 首页 > wzjs >正文

自己怎样做免费网站静态网站站内搜索

自己怎样做免费网站,静态网站站内搜索,百度收录最快的网站,360推广联盟文章目录 前言一、TF-IDF特征词重要度特征提取二、无量纲化处理1.最大最小值归一化2.normalize归一化3.StanderScaler标准化 前言 通过今天的学习,我掌握了TF-IDF特征词重要度特征提取以及无量纲化处理的相关知识和用法 一、TF-IDF特征词重要度特征提取 机器学习算…

文章目录

  • 前言
  • 一、TF-IDF特征词重要度特征提取
  • 二、无量纲化处理
    • 1.最大最小值归一化
    • 2.normalize归一化
    • 3.StanderScaler标准化


前言

  • 通过今天的学习,我掌握了TF-IDF特征词重要度特征提取以及无量纲化处理的相关知识和用法

一、TF-IDF特征词重要度特征提取

  • 机器学习算法在处理文本时有广泛应用,在分析文本时,我们常常使用词频(TF),逆文档频率(IDF)反映文本中的关键词
  • 词频(Term Frequency, TF), 表示一个词在当前篇文章中的重要性
  • 逆文档频率(Inverse Document Frequency, IDF), 反映了词在整个文档集合中的稀有程度
  • TF-IDF可以反映词语在某文本中的重要程度

以下给出相应的计算公式:
在这里插入图片描述

  • 需要注意的是,在sklearn库中对TF和IDF的公式进行了优化,sklearn中直接使用一个词在某文档中出现的次数作为TF,而IDF的计算公式如下:
    I D F ( t ) = log ⁡ ⁡ ( 总文档数 + 1 包含词 t 的文档数 + 1 ) + 1 IDF(t)=\log⁡(\dfrac{总文档数+1}{包含词t的文档数+1})+1 IDF(t)=log(包含词t的文档数+1总文档数+1)+1

API:sklearn.feature_extraction.text.TfidfVectorizer()
该API的用法和结果与CountVectorizer相似,只是此API返回的是TF-IDF组成的系数矩阵

def my_cut(text):return " ".join(jieba.cut(text))
data=["教育学会会长期间,坚定支持民办教育事业!",  "扶持民办,学校发展事业","事业做出重大贡献!"]
data=[my_cut(i) for i in data]
# print(data)
# print("词频",CountVectorizer().fit_transform(data).toarray())
transfer=TfidfVectorizer()
res=transfer.fit_transform(data)
print(pd.DataFrame(res.toarray(),columns=transfer.get_feature_names_out()))

二、无量纲化处理

无量纲化顾名思义就是消除单位对数据的影响

1.最大最小值归一化

  • 归一化公式如下:
    在这里插入图片描述
    API:sklearn.preprocessing.MinMaxScaler(feature_range)
    该API可以将所有的数据归一化到指定的范围内
from sklearn.preprocessing import MinMaxScaler
data = [[12,22,4],[22,23,1],[11,23,9]]
transfer = MinMaxScaler((0,1)) #默认是0-1
data = transfer.fit_transform(data)

2.normalize归一化

  • normalize归一化可以对数据的行或列分别进行归一化,主要有以下三种方法:
    1.L1归一化,使用数据的绝对值相加作为分母,特征值作为分子
    2.L2归一化,使用平方作为分母,特征值作为分子
    3.max归一化,只用最大值作为分母,特征值作为分子
from sklearn.preprocessing import normalize
# Normalizer归一化
data = [[12,22,4],[22,23,1],[11,23,9]]
data_scaler = normalize(data,"l2",axis=0)
print(data_scaler) 

3.StanderScaler标准化

前两种归一化方法会受到数据中的异常点的影响,导致鲁棒性较差,使用标准化可以解决这个问题

  • 标准化公式:
    在这里插入图片描述
    API:sklearn.preprocessing.StanderScaler()
from sklearn.preprocessing import StandardScaler
# 标准化归一化
data = [[12,22,4],[22,23,1],[11,23,9]]
scaler = StandardScaler()
# scaler.fit(data) # 统计数据的均值和方差并保存下来
# scaler.transform(data) #进行标准化转换
data_scaler = scaler.fit_transform(data)
print(data_scaler)
  • 注意到创建转换器类对象后fit和transform可以分开进行,fit用于统计并保存当前数据的均值和方差,transform使用保存的均值和方差进行对应转换,如果有两组数据,只对第一组数据fit,那么第二组数据使用transform时会使用第一组数据的均值和方差
from sklearn.preprocessing import StandardScaler
# 标准化归一化
data = [[12,22,4],[22,23,1],[11,23,9]]
scaler = StandardScaler()
scaler.fit(data) # 统计数据的均值和方差并保存下来
scaler.transform(data) #进行标准化转换data2 = [[13,21,5]]
data2 = scaler.transform(data2) #此时使用的是data的均值与方差
print(data2)

THE END


文章转载自:

http://lu0wcRhK.nkwgy.cn
http://nL22Dj3Z.nkwgy.cn
http://LzyoJiIX.nkwgy.cn
http://GI1tD7uB.nkwgy.cn
http://WuxHO6iE.nkwgy.cn
http://vl86e9AN.nkwgy.cn
http://ODVfJ1nK.nkwgy.cn
http://QJ7MeHLW.nkwgy.cn
http://4Aev0oq4.nkwgy.cn
http://jHcacWsH.nkwgy.cn
http://RCnvgazm.nkwgy.cn
http://G82BWELi.nkwgy.cn
http://wkaQyrhJ.nkwgy.cn
http://5fe0SAYM.nkwgy.cn
http://6d4KCxdY.nkwgy.cn
http://Ce6WlPdv.nkwgy.cn
http://EjdoHKWH.nkwgy.cn
http://pMFCAYvq.nkwgy.cn
http://GWchRwJ2.nkwgy.cn
http://IRCBTkUq.nkwgy.cn
http://5Yc5Zhy3.nkwgy.cn
http://ppqGsHrg.nkwgy.cn
http://FEkbai3l.nkwgy.cn
http://5iTf0mhx.nkwgy.cn
http://gRG9oZpG.nkwgy.cn
http://IKkj1Lvd.nkwgy.cn
http://XFjYCn4f.nkwgy.cn
http://GAfntMBV.nkwgy.cn
http://QdMEBaze.nkwgy.cn
http://ImXouKaL.nkwgy.cn
http://www.dtcms.com/wzjs/702816.html

相关文章:

  • 国泰君安建设工程官方网站孵化基地网站怎么建设
  • 网站管理后台 模板dede电影网站模板
  • 漳州优化网站建设保定百度推广电话
  • 知名网站定制报价医院网站页面设计
  • wordpress安全防护甘肃谷歌seo
  • 为什么百度不收录我的网站软件商店oppo版本最新版
  • 垫江网站建设网站站seo教程
  • 沈阳哪家公司网站做的好网站用ai做还是ps
  • 广州品牌网站制作公司给男票做网站表白的软件
  • 建立有域名网站功能网页设计薪资多少
  • html5 3d网站烟台高端品牌网站建设
  • 沈阳京科医院怎么样做移动网站优化软件
  • 服务网站备案wordpress实例网站
  • 广东省交通建设监理检测协会网站上海建站价格
  • Net网站开发招聘wordpress编码
  • 网站服务器出错是什么意思网站上怎么做通栏的图片
  • 惠州高端模板建站河南城市建设招标类网站
  • 十大网站建设服务商wap网站建设学什么
  • 设计师 必备的网站室内设计整套方案图
  • 泰安网站建设排行织梦wap网站
  • 网站备案 国外域名诺基亚官方网站
  • 深圳自助建站优化大师兑换码
  • 正规的公司网站建设wordpress.html插件
  • 公司的网站建设费用怎么入账seo网站推广作用
  • 手表常用网站广州公司网站
  • 中山做营销型网站网络系统管理比赛
  • 怎么提交网站加入电商平台需要多少钱
  • wordpress本站导航在哪里天健emp软件开发平台
  • 源码 网站建设教程减少网站跳出率
  • 热搜榜上2023年热门话题网站优化软件方案