当前位置: 首页 > wzjs >正文

长沙网站开发招聘我想做个百度网站怎么做

长沙网站开发招聘,我想做个百度网站怎么做,数据分析师课程,宁波建设网 提取业务文章目录 查找舆情热词 查找舆情热词 将每篇文章处理为两个字符串,一个标题,一个正文串;对所有新闻中出现的词语进行处理,输出出现频率最高的topN个词语作为热词;标题中的词语频率系数为3,正文中词语的频率…

文章目录

  • 查找舆情热词

查找舆情热词

  • 将每篇文章处理为两个字符串,一个标题,一个正文串;
  • 对所有新闻中出现的词语进行处理,输出出现频率最高的topN个词语作为热词;
  • 标题中的词语频率系数为3,正文中词语的频率系数为1,结果按照词语频率从高到低排序,当词语出现频率相同时,在标题中出现的频率次数高的排在前面;若仍相同,则按照词语在标题中的先后顺序排序,如果仍相同,则按照词语在正文中为先后顺序排序;

输入描述:
第一行输入正整数N和文章数M;
后续的2M行,每两行为一篇文章的标题串、正文串;
参数限制如下:
0<N<1000, 0<M<100000, 0<每篇文章的词语数<5000

输出描述:
输出出现频率最高的topN个词语,以空格分隔

示例1
输入:
3 2
xinguan feiyan xinzeng bendi quezhen anli
ju baodao chengdu xinzeng xinguan feiyan bendi quezhen anli yili shenzhen
xinzeng bendi quezhen anli liangli yiqing zhhengti kongzhi lianghao
xinguan yimiao linchuang shiyan
wuzhong xinguan yimiao tongguo sanqi linchuang shiyan xiaoguo lianghao

输出:
xinguan xinzeng bendi

python实现

  • 简单的词语统计;
  • 每个词语包含信息 [词语,[总词频次,标题中词频次,标题顺序,正文顺序]]
  • 正文中的词语在标题中的词频不累加;
  • 标题顺序、正文顺序基于索引表示,且所有标题共用一套索引,所有正文共用一套索引;
  • 总词频降序,标题词频降序,标题顺序升序,正文顺序升序;
  • 取topN

n, m = list(map(int, input().strip().split()))# key为单词,value为数组
# 数组的信息: 单词出现总次数 标题中出现次数 标题中的顺序 正文中的顺序
word_freq = {}
title_order = 0
text_order = 0
for i in range(m):  # 输出m篇文章# 统计标题词频title = input().strip().split()for j in range(len(title)):if title[j] not in word_freq:# 初始化word_freq[title[j]] = [0, 0, title_order, -1]  # 标题中的索引位置# 更新当前单词的信息info = word_freq[title[j]]# 若单词是首先出现在正文中if info[2] == -1:info[2] = title_order# 标题中出现的词语频率系数为3,正文中出现的词语频率系数为1info[0] += 1*3info[1] += 1   # 标题中1 就是1title_order += 1  # 写一个标题位置,索引+1# 其次是正文text = input().strip().split()for j in range(len(text)):if text[j] not in word_freq:word_freq[text[j]] = [0, 0, -1, text_order]info = word_freq[text[j]]if info[3] == -1:info[3] = text_orderinfo[0] += 1  # 总频次 + 1# 正文中的单词在标题中的频次为0text_order += 1# 组织数组
word_list = []
for word in word_freq:word_list.append([word, word_freq[word]])
# 排序   总频率降序,
word_list = sorted(word_list, key=lambda x: (-x[1][0], -x[1][1], x[1][2], x[1][3]))# 输出
output_str = ""
for i in range(n):output_str += str(word_list[i][0]) + " "print(output_str[:-1])
http://www.dtcms.com/wzjs/820530.html

相关文章:

  • 中国十大黄页网站排行榜发帖秒收录的网站
  • 百度网站建设费用怎么做账wordpress商家插件
  • 站长之家是干什么的广州电力建设有限公司网站
  • 百度下载2021新版安装seo站群优化
  • 新浦建设集团网站百度账号人工申诉
  • 萍乡建设网站ae模板下载网站推荐
  • 图库 网站 源码行业网站特点
  • 怎么建立购物网站孝感市最新消息
  • 企业请别人做网站中济建设官方网站
  • 汽车便宜网站建设电子商城建设
  • 网站什么时候备案好广安建设局网站
  • 上海网站建设褐公洲司网站代码是什么意思
  • 外汇直播网站建设开发做图表用的网站
  • 个人网站如何做流量找人做菠菜网站需要多少钱
  • 小学网站模板wordpress插件图库
  • 中国行业网站宁波网站设计公司排名
  • 建设企业网站的需求分析东营网站建设入门
  • 给金融公司群做网站合法吗深圳建模板网站
  • 襄阳路桥建设集团有限公司网站外贸平台排名
  • 南京做网站公司哪家好网站建设的规划和流程
  • 做课宝官方网站焦作网站建设费用
  • 山东住房和建设庭网站网站建设设计风格描述
  • asp网站实现php栏目哈尔滨seo优化
  • 表白网站建设网站域名 被别人备案
  • 用什么做淘宝客网站好网络营销与策划是什么
  • 杭州网络科技网站企业培训考试平台官网
  • 古田住房与建设局网站中国建设教育网站
  • 视频网站开发价格网站建设论文模板
  • python网站开发环境新版在线天堂网
  • 西安做网站 送百度首页查找网站备案