当前位置: 首页 > news >正文

编写程序,统计两会政府工作报告热词频率,并生成词云

代码:

import jieba
from collections import Counter
from wordcloud import WordCloud
import matplotlib.pyplot as pltdef generate_wordcloud():try:# 读取文本文件with open('E:\\桌面\\s.txt', 'r', encoding='utf-8') as file:text = file.read()# 中文分词words = jieba.lcut(text)# 直接使用分词结果,不过滤停用词filtered_words = [word for word in words if len(word) > 1]# 统计词频word_counts = Counter(filtered_words)# 获取前 10 高频词top_10_words = word_counts.most_common(10)print("前 10 高频词:", top_10_words)# 生成词云wordcloud = WordCloud(font_path='simhei.ttf',  # 中文字体路径,可根据实际情况修改background_color='white',width=800,height=600).generate_from_frequencies(dict(top_10_words))# 显示词云plt.figure(figsize=(8, 6))plt.imshow(wordcloud, interpolation='bilinear')plt.axis('off')plt.show()except FileNotFoundError:print("未找到文本文件,请检查文件路径和文件名。")if __name__ == "__main__":generate_wordcloud()

运行截图:

相关文章:

  • 前端取经路——工程化渡劫:八戒的构建之道
  • 深度学习中的autograd与jacobian
  • 分布式id的两大门派!时钟回拨问题的解决方案!
  • Redisson分布式锁的Key设计之道:确保业务高可靠与一致性
  • very_easy_sql(SSRF+SQL注入)
  • 中科固源:蓝牙协议栈架构与核心协议深度剖析
  • 数据库同步方案:构建企业数据流通的高速通道
  • SQL Server 中的 GO 及其与其他数据库的对比
  • 正则表达式非捕获分组?:
  • AI训练服务器概述
  • 混合云安全实战:如何构建稳固的云安全防线?
  • 【ARM AMBA AHB 入门 3 -- AHB 总线介绍】
  • 数字康养新范式:七彩喜平台重构智慧养老生态的深度实践
  • 欧姆龙 PLC串口转网口模块cjcp系列SG-CJCP-110
  • 浅谈广告投放从业者底层思维逻辑
  • 结构体的学习
  • eclipse开发环境中缺少JavaEE组件如何安装
  • shell操作文件上传
  • 第十节:图像处理基础-图像算术运算 (加法、减法、混合)
  • C++ 静态成员
  • 王毅同巴基斯坦副总理兼外长达尔通电话
  • 价格周报|供需回归僵局,本周生猪均价与上周基本持平
  • 马云再次现身阿里打卡创业公寓“湖畔小屋”,鼓励员工坚持创业精神
  • 理财经理泄露客户信息案进展:湖南省检受理申诉,证监会交由地方监管局办理
  • 保利42.41亿元竞得上海杨浦东外滩一地块,成交楼面单价超8万元
  • 数说母亲节|妈妈的妈妈带娃比例提升,托举效果如何?