当前位置: 首页 > news >正文

中文分词与数据可视化03

wordcloud 库简介

wordcloud(词云)是一个用于生成词云图的 Python 库,能够根据词频自动生成视觉化的文本分布图,高频词会以更大的字体显示。它常与 jieba 结合使用,适合文本数据的探索性分析和可视化展示。

安装

pip install wordcloud
依赖库(需提前安装)
  • matplotlib:用于显示或保存图像。

  • pillow(PIL):处理图像文件(如下图)。

pip install matplotlib pillow

核心功能与函数

1. 基础词云生成

核心类 WordCloud
通过配置参数生成词云对象,常用参数如下:

  • font_path:字体文件路径(中文需指定中文字体,否则乱码)。

  • width/height:图片尺寸(默认 400x200)。

  • background_color:背景颜色(默认黑色)。

  • max_words:最大显示词数(默认 200)。

  • mask:指定词云形状(基于图片的遮罩)。

from wordcloud import WordCloud
import matplotlib.pyplot as plttext = "Python 数据分析 机器学习 深度学习 人工智能 编程 算法 数据挖掘"# 创建词云对象
wc = WordCloud(font_path="msyh.ttc",  # 指定中文字体(Windows 可用)width=800,height=600,background_color="white",max_words=50
)# 生成词云
wc.generate(text)# 显示词云
plt.imshow(wc)
plt.axis("off")  # 隐藏坐标轴
plt.show()# 保存为文件
wc.to_file("wordcloud.png")

运行结果:


2. 关键函数与方法

generate(text)
功能:根据输入文本生成词云(自动统计词频)。

wc.generate("Hello world Python Python data science")

generate_from_frequencies(word_freq)
功能:直接通过词频字典生成词云(需手动统计词频)。

# 示例:结合 jieba 分词和 Counter 统计词频
import jieba
from collections import Countertext = "自然语言处理是人工智能的重要分支,深度学习推动其发展。"
words = jieba.lcut(text)
word_freq = Counter(words)wc.generate_from_frequencies(word_freq)

to_file(filename)
功能:将词云保存为图片文件(支持 PNG/JPG 等格式)。

wc.to_file("output.jpg")

to_array()
功能:将词云转换为 NumPy 数组,便于进一步处理。

array = wc.to_array()


3. 高级功能
  • 自定义形状词云
    使用 mask 参数指定图片形状(需黑白遮罩图):

from PIL import Image
import numpy as np# 加载遮罩图(如心形)
mask = np.array(Image.open("heart_mask.png"))wc = WordCloud(mask=mask,background_color="white",font_path="msyh.ttc"
)

过滤停用词
结合自定义停用词表过滤无关词汇:

stopwords = ["的", "是", "和"]
filtered_text = " ".join([word for word in words if word not in stopwords])
wc.generate(filtered_text)

调整颜色方案
通过 colormap 参数设置配色(如 viridisplasma):

wc = WordCloud(colormap="viridis")


完整示例(结合jieba)

import jieba
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt# 读取文本文件
with open("news.txt", "r", encoding="utf-8") as f:text = f.read()# 分词并过滤停用词
words = jieba.lcut(text)
stopwords = ["的", "了", "在", "是", "和"]
filtered_words = [word for word in words if word not in stopwords and len(word) > 1]# 统计词频
word_freq = Counter(filtered_words)# 生成词云
wc = WordCloud(font_path="msyh.ttc",width=1000,height=700,background_color="white",max_words=100
)
wc.generate_from_frequencies(word_freq)# 显示并保存
plt.imshow(wc)
plt.axis("off")
plt.show()
wc.to_file("news_wordcloud.png")

常见问题解决

  1. 中文乱码

    • 必须指定中文字体路径(如 font_path="msyh.ttc")。

  2. 依赖安装失败

    • Windows 用户需安装 Microsoft C++ Build Tools:Microsoft C++ Build Tools - Visual Studio

  3. 图片形状不生效

    • 确保遮罩图为黑白图,背景为纯白色(RGB 255,255,255)。


扩展应用

  • 社交媒体分析:生成用户评论词云。

  • 报告可视化:展示调查报告中的高频词。

  • 结合其他库:用 matplotlib 调整布局,或用 stylecloud 生成更美观的词云。


总结

wordcloud 是一个简单高效的文本可视化工具,适合快速生成词云。掌握核心参数和函数后,可轻松结合分词库(如 jieba)和数据分析库完成复杂任务。

相关文章:

  • restTemplate
  • 深入解析Spring Boot与Spring Cloud在微服务架构中的实践
  • 什么是dom?作用是什么
  • FreeRTOS的学习记录(临界区保护,调度器挂起与恢复)
  • 利用Shp裁剪nc数据
  • 十一、STM32入门学习之FREERTOS移植
  • 最新缺陷检测模型:EPSC-YOLO(YOLOV9改进)
  • RabbitMQ 工作模式(上)
  • LabVIEW汽车CAN总线检测系统开发
  • SpringBoot(一)--- Maven基础
  • [人月神话_6] 另外一面 | 一页流程图 | 没有银弹
  • 游戏引擎学习第292天:实现蛇
  • Java文件读写程序
  • 提示工程 - 系统提示(System Prompts)
  • 健康生活:养生实用指南
  • AM32电调学习解读六:main.c文件的函数介绍
  • 在 Vue 中插入 B 站视频
  • 关于 Web 漏洞原理与利用:1. SQL 注入(SQLi)
  • 并发编程(4)
  • Python面试总结
  • 浦江潮涌征帆劲,上海以高质量发展服务全国发展大局
  • 盐城经济技术开发区党工委书记王旭东接受纪律审查和监察调查
  • 体坛联播|热刺追平单赛季输球纪录,世俱杯或创收20亿美元
  • 上百家单位展示AI+教育的实践与成果,上海教育博览会开幕
  • “老中青少”四代同堂,季春艳携锡剧《玲珑女》冲击梅花奖
  • 美凯龙:董事兼总经理车建兴被立案调查并留置