中文分词与数据可视化03
wordcloud 库简介
wordcloud
(词云)是一个用于生成词云图的 Python 库,能够根据词频自动生成视觉化的文本分布图,高频词会以更大的字体显示。它常与 jieba
结合使用,适合文本数据的探索性分析和可视化展示。
安装
pip install wordcloud
依赖库(需提前安装)
-
matplotlib
:用于显示或保存图像。 -
pillow
(PIL):处理图像文件(如下图)。
pip install matplotlib pillow
核心功能与函数
1. 基础词云生成
核心类
WordCloud
通过配置参数生成词云对象,常用参数如下:
font_path
:字体文件路径(中文需指定中文字体,否则乱码)。
width
/height
:图片尺寸(默认 400x200)。
background_color
:背景颜色(默认黑色)。
max_words
:最大显示词数(默认 200)。
mask
:指定词云形状(基于图片的遮罩)。
from wordcloud import WordCloud
import matplotlib.pyplot as plttext = "Python 数据分析 机器学习 深度学习 人工智能 编程 算法 数据挖掘"# 创建词云对象
wc = WordCloud(font_path="msyh.ttc", # 指定中文字体(Windows 可用)width=800,height=600,background_color="white",max_words=50
)# 生成词云
wc.generate(text)# 显示词云
plt.imshow(wc)
plt.axis("off") # 隐藏坐标轴
plt.show()# 保存为文件
wc.to_file("wordcloud.png")
运行结果:
2. 关键函数与方法
generate(text)
功能:根据输入文本生成词云(自动统计词频)。
wc.generate("Hello world Python Python data science")
generate_from_frequencies(word_freq)
功能:直接通过词频字典生成词云(需手动统计词频)。
# 示例:结合 jieba 分词和 Counter 统计词频
import jieba
from collections import Countertext = "自然语言处理是人工智能的重要分支,深度学习推动其发展。"
words = jieba.lcut(text)
word_freq = Counter(words)wc.generate_from_frequencies(word_freq)
to_file(filename)
功能:将词云保存为图片文件(支持 PNG/JPG 等格式)。
wc.to_file("output.jpg")
to_array()
功能:将词云转换为 NumPy 数组,便于进一步处理。
array = wc.to_array()
3. 高级功能
-
自定义形状词云
使用mask
参数指定图片形状(需黑白遮罩图):
from PIL import Image
import numpy as np# 加载遮罩图(如心形)
mask = np.array(Image.open("heart_mask.png"))wc = WordCloud(mask=mask,background_color="white",font_path="msyh.ttc"
)
过滤停用词
结合自定义停用词表过滤无关词汇:
stopwords = ["的", "是", "和"]
filtered_text = " ".join([word for word in words if word not in stopwords])
wc.generate(filtered_text)
调整颜色方案
通过 colormap
参数设置配色(如 viridis
, plasma
):
wc = WordCloud(colormap="viridis")
完整示例(结合jieba)
import jieba
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt# 读取文本文件
with open("news.txt", "r", encoding="utf-8") as f:text = f.read()# 分词并过滤停用词
words = jieba.lcut(text)
stopwords = ["的", "了", "在", "是", "和"]
filtered_words = [word for word in words if word not in stopwords and len(word) > 1]# 统计词频
word_freq = Counter(filtered_words)# 生成词云
wc = WordCloud(font_path="msyh.ttc",width=1000,height=700,background_color="white",max_words=100
)
wc.generate_from_frequencies(word_freq)# 显示并保存
plt.imshow(wc)
plt.axis("off")
plt.show()
wc.to_file("news_wordcloud.png")
常见问题解决
-
中文乱码
-
必须指定中文字体路径(如
font_path="msyh.ttc"
)。
-
-
依赖安装失败
-
Windows 用户需安装 Microsoft C++ Build Tools:Microsoft C++ Build Tools - Visual Studio
-
-
图片形状不生效
-
确保遮罩图为黑白图,背景为纯白色(RGB 255,255,255)。
-
扩展应用
-
社交媒体分析:生成用户评论词云。
-
报告可视化:展示调查报告中的高频词。
-
结合其他库:用
matplotlib
调整布局,或用stylecloud
生成更美观的词云。
总结
wordcloud
是一个简单高效的文本可视化工具,适合快速生成词云。掌握核心参数和函数后,可轻松结合分词库(如 jieba
)和数据分析库完成复杂任务。