Day31_【 NLP _1.文本预处理 _(3)文本数据分析】
目录:
文本数据分析
标签数量分布
句子长度分布
正负样本散点图
不同词汇总数统计
关键词词云
文本数据分析:主要是利用画图API进行画图分析
以下为代码示例:
API:
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
一、标签数量分布
sns.countplot(x="label", data=train_df)
二、句子长度分布
# 柱状图
sns.countplot(x="sentence_length", data=train_df)
# 折线图
sns.displot(x="sentence_length", data=train_df)
三、正负样本散点图
# 散点图
sns.stripplot(x="label", y="sentence_length", data=train_df,hue='label')
四、不同词汇总数统计
# map(func,iterable) :对每个iterable进行func处理,返回的是一个迭代器
# * :解包(只解最外层)
# chain :将多个可迭代对象解包再拼接成一个可迭代对象
# set :转为集合并去重
result = set(chain(*map(lambda x: jieba.lcut(x), train_df['sentence'])))
五、关键词词云
wc = WordCloud(font_path='data./SimHei.ttf', background_color='white', max_words=100)