当前位置: 首页 > news >正文

Day31_【 NLP _1.文本预处理 _(3)文本数据分析】

目录:

  • 文本数据分析

    • 标签数量分布

    • 句子长度分布

    • 正负样本散点图

    • 不同词汇总数统计

    • 关键词词云

文本数据分析:主要是利用画图API进行画图分析

以下为代码示例:

API

import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud

一、标签数量分布

sns.countplot(x="label", data=train_df)

二、句子长度分布

# 柱状图
sns.countplot(x="sentence_length", data=train_df)
# 折线图
sns.displot(x="sentence_length", data=train_df)

三、正负样本散点图

# 散点图
sns.stripplot(x="label", y="sentence_length", data=train_df,hue='label')

四、不同词汇总数统计

# map(func,iterable) :对每个iterable进行func处理,返回的是一个迭代器
# * :解包(只解最外层)
# chain :将多个可迭代对象解包再拼接成一个可迭代对象
# set :转为集合并去重
result = set(chain(*map(lambda x: jieba.lcut(x), train_df['sentence'])))

五、关键词词云

wc = WordCloud(font_path='data./SimHei.ttf', background_color='white', max_words=100)

http://www.dtcms.com/a/422964.html

相关文章:

  • 金融/财务图表的强大可视化引擎——Highcharts Stock
  • 如何将照片从Mac传输到安卓设备
  • 第四部分:VTK常用类详解(第112章 vtkGlyph2D 2D符号化类)
  • 如何将三星手机的照片传输到Mac——6种可行的方法
  • 《系统与软件工程功能规模测量IFPUG方法》(GB/T42449-2023)标准解读
  • ChatExcel将发布数据分析Mini AI 工作站
  • 通过AWS IAM Policy Simulator进行权限验证和模拟测试
  • AWS Glue ETL 自动化数据清洗:从概念到企业级实战
  • 北京网站优化方法烟台网站网站建设
  • RabbitMQ 和 Kafka 对比
  • 大模型之扩散模型的学习一
  • 做企业网站 空间怎么买简述商务网站建设步骤
  • 做火锅加盟哪个网站好主营商城网站建设
  • 网站维护怎么做wordpress主题无法预览
  • [吾爱大神原创] wx小程序自动解包工具界面版1.0.0
  • Datagrip连接Oracle23的一些异常记录
  • springboot+vue心理健康服务小程序(源码+文档+调试+基础修改+答疑)
  • flink api-datastream api-source算子
  • 基于数据挖掘的在线游戏行为分析预测系统
  • 无极领域付费网站做外贸要访问国外的网站怎么办
  • 本地项目上传到Git仓库
  • 首批CCF教学案例大赛资源上线:涵盖控制仿真、算法与机器人等9大方向
  • Java外功精要(2)——Spring IoCDI
  • Git简单理解
  • 机器人的“神经网络”:以太网技术如何重塑机器人内部通信?【技术类】
  • k8s-pod的资源限制
  • 【附源码】基于Vue的网上约课系统的设计与实现
  • 元宇宙的操作系统:虚拟世界的管理平台
  • 软考 系统架构设计师系列知识点之杂项集萃(161)
  • Python爬虫实战:获取中国检察网公开的案件信息与数据分析