当前位置：首页 > news >正文

Day31_【 NLP _1.文本预处理 _(3)文本数据分析】

news 2025/9/30 8:13:04

文本数据分析
- 标签数量分布
- 句子长度分布
- 正负样本散点图
- 不同词汇总数统计
- 关键词词云

文本数据分析：主要是利用画图API进行画图分析

以下为代码示例：

API：

import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud

一、标签数量分布

sns.countplot(x="label", data=train_df)

二、句子长度分布

# 柱状图
sns.countplot(x="sentence_length", data=train_df)
# 折线图
sns.displot(x="sentence_length", data=train_df)

三、正负样本散点图

# 散点图
sns.stripplot(x="label", y="sentence_length", data=train_df,hue='label')

四、不同词汇总数统计

# map(func,iterable) ：对每个iterable进行func处理，返回的是一个迭代器
# * ：解包(只解最外层)
# chain ：将多个可迭代对象解包再拼接成一个可迭代对象
# set ：转为集合并去重
result = set(chain(*map(lambda x: jieba.lcut(x), train_df['sentence'])))

五、关键词词云

wc = WordCloud(font_path='data./SimHei.ttf', background_color='white', max_words=100)

查看全文

http://www.dtcms.com/a/422964.html

金融/财务图表的强大可视化引擎——Highcharts Stock

如何将照片从Mac传输到安卓设备

第四部分：VTK常用类详解（第112章 vtkGlyph2D 2D符号化类）

如何将三星手机的照片传输到Mac——6种可行的方法

《系统与软件工程功能规模测量IFPUG方法》（GB/T42449-2023）标准解读

ChatExcel将发布数据分析Mini AI 工作站

通过AWS IAM Policy Simulator进行权限验证和模拟测试

AWS Glue ETL 自动化数据清洗：从概念到企业级实战

北京网站优化方法烟台网站网站建设

RabbitMQ 和 Kafka 对比

大模型之扩散模型的学习一

做企业网站空间怎么买简述商务网站建设步骤

做火锅加盟哪个网站好主营商城网站建设

网站维护怎么做wordpress主题无法预览

[吾爱大神原创] wx小程序自动解包工具界面版1.0.0

Datagrip连接Oracle23的一些异常记录

springboot+vue心理健康服务小程序（源码+文档+调试+基础修改+答疑）

flink api-datastream api-source算子

基于数据挖掘的在线游戏行为分析预测系统

无极领域付费网站做外贸要访问国外的网站怎么办

本地项目上传到Git仓库

首批CCF教学案例大赛资源上线：涵盖控制仿真、算法与机器人等9大方向

Java外功精要(2)——Spring IoCDI

Git简单理解

机器人的“神经网络”：以太网技术如何重塑机器人内部通信？【技术类】

k8s-pod的资源限制

【附源码】基于Vue的网上约课系统的设计与实现

元宇宙的操作系统：虚拟世界的管理平台

软考系统架构设计师系列知识点之杂项集萃（161）

Python爬虫实战：获取中国检察网公开的案件信息与数据分析

一、标签数量分布

二、句子长度分布

三、正负样本散点图

四、不同词汇总数统计

五、关键词词云

相关文章：