当前位置：首页 > news >正文

Day31_【 NLP _1.文本预处理 _(4)文本特征处理、文本数据增强】

news 2025/9/30 10:05:23

文本特征处理
- 添加n_gram特征
- 文本长度规范

文本数据增强:
- 回译数据增强法

回译数据增强法作用：对样本进行扩充，可处理样本分布不均问题

文本特征处理包括为语料添加具有普适性的文本特征, 如:n-gram特征,
以及对加入特征之后的文本语料进行必要的处理, 如: 长度规范.
这些特征处理工作能够有效的将重要的文本特征加入模型训练中, 增强模型评估指标.

一、文本特征处理

1、n-gram特征

n-gram特征：n个词或字的相邻共现特征，白话：相邻两个或多个token经常一起出现的特征

bi-gram和tri-gram特征,分别对应n为2和3

代码示例：

# * ：解包，去掉最外层
# zip : 把多个子列表拉链合并在一起
# set : 转集合且去重
result = set(zip(*[input_list[i:] for i in range(n_gram)]))

2、文本长度规范

模型输入需要符合规定长度的，也就是等尺寸大小矩阵。

多了截断、少了填充

API：

from tensorflow.keras.preprocessing import sequence# 参数：5：规定长度
# padding:填充方向
# truncating:截断方向
result=sequence.pad_sequences(input_list,5,padding="post",truncating="post")

二、文本数据增强

回译数据增强法作用：对样本进行扩充，可处理样本分布不均问题

查看全文

http://www.dtcms.com/a/423578.html

游戏充值网站怎么做wordpress视频自动播放

企业网站建设有几种形式免费查询个人名下公司

Java对象比较

Java异常处理的艺术

std::packaged_task 深度解析

iOS 26 App 性能测试，新版系统下如何全面评估启动、渲染、资源、动画等指标

手机非法网站怎么解决方案1万元可以注册公司吗

信息收集总结

ceph 动态平衡子树

4.3 IPv6 (答案见原书 P182)

响应式网站有哪些2017企业做网站设置哪些模块

【洛谷】二叉树专题全解析：概念、存储、遍历与经典真题实战

重庆网站建设合肥公司世界500强企业排名中国企业

Intel8259中断配合串口接收

济南网站建设与维护廊坊做网站公司

好女人生活常识网站建设厦门建设局网站技227司学校

如何让AI实现自动化 —— PlayWright MCP 实测

哪家做网站的公司应用软件商店

std::thread 深度解析：C++并发编程的魔法之旅

MaayanLab Cloud Enrichr 不用编程也能做富集分析（TF）/miRNA 疾病与表型关联药物与化合物关联全自动的网站

网站每天做多少外链合适网站备案号添加

网站接入商排名wordpress 如何添加关键词

如何安全地在 Kubernetes 中管理凭据？——基于 SMS 凭据管理系统的实践探索

初识c语言————常规运算符及其规则

投资新热点：AEM双极板领域创业机会与风险评估

Bootstrap5 Jumbotron：功能强大的响应式全屏组件

从官方视频比较Autodesk Forma 与广联达 CONCETTO

手机版网站快照如何做做食品的网站设计要注意

银河麒麟设置右键新建Ofiice文件

如何在自己电脑上做网站自己怎么做网站

一、文本特征处理

1、n-gram特征

2、文本长度规范

二、文本数据增强

相关文章：