当前位置: 首页 > news >正文

Day31_【 NLP _1.文本预处理 _(4)文本特征处理、文本数据增强】

目录:

  • 文本特征处理

    • 添加n_gram特征

    • 文本长度规范

  • 文本数据增强:

    • 回译数据增强法

回译数据增强法 作用:对样本进行扩充,可处理样本分布不均问题

文本特征处理包括为语料添加具有普适性的文本特征, 如:n-gram特征,
以及对加入特征之后的文本语料进行必要的处理, 如: 长度规范.
这些特征处理工作能够有效的将重要的文本特征加入模型训练中, 增强模型评估指标.

一、文本特征处理

1、n-gram特征

n-gram特征:n个词或字的相邻共现特征,白话:相邻两个或多个token经常一起出现的特征

bi-gram和tri-gram特征,分别对应n为2和3

代码示例:

# * :解包,去掉最外层
# zip : 把多个子列表拉链合并在一起
# set : 转集合且去重
result = set(zip(*[input_list[i:] for i in range(n_gram)]))

2、文本长度规范

模型输入需要符合规定长度的,也就是等尺寸大小矩阵。

多了截断、少了填充

API:

from tensorflow.keras.preprocessing import sequence# 参数:5:规定长度
# padding:填充方向
# truncating:截断方向
result=sequence.pad_sequences(input_list,5,padding="post",truncating="post")

二、文本数据增强

回译数据增强法 作用:对样本进行扩充,可处理样本分布不均问题

http://www.dtcms.com/a/423578.html

相关文章:

  • 游戏充值网站怎么做wordpress视频自动播放
  • 企业网站建设有几种形式免费查询个人名下公司
  • Java对象比较
  • Java异常处理的艺术
  • std::packaged_task 深度解析
  • iOS 26 App 性能测试,新版系统下如何全面评估启动、渲染、资源、动画等指标
  • 手机非法网站怎么解决方案1万元可以注册公司吗
  • 信息收集总结
  • ceph 动态平衡子树
  • 4.3 IPv6 (答案见原书 P182)
  • 响应式网站有哪些2017企业做网站设置哪些模块
  • 【洛谷】二叉树专题全解析:概念、存储、遍历与经典真题实战
  • 重庆网站建设合肥公司世界500强企业排名中国企业
  • Intel8259中断配合串口接收
  • 济南网站建设与维护廊坊做网站公司
  • 好女人生活常识网站建设厦门建设局网站技227司学校
  • 如何让AI实现自动化 —— PlayWright MCP 实测
  • 哪家做网站的公司应用软件商店
  • std::thread 深度解析:C++并发编程的魔法之旅
  • MaayanLab Cloud Enrichr 不用编程 也能做富集分析 (TF)/miRNA 疾病与表型关联 药物与化合物关联 全自动的网站
  • 网站每天做多少外链合适网站备案号添加
  • 网站接入商排名wordpress 如何添加关键词
  • 如何安全地在 Kubernetes 中管理凭据?——基于 SMS 凭据管理系统的实践探索
  • 初识c语言————常规运算符及其规则
  • 投资新热点:AEM双极板领域创业机会与风险评估
  • Bootstrap5 Jumbotron:功能强大的响应式全屏组件
  • 从官方视频比较Autodesk Forma 与广联达 CONCETTO
  • 手机版网站快照如何做做食品的网站设计要注意
  • 银河麒麟设置右键新建Ofiice文件
  • 如何在自己电脑上做网站自己怎么做网站