当前位置: 首页 > wzjs >正文

平台式网站模板下载吉林网站模板

平台式网站模板下载,吉林网站模板,做最好的网站,什么网站可以做投资本文目录: 一、添加n-gram特征(一)概念(二)提取n-gram特征 二、文本长度规范及其作用(一)截断(Truncation)(二)填充(Padding&#xff…

本文目录:

  • 一、添加n-gram特征
    • (一)概念
    • (二)提取n-gram特征
  • 二、文本长度规范及其作用
    • (一)截断(Truncation)
    • (二)填充(Padding)
  • 三、回译数据增强法

**前言:**前文讲解了文本数据处理,这篇文章讲解NLP的文本特征处理。

文本特征处理主要有 添加n-gram特征文本长度规范两种方式。

一、添加n-gram特征

(一)概念

N-gram是自然语言处理(NLP)中的一种基础但强大的文本特征表示方法,用于捕捉局部词序信息。

假设给定分词列表: ["是谁", "敲动", "我心"]对应的数值映射列表为: [1, 34, 21]我们可以认为数值映射列表中的每个数字是词汇特征.除此之外, 我们还可以把"是谁""敲动"两个词共同出现且相邻也作为一种特征加入到序列列表中,假设1000就代表"是谁""敲动"共同出现且相邻此时数值映射列表就变成了包含2-gram特征的特征列表: [1, 34, 21, 1000]这里的"是谁""敲动"共同出现且相邻就是bi-gram特征中的一个."敲动""我心"也是共现且相邻的两个词汇, 因此它们也是bi-gram特征.假设1001代表"敲动""我心"共同出现且相邻那么, 最后原始的数值映射列表 [1, 34, 21] 添加了bi-gram特征之后就变成了 [1, 34, 21, 1000, 1001]

(二)提取n-gram特征

代码:

# 一般n-gram中的n取2或者3, 这里取2为例
ngram_range = 2def create_ngram_set(input_list):"""description: 从数值列表中提取所有的n-gram特征:param input_list: 输入的数值列表, 可以看作是词汇映射后的列表, 里面每个数字的取值范围为[1, 25000]:return: n-gram特征组成的集合eg:>>> create_ngram_set([1, 3, 2, 1, 5, 3]){(3, 2), (1, 3), (2, 1), (1, 5), (5, 3)}""" return set(zip(*[input_list[i:] for i in range(ngram_range)]))

调用:

input_list = [1, 3, 2, 1, 5, 3]
res = create_ngram_set(input_list)
print(res)

运行结果:

# 该输入列表的所有bi-gram特征
{(3, 2), (1, 3), (2, 1), (1, 5), (5, 3)}

二、文本长度规范及其作用

一般模型的输入需要等尺寸大小的矩阵, 因此在进入模型前需要对每条文本数值映射后的长度进行规范:分析出覆盖绝大多数文本的合理长度, 然后对超长文本进行截断, 对不足文本进行补齐(一般使用数字0)。

(一)截断(Truncation)

作用:丢弃超出最大长度的部分文本。

适用场景:文本长度分布长尾,且尾部信息冗余。

实现示例(PyTorch):

max_len = 128
text = "这是一段非常长的文本..."  # 假设分词后为词ID列表
truncated_text = text[:max_len]  # 保留前128个词

(二)填充(Padding)

作用:将短文本补至固定长度。

适用场景:文本长度差异较小,且尾部信息重要。

实现示例:

from torch.nn.utils.rnn import pad_sequencetexts = [[1, 2, 3], [4, 5]]  # 两个样本的词ID列表
padded_texts = pad_sequence([torch.tensor(x) for x in texts], batch_first=True, padding_value=0)  # 填充0

输出结果:

tensor([[1, 2, 3],[4, 5, 0]])

另外,pad_sequence是个很有用的方法,也可以设置截断(其本身包含truncating参数,而post和pre可设置前后操作方向)。

from tensorflow.keras.preprocessing import sequence
list_new=[[1,2,3,4,5],[1,2,3,4,5,6,7,8,9,10]]#list_new=sequence.pad_sequences(list_new,maxlen=5,truncating='pre')#输出:[[ 1  2  3  4  5][ 6  7  8  9 10]]
#list_new=sequence.pad_sequences(list_new,maxlen=10,truncating='pre')#输出:[[ 0  0  0  0  0  1  2  3  4  5][ 0  0  0  0  0  6  7  8  9 10]]
list_new=sequence.pad_sequences(list_new,maxlen=10,padding='post')#输出[[ 1  2  3  4  5  0  0  0  0  0][ 1  2  3  4  5  6  7  8  9 10]]
print(list_new)

三、回译数据增强法

回译数据增强目前是文本数据增强方面效果较好的增强方法, 一般基于google、有道等翻译接口, 将文本数据翻译成另外一种语言(一般选择小语种),之后再翻译回原语言, 即可认为得到与与原语料同标签的新语料, 新语料加入到原数据集中即可认为是对原数据集数据增强。

回译数据增强优势: * 操作简便, 获得新语料质量高。

回译数据增强存在的问题: * 在短文本回译过程中, 新语料与原语料可能存在很高的重复率, 并不能有效增大样本的特征空间。

高重复率解决办法: * 进行连续的多语言翻译, 如: 中文→韩文→日语→英文→中文, 但最多只采用3次连续翻译, 更多的翻译次数将产生效率低下, 语义失真等问题。

今天的分享到此结束。


文章转载自:

http://UxbQmPs3.pLxnn.cn
http://6Skv9hlL.pLxnn.cn
http://foCcoGve.pLxnn.cn
http://nfgZ0Ojx.pLxnn.cn
http://bMgDX8a0.pLxnn.cn
http://9rk5E4IR.pLxnn.cn
http://70Bv2W2p.pLxnn.cn
http://DmOl4iVh.pLxnn.cn
http://5gkZGctn.pLxnn.cn
http://sLVOTj7Z.pLxnn.cn
http://q2ySbH7l.pLxnn.cn
http://x5YgruqV.pLxnn.cn
http://8xsIjJll.pLxnn.cn
http://8BzbXZV6.pLxnn.cn
http://VuB3NWFo.pLxnn.cn
http://cVntRxpi.pLxnn.cn
http://4jVC5yUm.pLxnn.cn
http://4Hy1rGeh.pLxnn.cn
http://XZDymgqo.pLxnn.cn
http://OsLSghLx.pLxnn.cn
http://6GMrVslY.pLxnn.cn
http://CYNsy5d0.pLxnn.cn
http://z2Kj2trg.pLxnn.cn
http://67Z7peGA.pLxnn.cn
http://0s1YMRIT.pLxnn.cn
http://tB2mzVcV.pLxnn.cn
http://7qg8oHfp.pLxnn.cn
http://NuX74NVf.pLxnn.cn
http://KQEWkKEm.pLxnn.cn
http://NaSfNjau.pLxnn.cn
http://www.dtcms.com/wzjs/609887.html

相关文章:

  • 做外贸要建什么网站婚庆设计效果图
  • 东莞建英文网站的公司南京紫米网络科技有限公司
  • 自己建网站做代理商iis建好的网站套用模板
  • 网站竞价词怎么做wordpress 文章编辑框插件
  • 大学校园网站建设的新开传奇最大网站999
  • 江苏网站建设定制外包网站制作
  • 晋江市住房和城乡建设局网站是多少广州网站优化推广方案
  • 深圳网站建设大概多少钱上海网站原型设计
  • 浙江英文网站建设iis怎么搭建设计网站
  • 自己做qq头像网站岷县城乡建设局网站
  • 建设电影播放网站全国设计网站公司网站
  • 成都网站制作怎么收费哈尔滨企业建站
  • 校园网站建设依据注册公司成本多少钱
  • 网站开发 加二维扫码安阳专业做网站公司
  • wordpress搬迁后台总跳转到老网站苏州有哪些互联网大厂
  • 论前端对网站建设的重要性网站后台账号密码忘记了
  • 邢台做移动网站价格网站如何建立
  • 网站出现转站怎么办安徽合肥制作网站公司
  • uc官方网站开发者中心网站开发中视屏怎样编辑到网页上
  • 惠州淡水网站建设重庆沙坪坝新闻最新消息
  • 石家庄网站建设技术支持做go kegg的在线网站
  • 珠海网站建设q.479185700強网站设计报价是多少钱
  • 住建部官方网站什么是网络营销的红海
  • 重庆网站建设制作设计三栏wordpress 主题
  • 成都建设网站公司智慧营销系统平台
  • 该网站正在紧急升级维护中php网站开发工程师待遇
  • a站免费最好看的电影片推荐友情链接互换
  • 企业网站建设cms站wordpress4.9.4 mysql
  • 网站建设 图片压缩鲜花网站建设规划书
  • 新乡门户网站建设方案美团广告投放平台