当前位置: 首页 > news >正文

【nlp】1.4 文本特征处理(n-gram特征、文本长度规范:补齐与截断)

文本特征处理

  • 1 什么是n-gram特征
  • 2 文本长度规范及其作用

文本特征处理的作用:

文本特征处理包括为语料添加具有普适性的文本特征,如:n-gram特征,以及对加入特征之后的文本语料进行必要的处理, 如: 长度规范。这些特征处理工作能够有效的将重要的文本特征加入模型训练中,增强模型评估指标。

常见的文本特征处理方法:

  • 添加n-gram特征
  • 文本长度规范

1 什么是n-gram特征

给定一段文本序列, 其中n个词或字的相邻共现特征即n-gram特征, 常用的n-gram特征是bi-gram和tri-gram特征, 分别对应n为2和3.

举个例子:

假设给定分词列表: ["是谁", "敲动", "我心"]

对应的数值映射列表为: 
http://www.dtcms.com/a/3988.html

相关文章:

  • 卷积操作中的padding和strides
  • Sprint Boot 学习路线 6
  • Socket网络编程
  • 通讯协议学习之路(实践部分):SPI开发实践
  • hadoop
  • C/C++数据结构之链表题目答案与解析
  • Apipost IDEA插件如何使用
  • Python爬虫——入门爬取网页数据
  • rhcsa-权限
  • AR打卡小程序:构建智能办公的新可能
  • 某XX自考小程序的AES加密分析
  • 【LeetCode刷题笔记】栈和队列
  • STM32——NVIC中断优先级管理分析
  • Spring Boot (三)
  • python实现全向轮EKF_SLAM
  • ip数据包
  • 媒体聚焦丨四维图新旗下杰发科技王璐:设计决定芯片质量
  • Nginx学习(在 Docker 中使用 Nginx)
  • JavaEE初阶学习:JVM(八股文)
  • CPS:实现销售和广告的完美结合
  • 安全框架SpringSecurity-1(认证入门数据库授权)
  • 开发知识点-NodeJs-npm/Pnpm/Vite/Yarn包管理器
  • 前后端开发迭代
  • 计算机毕业设计项目选题推荐(免费领源码)Springboot+MySQL智能购房推荐系统09040
  • Django——orm模块创建表关系
  • Rust教程6:并发编程和线程通信
  • 基于pytorch使用特征图输出进行特征图可视化
  • Spring Boot 校验用户上传的图片文件
  • 【Qt】撤销/恢复的快捷键
  • Git基本概念和使用方式