当前位置: 首页 > news >正文

文本表示方法

词向量

独热编码模型和分布式表征模型

独热编码分布式表征
固定长度的稠密词向量
优点一个单词一个维度,彼此之间构成标准正交向量组数字化后的数值可以表示语义上的关系
缺点稀疏,词向量维度大导致计算效率低

独热编码会根据语料库中的单词个数,来确定词向量的维度

分布式表征,预先确定词向量的维度,生成的词向量

文本表示方法

基于统计的词向量

词袋模型 Bag of words, BOW

忽略文本中词语的顺序和语法结构,将文本视为词的集合,通过词汇表中每个单词在文本中出现的次数来表示文本。

TF-IDF

单词在特定文本中的重要性得分表示为:单词在文本出现的频率和出现改单词的文本数量在语料库中的频率。

基于神经网络的词向量

Word2Vec

Word2Vec 有两种架构:CBOW(Continuous Bag of Words) 和 Skip-Gram。其中,CBOW 是根据上下文来预测中心词,而 Skip-Gram 是根据中心词来预测上下文。

例如:you say goodbye and i say hello.

如果上下文窗口为 1,对于 CBOW 来说,you say goodbye 中的目标预测词为 say,上下文为 you goodbye。

CBOW
训练过程

构建训练集和测试集。

you say goodbye and i say hello.设定上下文窗口为 1.

上下文目标词
you goodbyesay
say andgoodbye
goodbye iand
and sayi
i hellosay
  1. 文本预处理。假设词汇表大小为 V,词向量为 d

word2vec连续词袋模型CBOW详解,使用Pytorch实现 - 知乎

Glove

基于单词的共现矩阵来学习词向量。其中,共现矩阵记录两个单词在语料库中共现的次数。


Transformer 相较于 RNN 的改进

  1. 并行计算
  2. 因为 attention 机制能一次获取全局信息,所以最长计算路径短
  3. 可以捕捉长距离依赖关系

相关文章:

  • 什么是FCC认证
  • React echarts柱状图点击某个柱子跳转页面
  • QxOrm生成json
  • Django 创建表时 “__str__ ”方法的使用
  • buu-ciscn_2019_c_1-好久不见36
  • SpringBoot整合Email 邮件发送详解
  • Python经典游戏:植物大战僵尸(附源码!)
  • mac 意外退出移动硬盘后再次插入移动硬盘不显示怎么办
  • springboot整合modbus实现通讯
  • github用户名密码登陆失效了
  • SolidWorks速成教程P3-7【零件 | 第七节】——3D设计打印手机支架+草图文本草图图片材质与质量属性测量
  • TypeScript 面试题
  • 直线导轨尺寸参数
  • 在Autonomous DB中创建训练数据集
  • 机试刷题_数组中出现次数超过一半的数字【python】
  • Linux上Elasticsearch 集群部署指南
  • UE5中的四元数
  • 【kafka系列】日志存储设计 消息写入、读取
  • 基于CXL内存的热数据检测技术解读
  • SpringCloud面试题----如何保证 Spring Cloud 微服务的安全性
  • 在古老的意大利科莫歌剧院,廖昌永唱响16首中国艺术歌曲
  • 国际能源署:全球电动汽车市场强劲增长,中国市场继续领跑
  • 市场监管总局等五部门约谈外卖平台企业
  • 受贿3501万余元,中石油原董事长王宜林一审被判13年
  • 多家中小银行存款利率迈入“1时代”
  • 哈马斯表示已释放一名美以双重国籍被扣押人员