当前位置：首页 > news >正文

Day31_【 NLP _1.文本预处理 _(2)文本张量表示方法】

news 2025/9/30 7:08:33

文本张量表示方法

one-hot编码
Word2vec
Word Embedding

文本张量表示：将一段文本使用张量进行表示这个过程就是文本张量表示。

1.文本--->张量
文本-->词-->词向量-->词向量矩阵-->张量
2. one-hot属于稀疏向量表示。
Word2vec和Word Embedding都是稠密向量表示。

一、one-hot编码

也叫独热编码或 0-1编码

优势：操作简单
劣势：高维稀疏
- 高维：每个向量长度过大占内存（长度=不同词汇的总数）
- 稀疏：割裂了词与词之间的联系

二、Word2vec

含义：将词表示成词向量的无监督方法

原理：构建神经网络模型，将网络参数作为词向量表示

模式：CBOW、skipgram。

CBOW模式思路：

给定一段用于训练的文本语料
再选定某段长度(窗口)作为研究对象
使用上下文词汇预测目标词汇

skipgram模式思路：

给定一段用于训练的文本语料
再选定某段长度(窗口)作为研究对象
使用目标词汇预测上下文词汇

实现API

安装：fastext词向量训练工具包

pip install fasttext-wheel==0.9.2 -i

fasttext两大作用：文本分类、训练词向量。

API：

# 训练词向量
model=fasttext.train_unsupervised()
# 加载模型
model.save_model()
# 保存模型
fasttext.load_model()
# 获取词向量
model.get_word_vector()
# 获取邻近词
model.get_nearest_neighbors()

三、Word Embedding

广义：密集词向量的表示方法，如word2vec

狭义：在神经网络中嵌入nn.embedding层，nn.Embedding()

狭义Word Embedding就是指词嵌入层 nn.Embedding()

Word Embedding与Word2vec区别

Word2vec

静态词向量：模型训练好后，使用模型输入词汇加载词向量，参数固定
实现任务需分两步
- 训练词向量
- 基于训练好的词向量完成任务

Word Embedding

动态词向量：词嵌入层作为整体神经网络的一部分，权重参数会参与更新，是动态的
实现任务一步到位

查看全文

http://www.dtcms.com/a/422480.html

UNIX下C语言编程与实践3-Vi 编辑器从入门到精通：快捷键使用与高效编辑技巧

网站设计案例简单易订货小程序怎么收费

锂离子扩散能垒计算如何驱动高性能电池研发-测试GO

rtsoft 的“整理”流程

C++程序设计上机作业（1）

【C++STL ：vector类 (一) 】详解vector类的使用层vector实践：算法题

机器学习项目结构目录的构建

2022 年 CSP-J（中国计算机学会软件能力认证入门级）初赛真题与答案解析

常州市建设工程网站衡水做网站

北京58网站建设wordpress在线商城插件

2025年计算机网络与信号处理国际会议（CNSP 2025）

利用css的动画效果制作轮播图

docker镜像和

CSS通用优惠券样式

STM32F1学习——CAN外设(上)

Docker Desktop实战、问题记录

《 Linux 点滴漫谈：二》全面掌握 Linux 系统安装与环境准备，迈出学习第一步

从0死磕全栈之Next.js 中的 CSS 方案全解析：Global CSS、CSS Modules、Tailwind CSS 怎么选？

先域名还是先做网站蜘蛛搜索引擎

《C++进阶之C++11》【可变参数模板 + emplace接口 + 新的类功能】

什么网站可以做兼职怎么做提卡网站

【Linux基础知识系列：第一百四十四篇】使用find命令查找和处理文件

cocos 武器攻击敌人后将碰撞node传给角色脚本有角色脚本传递计算伤害调用敌人脚本敌人自己计算血量如果超过最大血量自己删除

PySide6 主窗口(QMainWindow)菜单(QMenu)实现打开并读取文本文件

Steam秋季特卖倒计时！用UU远程国庆随时购史低游戏！

Linux系统C++开发环境搭建工具（一）—— gflags/gtest/spdlog 使用指南

MySQL逻辑备份工具mysqldump：原理剖析与实操指南

Java-Spring入门指南（十一）代理模式与Spring AOP实战

实名认证接口-识破虚假身份：科技为信任筑起第一道防线

柘林网站建设wordpress改背景图片

一、one-hot编码

二、Word2vec

CBOW模式 思路：

skipgram模式 思路：

实现API

三、Word Embedding

相关文章：

CBOW模式思路：

skipgram模式思路：