当前位置：首页 > news >正文

自然语言处理基于神经网络的词向量转化模型word2vec

news 2025/9/8 7:47:52

一.词向量转换的方法

二.one-hot编码

1.怎么对语料库中的每个字进行one-hot编码

2.one-hot编码的缺点

三.解决one-hot编码的维度灾难问题

1.如何解决维度灾难问题

2.什么是词嵌入

3.高效训练词向量的模型

4.word2vec模型原理

模型的训练过程：

模型结构：

一.词向量转换的方法

①基于统计的语言模型

②神经网络语言模型

统计语言模型存在的问题：

由于参数空间的爆炸式增长，它无法处理（N>3）的数据。

没有考虑词与词之间内在的联系性。例如，考虑"the cat is walking in the bedroom"这句话。如果我们在训练语料中看到了很多类似“the dog is walking in the bedroom”或是“the cat is running in the bedroom”这样的句子；那么，哪怕我们此前没有见过这句话"the cat is walking in the bedroom"，也可以从“cat”和“dog”（“walking”和“running”）之间的相似性，推测出这句话的概率。

所以接下来我们介绍基于神经网络的词向量转化

二.one-hot编码

在处理自然语言时，通常将词语或者字做向量化，例如one-hot编码，例如我们有一句话为：“我爱北京天安门”，我们分词后对其进行one-hot编码，结果可以是：

“我”：[1,0,0,0] “爱”: [0,1,0,0] “北京”: [0,0,1,0] “天安门”: [0,0,0,1]

1.怎么对语料库中的每个字进行one-hot编码

统计语料库中所有的词的个数，例如4960个词。
按顺序依次给每个词进行one-hot编码，例如第1个词为：[1,0,0,0,0,0,0,….,0]，就是第一个数字为0后面剩下的4959个为0，最后1个词为： [0,0,0,0,0,0,0,….,1]就是前4959个为0最后一个为1

理论上，每个词元会被分配一个唯一的二进制编码，通过在对应位置放置1，其余位置置0。
该方法的优点是输入向量长度固定，便于模型处理。

2.one-hot编码的缺点

在一个包含N个词元的语料库中，每个词元的编码向量(one-hot)长度恒定为N，但这会导致特征空间非常稀疏，带来维度灾难问题。

例如有一句话为“我爱北京天安门”，则传入神经网络输入层的数据为：

[1,0,0,0,0,0,0,….,0]

[0,1,0,0,0,0,0,….,0]

[0,0,1,0,0,0,0,….,0]

[0,0,0,1,0,0,0,….,0]也就是4*4960的矩阵但矩阵只有前四列有1，后面的4956列全为0，可以看出矩阵非常稀疏，出现维度灾难

三.解决one-hot编码的维度灾难问题

1.如何解决维度灾难问题

通过神经网络训练，将每个词都映射到一个较短的词向量上来。

例如有一句话为“我爱北京天安门”，通过神经网络训练后的数据为：

[0.62,0.12,0.01,0,0,0,0,….,0]

[0.1,0.12,0.001,0,0,0,0,….,0]

[0,0,0.01,0.392,0.39, 0,….,0]

[0,0,0,1,0,0.01,0.123,….,0.11]（4*300）

也就是我们将原来的4*4960压缩到了4*300维的词向量，还可以发现维度中的数字已经不是1和0了，而是一些浮点数。这就叫做词嵌入

2.什么是词嵌入

将高维度的词表示转换为低维度的词表示的方法，我们称之为词嵌入（word embedding）

3.高效训练词向量的模型

word2vec模型

Google研究团队里的Tomas Mikolov等人于2013年的《Distributed Representations ofWords and Phrases and their Compositionality》以及后续的《Efficient Estimation of Word Representations in Vector Space》两篇文章中提出的一种高效训练词向量的模型，也就是word2vec。

4.word2vec模型原理

目标：将高维的One-Hot编码（如4960维）压缩到低维度的向量（如300维），形成更稠密、有意义的词向量。
核心思想：复现“完形填空”的逻辑，利用上下文信息来理解和表示词语。
两种主要方法：
- CBOW (Continuous Bag-of-Words)：使用上下文词的向量来预测中心词。
- Skip-gram：以当前词为中心，预测其上下文词。