什么是:Word2Vec + 余弦相似度
什么是:Word2Vec + 余弦相似度
目录
- 什么是:Word2Vec + 余弦相似度
- 示例文本
- 基于Word2Vec的文本向量化
- 计算余弦相似度
- Word2Vec不是基于Transformer架构的
Word2Vec是一种将单词转化为向量表示的模型,而Word2Vec + 余弦相似度则是一种利用Word2Vec得到的向量来计算文本相似性的方法。
示例文本
假设有两篇简单的文本:
文本1:“我喜欢苹果”
文本2:“我喜爱香蕉”
基于Word2Vec的文本向量化
- 训练Word2Vec模型:首先,使用大量的文本数据来训练Word2Vec模型。在训练过程中,模型会学习每个单词在文本中的上下文信息,并将单词映射到一个低维向量空间中。例如,在训练好的模型中,“喜欢”和“喜爱”这两个词虽然表述不同,但由于它们在语义上相近,会被映射到向量空间中相近的位置,得到各自的词向量,如“喜欢”对应的向量为[0.2, 0.1, 0.3, …, 0.1],“喜爱”对应的向量为[0.25, 0.12, 0.28, …, 0.11]。同样,“苹果”和“香蕉”也会有各自的词向量。
- 构建文本向量:对于文本1“我喜欢苹果”,将其中每个单词的词向量相加并求平均(当然&#