大模型学习:使用FastText工具训练词向量
一、训练词向量介绍
-
词向量概念
词向量(Word Embeddings)是将词语映射为固定维度的稠密向量,通常是在高维空间中。每个词向量包含了该词的语义信息,并且能反映词与词之间的关系。常见的词向量模型包括:
- Word2Vec:由Mikolov等人提出,基于神经网络的模型。
- GloVe:通过矩阵分解方法来训练词向量。
- FastText:Facebook提出的扩展Word2Vec的模型,能够处理词形变化。
-
核心思想
FastText的词向量训练基于Skip-gram with Negative Sampling (SGNS)模型。其核心思想是:给定一个中心词,预测其上下文中的词。 通过学习中心词与其上下文词之间的关系,模型能够学习到词的语义表示。与Word2Vec的Skip-gram模型相比,FastText的主要创新在于引入了字符n-gram,将词拆分为字符级别的n-grams,例如 “apple” 的 3-grams为
["<ap", "app"