大模型学习:使用FastText工具进行文本分类
一、文本分类介绍
-
概念
文本分类是将文档(例如电子邮件,帖子,文本消息,产品评论等)分配给一个或多个类别。当今文本分类的实现多是使用机器学习方法从训练数据中提取分类规则以进行分类, 因此构建文本分类器需要带标签的数据。
-
核心思想
- 词袋模型(Bag of Words):将文本表示为词向量的平均值。
- 子词信息(n-grams):通过引入子词信息(如字符级别的 n-grams),FastText能够捕捉到词的内部结构,从而更好地处理未登录词(OOV, Out-of-Vocabulary)和形态丰富的语言。
- 层次Softmax或负采样:为了加速训练,FastText使用层次Softmax或负采样来优化损失函数。
-
种类
- 二分类:文本被分类两个类别中, 往往这两个类别是对立面, 比如:判断一句评论是好评还是差评。
- 单标签多分类:文本被分入到多个类别中, 且每条文本只能属于某一个类别(即被