AI大模型:(二)2.2 分词器Tokenizer
目录
1.分词技术的发展
2.分词器原理
2.1.基于词分词
2.2.基于字符分词
2.3.基于子词分词
3.手搓Byte-Pair Encoding (BPE)分词及训练
3.1.Byte-Pair Encoding (BPE)分词原理
3.2.手搓Byte-Pair Encoding (BPE)分词器
4.如何选择已有的分词器
1. 常见子词分词器及特点
2. 选择关键因素
(1) 语言特性
(2) 数据规模
(3) 任务需求
(4) 技术限制
5.如何训练已有的分词器
场景1:中文NLP
场景2:多语言模型
场景3:低资源语言
我们上一章简单介绍了分词器,它是大语言模型的基础组件,是大模型必不可少的。本篇我们详细介绍下分词器原理、如何选择分词器、以及如何训练分词器。
1.分词技术的发展
2013年Word2Vec出来之前是统计学习加特征工程的时代,搜索引擎、淘宝等等互联网软件为了分析和方便搜索就使用了统计学习加特征工程,使用决策书、SVM向量机等机器学习算法,导致词表非常的大,而且无法理解上下文语义,情感分析只靠关键词评判,很容易误判。直到2013年Google团队推出了Word2Vec,Word2Vec开启了NLP预训练时代。Word2Vec将分词进行了向量化,就是以一种数学的可计算方式表达了出来。Word2Vec是以一种神经网络算法使用大规模文本以窗口滑动的形式,每次拿出五个词,给出前两个和后两个预测中间的字或者给出中间的字预测前边、后边的两个词。后来又出了循环神经网络,它可以记住上下文了,但是它又不知道哪些词重要不重要。随之而来又有了LS