【AI Guide】AI面试攻略只用看这一篇就够了!力争做全网最全的AI面试攻略——大模型(二十六)词表与词表扩充
【AI Guide】AI面试攻略只用看这一篇就够了!力争做全网最全的AI面试攻略——大模型(二十六)词表与词表扩充
- 词表与词表扩充
-
- 子词编码(Subword Encoding)技术
-
- BPE(Byte Pair Encoding)
- SentencePiece
- WordPiece
- 词汇表的动态扩展
-
- 在线学习(Online Learning)
- 自适应词汇表(Adaptive Vocabulary)
- 基于领域的词汇扩充
-
- 领域特定语料库训练
- 细粒度领域词汇扩展
- 多语言支持与跨语言词汇扩充
-
- 共享子词单元
- 语言模型的迁移学习
- 词汇表扩充的挑战
词表与词表扩充
词表的设计至关重要,因为它直接影响到模型的输入输出处理。一般来说,语言模型使用子词级别的编码方式(如 BPE、WordPiece 或 SentencePiece),将常见的词汇和子词单元映射到一个较小的词表中,这样模型就能够处理未知词汇(通过拼接子词单元)而无需为每个词汇单独分配一个固定的编号。
词表扩充是大规模语言模型(如 ChatGLM-3)优化其理解和生成能力的关键步骤。
子词编码(Subword Encoding)技术
子词编码方法通过将词汇表的单位从“单词”细分为更小的“子词”单元,以解决未知词汇和稀有词汇问题。以下是几种主流的子词编码方法:
BPE(Byte Pair Encoding)
BPE 是最常见的子词编码方法之一,它通过以下步骤进行词表扩充:初始时,词表包含所有单个字符;计算文本中最频繁的字节对(字符对),并将这些字节对合并为一个新的子词;重复此过程,直到达到预定的词表大小。
优点:BPE 不依赖于语言的特定结构&#