当前位置：首页 > news >正文

LLM 笔记 —— 07 Tokenizers（BPE、WordPeice、SentencePiece、Unigram）

news 2025/10/13 6:26:26

01 Byte Pair Encoding Tokenizer (BPE Tokenizer)

BPE 的基本思想是将单词分成一系列 “子词单元”，这些单元是在参考语料库（即我们用来训练它的语料库）中频繁出现的单元。

BPE training starts with an initial vocabulary and increases it to the desired size.

那么，BPE 标记器是如何被训练的呢？

① 规范化

首先，我们获得一个文本语料库，如下，但我们不会在这个原始文本上训练我们的标记器，而是先对其进行规范化，然后对其进行预标记。

在这里插入图片描述

② 预标记

预标记将文本分成一个单词列表，我们可以通过将相同的单词聚集在一起并维护一个单词计数器，如蓝色表示单词出现的次数。

在这里插入图片描述

为了理解训练是如何进行的，我们考虑这个由以下单词组成的玩具 语料库 Corpus。

③ Initial Vocab

为了构建初始词汇表，我们首先将 Corpus 中每个单词分成组成它们的 基本单位列表 Splits，这里是单个字符。

在这里插入图片描述

在 词汇表 Vocab 中列出所有出现的字符，这些字符构成我们的初始词汇表！

④ Increase Vocab

Ⅰ 现在让我们看看如何增加 Vocab，回到 Splits，逐个浏览 标记对 Pairs ，并统计所有标记对的出现次数，比如 hu ug gg 等等。

在这里插入图片描述

Ⅱ 从所有 Pairs 中挑选一个出现次数最高的，比如 l + e，并将 le 添加到 Vocab 中。

在这里插入图片描述

Ⅲ 然后，我们优化原来的 Splits，将 l 和 e 合并为 le。

在这里插入图片描述

让我们重复 ④ 这一核心步骤，不断地统计 Pairs 的频率，不断地选择频率最高的 Pairs 添加进 Vocab 中，同时优化原来的 Splits。

在这里插入图片描述

⑤ Tokenization

现在，我们已经了解了词汇和合并规则，可以对新文本进行标记，假设我们要对单词 hugs 进行标记。

在这里插入图片描述

首先，我们将其分为基本单位 h u g s，构成一个字符列表，然后，我们检查合并规则 Merges，直到找到可以应用的规则，这里我们可以合并 h u g 为 hug，当我们到达合并规则的末尾时，标记化就完成了。

在这里插入图片描述

02 WordPiece tokenizer

The learning strategy for a WordPiece tokenizer is similar to that of BPE but differs in the way the score for each candidate token is calculated.

与 BPE 算法相似，WordPiece 算法同样首先建立由基本单元组成的初始词汇表，然后将该词汇表增加到所需的大小。

二者的不同之处:

Ⅰ Splits 当中不作为单词开头的字母前面添加了##标签

在这里插入图片描述

Ⅱ 统计 Pairs scores 而非 Pairs frequencies

在这里插入图片描述

标记对的分数等于该对出现的频率除以第一个标记出现的频率与第二个标记出现的频率的乘积。也就是说，当该对出现的频率固定时，如果该对的子标记在预料库中出现的频率非常高，那么这个分数就会非常低。

在这里插入图片描述

WordPiece tokenizer 的训练结果:

在这里插入图片描述

我们可以试着标记文本 huggingface，WordPiece tokenizer 要求在单词的开头寻找尽可能长的标记，然后，开启单词的剩余部分，继续寻找尽可能长的标记，就这样，huggingface 最终被分为 4 个标记。

在这里插入图片描述

03 SentencePiece tokenizer

我们做一种假设，现在需要对中文或日语进行 BPE 算法，其中单词之间没有明确的空格，所以我们必须为这些语言实现不同的预标记器，那么，SentencePiece tokenizer 试图解决这个问题。

在这里插入图片描述

首先，将中文或日语输入转化为英文，其是一个包含空格的字符流，她采用和 unigram 相同的合并算法，其基本词汇初始化为大量 token，然后逐步修剪每个 token 以获得较小的词汇量，直到到达所需大小。

在这里插入图片描述

例如，在 deep learing engineer 这一句子上应用 SentencePiece tokenizer 后得到的 token 如下，某些 token 前面有一个下划线，代表空格的占位符，和 BPE 或者 WordPiece 相比，它允许我们通过简单的连接 token 并使用 SP 替换下划线来构建原始句子。

在这里插入图片描述