当前位置：首页 > news >正文

Subword-Based Tokenization策略之BPE与BBPE

news 2025/10/12 13:22:17

在NLP中，Subword算法用于将单词拆分为更小的语义单元，也就是子词，以解决OOV和数据稀疏性问题。

1、BPE

Byte-Pair Encoding，字节对编码

核心思想：词频统计，词表合并

步骤：

初始化词汇表为所有基础字符。
统计相邻符号对的频率，合并最高频的对。
重复合并直到达到预设的词汇表大小或迭代次数。

案例：

语料 = ["low low low", "lower lower", "newest newest", "wider"]

设置迭代次数为2

初始化词汇表：{l,o,w,,e,r,n,s,t,i,d，/w}

统计相邻符号对
low：lo (3) ,ow(3) w</w>(3)

lower:lo (2) ,ow(2) ,we(2),er(2),r</w>(2)

newest:ne(2),ew(2),we(2),es(2),st(2),t</w>(2)

wider:wi(1),id(1),de(1),er(1),r</w>(1)

最高频的对：lo（3+2），ow(3+2)

在 BPE（Byte Pair Encoding）算法中，当多个字符对频率相同时，选择哪个先合并，没有唯一标准，但通常采用“字典序优先”或“任意选择”。

这个选择会影响最终的子词单元构成，但影响通常是局部的、有限的，在大规模语料中趋于稳定。

这里选择lo

更新词汇表：{l,o,w,,e,r,n,s,t,i,d，</w>,lo}

得到规则：l + o = lo

进入下一次迭代

第二次统计符号对：

low：low (3) ,w</w>(3)

lower:low(2) ,we(2),er(2),r</w>(2)

newest:ne(2),ew(2),we(2),es(2),st(2),t</w>(2)

wider:wi(1),id(1),de(1),er(1),r</w>(1)

最高频的子词：low（3+2)

更新词汇表：{l,o,w,,e,r,n,s,t,i,d，</w>,lo，low}

得到规则：lo + w = low

结束迭代

得到最终词汇表：{l,o,w,e,r,n,s,t,i,d，</w>,lo，low}

存在的问题

基本词汇表需要包含所有可能的基本字符，可能相当大.
比如所有Unicode中文字符都被视为基本字符的话，有 10w+。

2、BBPE

Byte-Level Byte-Pair Encoding，BPE的字节级扩展版本，主要用于处理多语言 NLP 任务。

BBPE vs. BPE

特性	BPE	BBPE
处理单位	字符或子词	字节、UTF-8编码
适用语言	适用于空格分隔语言	适用所有语言
OOV 处理	仍可能遇到OOV	几乎不会有 OOV 问题
存储开销	词表较小	词表较大，但更具泛化能力

工作原理：原理和BPE一致，只是使用字节（byte）作为初始token，适用于任何文本。

案例：

语料：深度学习需要一定的学习深度

预处理

首先将句子转换为UTF-8编码的字节序列，十进制表示：

230 183 177 229 186 166 229 173 166 228 185 176 233 156 128 232 166 129 228 184 128 229 174 154 231 154 132 229 173 166 228 185 176 230 183 177 229 186 166

初始化词汇表

初始词汇表为所有唯一的字节 0-255，但此处仅包含语料中出现的字节：

{128, 129, 132, 154, 156, 166, 171, 173, 174, 177, 183, 184, 185, 186, 228, 229, 230, 231, 232, 233}

初始分词结果

每个字节单独成词

230 183 177 | 229 186 166 | 229 173 166 | 228 185 176 | 233 156 128 | 232 166 129 | 228 184 128 | 229 174 154 | 231 154 132 | 229 173 166 | 228 185 176 | 230 183 177 | 229 186 166

统计字节对频率

遍历所有相邻的字节对，统计出现频率：

字节对	频率
(230, 183)	2
(183, 177)	2
(229, 186)	2
(186, 166)	2
(229, 173)	1
...	...

合并最高频字节对

选择频率最高的字节对进行合并，如 (230, 183)。 合并操作：

将 230 \:\: 183 替换为新符号 230\_183。
为该符号新分配一个ID，如 256。
更新词汇表：新增 256 = 230\_183。

此时，我们可以更新分词结果了

256 177 | 229 186 166 | 229 173 166 | 228 185 176 | 233 156 128 | 232 166 129 | 228 184 128 | 229 174 154 | 231 154 132 | 229 173 166 | 228 185 176 | 256 177 | 229 186 166

迭代合并

重复统计和合并，直到达到预设的合并次数或词汇表大小。

第二次合并：

统计当前字节对频率，如 (256, 177) 出现 2 次。
合并 256 \:\: 177 为新符号 257 = 256\_177。

更新后的分词结果：

257 | 229 186 166 | 229 173 166 | 228 185 176 | ... | 257 | 229 186 166

第三次合并：

合并 (229, 186)。
新符号 258 = 229\_186。

更新后的分词结果：

257 | 258 166 | 229 173 166 | 228 185 176 | ... | 257 | 258 166

最终词汇表

经过多次合并后，词汇表会包含初始字节和常见组合：

初始字节：230, 183, 177, 229, 186, ...
合并后的符号：
- 256 = 230\_183
- 257 = 256\_177
- 258 = 229\_186
- 259 = 258\_166

符号的层级关系

如 257 = 256\_177，而 256 = 230\_183，因此 257 实际表示 230\_183\_177，即完整的"深"的UTF-8字节序列。

编码示例

原始句子编码为：

257 259 | 229 173 166 | 228 185 176 | ... | 257 259

其中 257 表示"深"，259 表示"度"

当然了，(257, 259) 出现 2 次，下一步合并 (257, 259) → 新符号 260 = 257\_259，即"深度"的完整Token。

所以，这怎么可能会出现 OOV 的问题？

查看全文

http://www.dtcms.com/a/461550.html

网站关键词用热门的还是冷门青岛天河小学网站建设

个人域名备案网站名称一元购网站建设流程图

企业级灰度发布架构：基于Nginx的精细化流量治理与平滑演进实践

【滑动窗口专题】第一讲：长度最小的子数组

软考-系统架构设计师基于架构的软件开发方法详细讲解

电子电气架构 --- 操作系统的基本概念

苏州做网站公司电话wordpress资源分享网

手机能建设网站企业的做网站

Unity笔记(十一)——换装、Spine骨骼动画、3D动画相关

面向汽车网络安全的轻量级加密技术

《投资-114》价值投资者的认知升级与交易规则重构 - 从大规模分工的角度看，如何理解“做正确的事”，即满足下游正确的需求

添加一路AXI总线对DDR进行读写时，XDMA测试不通过

基于python的机器学习（十）—— 评估算法（三）

男女做那个的的视频网站检察院门户网站建设成效

Oracle的SID是什么

Oracle大会临近，23ai 本地版会发布吗？

【Python刷力扣hot100】11. Container With Most Water

通信建设网站做网站主页上主要放哪些内容

《常用 IDL（接口定义语言）详解与对比》

做二手房产网站多少钱河南建设工程信息网站

K230基础-获取触摸坐标

Linux应用--网络编程

鸟哥的Linux私房菜第三部分：学习shell与shell script

鸿蒙中 UDP 数据包发不出去？一文教你从权限到代码彻底排查！

前端小白学习路线（参考）

大连工业大学图书馆网站建设优化培训班

浅谈富文本编辑器

有手机网站了还要微网站吗设计平台兼职

**发散创新：状态函数在编程中的深度应用与实现**在编程领域，状态函数是一个核心概

【OCR】PaddleX