当前位置：首页 > news >正文

LLMs Tokenizer Byte-Pair Encoding(BPE)

news 2025/10/30 22:53:49

1 Byte-Pair Encoding(BPE) 如何构建词典？

准备足够的训练语料;以及期望的词表大小；
将单词拆分为字符粒度(字粒度)，并在末尾添加后缀“”，统计单词频率
合并方式:统计每一个连续/相邻字节对的出现频率，将最高频的连续字节对合并为新的子词；
重复第3步，直到词表达到设定的词表大小;或下一个最高频字节对出现频率为1。

注：GPT2、BART和LLaMA就采用了BPE。

WordPiece 篇

1 WordPiece 与 BPE 异同点是什么？

本质上还是BPE的思想。与BPE最大区别在于:如何选择两个子词进行合并

BPE是选择频次最大的相邻子词合并;
WordPiece算法选择能够提升语言模型概率最大的相邻子词进行合并，来加入词表

注：BERT采用了WordPiece。

SentencePiece 篇

简单介绍一下 SentencePiece 思路？

把空格也当作一种特殊字符来处理，再用BPE或者来构造词汇表。

注：ChatGLM、BLOOM、PaLM采用了SentencePiece。

对比篇

举例介绍一下不同大模型LLMs 的分词方式？

介绍一下不同大模型LLMs的分词方式的区别？

LLaMA的词表是最小的，LLaMA在中英文上的平均token数都是最多的，这意味着LLaMA对中英文分词都会比较碎，比较细粒度。尤其在中文上平均token数高达1.45，这意味着LLaMA大概率会将中文字符切分为2个以上的token。
Chinese LLaMA扩展词表后，中文平均token数显著降低，会将一个汉字或两个汉字切分为一个token，提高了中文编码效率。
ChatGLM-6B是平衡中英文分词效果最好的tokenizer。由于词表比较大，中文处理时间也有增加
BLOOM虽然是词表最大的，但由于是多语种的，在中英文上分词效率与ChatGLM-6B基本相当。

http://www.dtcms.com/a/169235.html

相关文章：

上位机知识篇---粗细颗粒度

【前端知识】Vue3状态组件Pinia详细介绍

MySQL：联合查询

文章四《深度学习核心概念与框架入门》

虚拟环境配置——Windows11 环境在VMware中部署 OpenStack

一、Shell 脚本基础

藏文文本自动分词工具学习实践

免费抠图--在线网站、无需下载安装

DeepSeek实战--各版本对比

在网鱼网吧测试文件试验成功

Java 入门：自定义标识符规则解析

树状数组 + 线段树

推荐系统(1)--用户协同过滤和物品协同过滤

Codeforces Round 1022 (Div. 2) A ~ C

「Mac畅玩AIGC与多模态14」开发篇10 - 固定文本输出工作流示例

广告事件聚合系统设计

时间给了我们什么？

wsl安装

kubernetes中离线业务编排详解JobCronJob之Job 应用

字符串的相关方法

5.2刷题

shell（6）

btrace1.0使用方法

超预期！淘宝闪购提前开放全国全量，联合饿了么扭转外卖战局

ARConv的复现流程

算法笔记.分解质因数

值此五一劳动节来临之际，

【Java IO流】字符输入流FileReader、字符输出流FileWriter

CMake separate_arguments用法详解

全国信息素养大赛图形化挑战赛~复赛练习-在正方形内吗？