当前位置: 首页 > news >正文

LLMs Tokenizer Byte-Pair Encoding(BPE)

1 Byte-Pair Encoding(BPE) 如何构建词典?

  1. 准备足够的训练语料;以及期望的词表大小;
  2. 将单词拆分为字符粒度(字粒度),并在末尾添加后缀“”,统计单词频率
  3. 合并方式:统计每一个连续/相邻字节对的出现频率,将最高频的连续字节对合并为新的子词;
  4. 重复第3步,直到词表达到设定的词表大小;或下一个最高频字节对出现频率为1。

注:GPT2、BART和LLaMA就采用了BPE。

WordPiece 

1 WordPiece 与 BPE 异同点是什么?

本质上还是BPE的思想。与BPE最大区别在于:如何选择两个子词进行合并

  • BPE是选择频次最大的相邻子词合并;
  • WordPiece算法选择 能够提升语言模型概率最大的相邻子词进行合并,来加入词表

注:BERT采用了WordPiece。

SentencePiece 

简单介绍一下 SentencePiece 思路?

把空格也当作一种特殊字符来处理,再用BPE或者来构造词汇表。

注:ChatGLM、BLOOM、PaLM采用了SentencePiece。

对比篇

    举例 介绍一下 不同 大模型LLMs 的分词方式?

    1. 介绍一下 不同 大模型LLMs的分词方式 的区别?

    1. LLaMA的词表是最小的,LLaMA在中英文上的平均token数都是最多的,这意味着LLaMA对中英文分词都会 比较碎,比较细粒度。尤其在中文上平均token数高达1.45,这意味着LLaMA大概率会将中文字符切分为2个 以上的token。
    2. Chinese LLaMA扩展词表后,中文平均token数显著降低,会将一个汉字或两个汉字切分为一个token,提高了中文编码效率。
    3. ChatGLM-6B是平衡中英文分词效果最好的tokenizer。由于词表比较大中文处理时间也有增加
    4. BLOOM虽然是词表最大的,但由于是多语种的,在中英文上分词效率与ChatGLM-6B基本相当。

    相关文章:

  1. 上位机知识篇---粗细颗粒度
  2. 【前端知识】Vue3状态组件Pinia详细介绍
  3. MySQL:联合查询
  4. 文章四《深度学习核心概念与框架入门》
  5. 虚拟环境配置——Windows11 环境在VMware中部署 OpenStack
  6. 一、Shell 脚本基础
  7. 藏文文本自动分词工具学习实践
  8. 免费抠图--在线网站、无需下载安装
  9. DeepSeek实战--各版本对比
  10. 在网鱼网吧测试文件试验成功
  11. Java 入门:自定义标识符规则解析
  12. 树状数组 + 线段树
  13. 推荐系统(1)--用户协同过滤和物品协同过滤
  14. Codeforces Round 1022 (Div. 2) A ~ C
  15. 「Mac畅玩AIGC与多模态14」开发篇10 - 固定文本输出工作流示例
  16. 广告事件聚合系统设计
  17. 时间给了我们什么?
  18. wsl安装
  19. kubernetes中离线业务编排详解JobCronJob之Job 应用
  20. 字符串的相关方法
  21. 美股三大指数均收涨超1%,热门中概股强势拉升
  22. 海警巡航时海豚围舰艇嬉戏,专家:证明海域生态环境持续向好
  23. 马克思主义理论研究教学名师系列访谈|杜玉华:马克思主义是“认识世界”和“改变世界”的思维工具
  24. 山西太原一处居民小区发生爆炸,现场产生大量浓烟
  25. 辽宁辽阳火灾事故饭店经营者已被控制,善后处置全面展开
  26. 中国银行副行长刘进任该行党委副书记