当前位置: 首页 > news >正文

LLMs Tokenizer Byte-Pair Encoding(BPE)

1 Byte-Pair Encoding(BPE) 如何构建词典?

  1. 准备足够的训练语料;以及期望的词表大小;
  2. 将单词拆分为字符粒度(字粒度),并在末尾添加后缀“”,统计单词频率
  3. 合并方式:统计每一个连续/相邻字节对的出现频率,将最高频的连续字节对合并为新的子词;
  4. 重复第3步,直到词表达到设定的词表大小;或下一个最高频字节对出现频率为1。

注:GPT2、BART和LLaMA就采用了BPE。

WordPiece 

1 WordPiece 与 BPE 异同点是什么?

本质上还是BPE的思想。与BPE最大区别在于:如何选择两个子词进行合并

  • BPE是选择频次最大的相邻子词合并;
  • WordPiece算法选择 能够提升语言模型概率最大的相邻子词进行合并,来加入词表

注:BERT采用了WordPiece。

SentencePiece 

简单介绍一下 SentencePiece 思路?

把空格也当作一种特殊字符来处理,再用BPE或者来构造词汇表。

注:ChatGLM、BLOOM、PaLM采用了SentencePiece。

对比篇

    举例 介绍一下 不同 大模型LLMs 的分词方式?

    1. 介绍一下 不同 大模型LLMs的分词方式 的区别?

    1. LLaMA的词表是最小的,LLaMA在中英文上的平均token数都是最多的,这意味着LLaMA对中英文分词都会 比较碎,比较细粒度。尤其在中文上平均token数高达1.45,这意味着LLaMA大概率会将中文字符切分为2个 以上的token。
    2. Chinese LLaMA扩展词表后,中文平均token数显著降低,会将一个汉字或两个汉字切分为一个token,提高了中文编码效率。
    3. ChatGLM-6B是平衡中英文分词效果最好的tokenizer。由于词表比较大中文处理时间也有增加
    4. BLOOM虽然是词表最大的,但由于是多语种的,在中英文上分词效率与ChatGLM-6B基本相当。
    http://www.dtcms.com/a/169235.html

    相关文章:

  1. 上位机知识篇---粗细颗粒度
  2. 【前端知识】Vue3状态组件Pinia详细介绍
  3. MySQL:联合查询
  4. 文章四《深度学习核心概念与框架入门》
  5. 虚拟环境配置——Windows11 环境在VMware中部署 OpenStack
  6. 一、Shell 脚本基础
  7. 藏文文本自动分词工具学习实践
  8. 免费抠图--在线网站、无需下载安装
  9. DeepSeek实战--各版本对比
  10. 在网鱼网吧测试文件试验成功
  11. Java 入门:自定义标识符规则解析
  12. 树状数组 + 线段树
  13. 推荐系统(1)--用户协同过滤和物品协同过滤
  14. Codeforces Round 1022 (Div. 2) A ~ C
  15. 「Mac畅玩AIGC与多模态14」开发篇10 - 固定文本输出工作流示例
  16. 广告事件聚合系统设计
  17. 时间给了我们什么?
  18. wsl安装
  19. kubernetes中离线业务编排详解JobCronJob之Job 应用
  20. 字符串的相关方法
  21. 5.2刷题
  22. shell(6)
  23. btrace1.0使用方法
  24. 超预期!淘宝闪购提前开放全国全量,联合饿了么扭转外卖战局
  25. ARConv的复现流程
  26. 算法笔记.分解质因数
  27. 值此五一劳动节来临之际,
  28. 【Java IO流】字符输入流FileReader、字符输出流FileWriter
  29. CMake separate_arguments用法详解
  30. 全国信息素养大赛 图形化挑战赛~复赛练习-在正方形内吗?