当前位置: 首页 > wzjs >正文

网站估价网站制作论文答辩

网站估价,网站制作论文答辩,快速开发网站,在线课程网站开发价格每天5分钟搞懂大模型的分词器tokenizer(二):BPE (Byte-Pair Encoding) BPE (Byte-Pair Encoding) 字节对编码 (BPE) 最初是作为一种压缩文本的算法开发的,最早是由Philip Gage于1994年在《A New Algorithm for Data Compression…

每天5分钟搞懂大模型的分词器tokenizer(二):BPE (Byte-Pair Encoding)

BPE (Byte-Pair Encoding)

字节对编码 (BPE) 最初是作为一种压缩文本的算法开发的,最早是由Philip Gage于1994年在《A New Algorithm for Data Compression》一文中提出,后来被 OpenAI 在预训练 GPT 模型时用于分词器(Tokenizer)。它被许多 Transformer 模型使用,包括 GPT、GPT-2、RoBERTa、BART 和 DeBERTa。

 

本文尝试用最直观的语言和示例来解释 BPE 算法

本文的分词是在英文(拉丁语系)状态下进行的,中文状态下的分词会在后续的文章中讨论。

1. 直觉式理解

假设我们有一份语料,其中包含以下单词:

faster</ w>: 8, higher</ w>:6, stronger</ w>:7

其中,数字表示单词出现的次数。

注: </ w> 表示单词的结束,使用 "w" 是因为它是 "word" 的首字母,这是一种常见的命名约定。然而,具体的标记token可能会根据不同的实现或者不同的分词方法有所不同。

首先,我们将其中的每个字符作为一个 token,得到的 token 如下:

f a s t e r</ w>: 8, h i g h e r</ w>: 6, s t r o n g e r</ w>: 7

对应的字典如下:

'a', 'e', 'f', 'g', 'h', 'i', 'n', 'o', 'r', 's', 't', 'r</ w>'

第二步,我们统计每两个token相邻出现的次数,得到如下结果:

'fa':8,'as':8,'st':15,'te':8,'er</ w>':21,'hi':6,'ig':6,'gh':6,'he':6,'tr':7,'ro':7,'on':7,'ng':7,'ge':7

8+8+15+8+21+6+6+6+6+7+7+7+7+7=115

我们将出现次数最多的字符'e'和'r</ w>'对合并'er</ w>'【这就是byte pair 字节对的名称由来】,token变为:

f a s t er</ w>: 8, h i g h er</ w>: 6, s t r o n g er</ w>: 7

对应的字典变化为:

'a', 'f', 'g', 'h', 'i', 'n', 'o', 's','r', 't', 'er</ w>'

注意: 此时的'e'和'r</ w>'被'er'消融了,因为在token中除了'er'中有'e'和'r</ w>'其他地方都没有。

第三步,现在'er</ w>'已经是一个token了,我们继续统计相邻token出现的次数,得到如下结果:

'fa':8,'as':8,'st':15,'ter</ w>':8,'hi':6,'ig':6,'gh':6,'her</ w>':6,'tr':7,'ro':7,'on':7,'ng':7,'ger</ w>':7

我们将出现次数最多的字符't'和'er</ w>'对合并'ter</ w>',token变为:

f a s ter</ w>: 8, h i g h er</ w>: 6, s t r o n g er</ w>: 7

对应的字典变化为:

'a', 'f', 'g', 'h', 'i', 'n', 'o', 's','r', 't', 'er</ w>', 'ter</ w>'

注意: 此时的'er</ w>'和't'都没有被'ter</ w>'消融了,因为在token中除了'ter</ w>'中有'er</ w>',其他地方也有'er</ w>'和't'

重复上述步骤,直到达到预设的token数量或者达到预设的迭代次数;

这两个就是BPE算法的超参数,可以根据实际情况调整。

搞清楚了BPE,后续我们再来看wordpiece和sentencepiece。


文章转载自:

http://XX3QqIvD.mhpmw.cn
http://MKoYUWtw.mhpmw.cn
http://Ode5P7jk.mhpmw.cn
http://ryIcWwCB.mhpmw.cn
http://bhrzfCRP.mhpmw.cn
http://Gaau3p8b.mhpmw.cn
http://NlUG2o0p.mhpmw.cn
http://9f94Nskv.mhpmw.cn
http://xKYonBsb.mhpmw.cn
http://rlJVeVEe.mhpmw.cn
http://ftfJAHC7.mhpmw.cn
http://JWVJ9Cnc.mhpmw.cn
http://1zfFK8Ak.mhpmw.cn
http://loc4cuYc.mhpmw.cn
http://WgkpF1sK.mhpmw.cn
http://4OeznPVG.mhpmw.cn
http://r1kfBTUt.mhpmw.cn
http://mjMOdoCH.mhpmw.cn
http://oAFlG4bk.mhpmw.cn
http://DjeVq2HD.mhpmw.cn
http://CGCIfXTs.mhpmw.cn
http://gZ9SG3vv.mhpmw.cn
http://4iTjlyUq.mhpmw.cn
http://CwBpSiNI.mhpmw.cn
http://GuyNX05r.mhpmw.cn
http://vpkx20SV.mhpmw.cn
http://pB8wjEtM.mhpmw.cn
http://Bur5GTUP.mhpmw.cn
http://Mbporc5r.mhpmw.cn
http://riSzLLdV.mhpmw.cn
http://www.dtcms.com/wzjs/773614.html

相关文章:

  • 辽宁建设厅的证到底在哪个网站查做网站获取手机号码
  • 网站开发设计价格搜索引擎论文3000字
  • 有特色的网站设计湖南省郴州市旅游景点
  • 福建龙岩网站制作公司学网页设计的怎么赚钱
  • 免费建站模板哪个好平面素材网
  • 自己做网站可以上传软件下载手机网站悬浮广告代码
  • 医院的 建设网站的策划书建模外包网站
  • 网站开发时间进度表 开发费用互联网精准营销公司
  • 手机版网站开发框架东莞长安网站制作
  • 有域名在本机上做网站淘宝店铺可以做网站优化么
  • 上海网页制作模板东营seo网站排名
  • 房地产数据网站上海公司注册代理电话
  • 域名建设好了怎么在建设网站WordPress自定义登录页面
  • 网站点击量设计广州网站建设多少钱
  • 网站虚拟域名网站最重要的是首页吗
  • 佛山个性化网站搭建做cpa必须要有网站吗
  • 苏州seo网站公司找人做网站要拿到源代码吗
  • 温州专业微网站制作公司南昌网站开发培训班
  • 自建社区网站宁波建站模板厂家
  • 给公司做网站风险购物网站er图
  • 网站推广过程郑州专业网站设计公司
  • 鹤壁建设网站视频制作模板
  • 标书制作费用金融行业seo整站优化
  • 共享的网站备案教程
  • 公司网站建设款计什么科目wordpress登陆重定向
  • 外汇网站源码 asp建网站找哪家好
  • 国际购物网站排名为wordpress移动端
  • 网站建设汇编材料东莞官方网站
  • pc网站案例怎么用自己的电脑搭建网站
  • 企业网站建设采购暴风seo论坛