当前位置: 首页 > wzjs >正文

建设网站服务器 知乎vr全景怎么做小程序

建设网站服务器 知乎,vr全景怎么做小程序,廊坊网站推广公司,想学做网站可以在哪学每天5分钟搞懂大模型的分词器tokenizer(二):BPE (Byte-Pair Encoding) BPE (Byte-Pair Encoding) 字节对编码 (BPE) 最初是作为一种压缩文本的算法开发的,最早是由Philip Gage于1994年在《A New Algorithm for Data Compression…

每天5分钟搞懂大模型的分词器tokenizer(二):BPE (Byte-Pair Encoding)

BPE (Byte-Pair Encoding)

字节对编码 (BPE) 最初是作为一种压缩文本的算法开发的,最早是由Philip Gage于1994年在《A New Algorithm for Data Compression》一文中提出,后来被 OpenAI 在预训练 GPT 模型时用于分词器(Tokenizer)。它被许多 Transformer 模型使用,包括 GPT、GPT-2、RoBERTa、BART 和 DeBERTa。

 

本文尝试用最直观的语言和示例来解释 BPE 算法

本文的分词是在英文(拉丁语系)状态下进行的,中文状态下的分词会在后续的文章中讨论。

1. 直觉式理解

假设我们有一份语料,其中包含以下单词:

faster</ w>: 8, higher</ w>:6, stronger</ w>:7

其中,数字表示单词出现的次数。

注: </ w> 表示单词的结束,使用 "w" 是因为它是 "word" 的首字母,这是一种常见的命名约定。然而,具体的标记token可能会根据不同的实现或者不同的分词方法有所不同。

首先,我们将其中的每个字符作为一个 token,得到的 token 如下:

f a s t e r</ w>: 8, h i g h e r</ w>: 6, s t r o n g e r</ w>: 7

对应的字典如下:

'a', 'e', 'f', 'g', 'h', 'i', 'n', 'o', 'r', 's', 't', 'r</ w>'

第二步,我们统计每两个token相邻出现的次数,得到如下结果:

'fa':8,'as':8,'st':15,'te':8,'er</ w>':21,'hi':6,'ig':6,'gh':6,'he':6,'tr':7,'ro':7,'on':7,'ng':7,'ge':7

8+8+15+8+21+6+6+6+6+7+7+7+7+7=115

我们将出现次数最多的字符'e'和'r</ w>'对合并'er</ w>'【这就是byte pair 字节对的名称由来】,token变为:

f a s t er</ w>: 8, h i g h er</ w>: 6, s t r o n g er</ w>: 7

对应的字典变化为:

'a', 'f', 'g', 'h', 'i', 'n', 'o', 's','r', 't', 'er</ w>'

注意: 此时的'e'和'r</ w>'被'er'消融了,因为在token中除了'er'中有'e'和'r</ w>'其他地方都没有。

第三步,现在'er</ w>'已经是一个token了,我们继续统计相邻token出现的次数,得到如下结果:

'fa':8,'as':8,'st':15,'ter</ w>':8,'hi':6,'ig':6,'gh':6,'her</ w>':6,'tr':7,'ro':7,'on':7,'ng':7,'ger</ w>':7

我们将出现次数最多的字符't'和'er</ w>'对合并'ter</ w>',token变为:

f a s ter</ w>: 8, h i g h er</ w>: 6, s t r o n g er</ w>: 7

对应的字典变化为:

'a', 'f', 'g', 'h', 'i', 'n', 'o', 's','r', 't', 'er</ w>', 'ter</ w>'

注意: 此时的'er</ w>'和't'都没有被'ter</ w>'消融了,因为在token中除了'ter</ w>'中有'er</ w>',其他地方也有'er</ w>'和't'

重复上述步骤,直到达到预设的token数量或者达到预设的迭代次数;

这两个就是BPE算法的超参数,可以根据实际情况调整。

搞清楚了BPE,后续我们再来看wordpiece和sentencepiece。

http://www.dtcms.com/wzjs/830373.html

相关文章:

  • 无为网站建设wordpress设计博客
  • 中国建设银行信用卡网站网站制作厂家
  • 长春建网站一般多少钱临海做网站的公司
  • 赣榆区住房和城乡建设局网站软件开发外包公司哪个好
  • 房地产网站推荐系统之家一键重装
  • 建立互联网公司网站装修公司企业网站开发规划
  • logo参考网站wordpress 自适应门户
  • 好网站建设公司收费15年做那些网站致富
  • 网站开发设计师培训青岛网站建设多少钱
  • 个人电子商务网站建设三网合一网站建设全包费用
  • 网站如何不需要备案零基础学习网站开发
  • 电子商务html网站模板东阳畅销自适应网站建设
  • 建筑网站 知乎wordpress导入文件
  • 建立网站站建设可以吗WordPress调用内部js
  • 系部网站建设需求分析运行需求常熟开发区人才网
  • 上海平台网站建设报景区官方网站建设
  • 建设一个电商网站的步骤新沂网站开发
  • 书店网站网站建设规划书苏州网站建设案例
  • 相城区住房建设局网站长沙加度网络科技有限公司
  • 蓬莱做网站价格太原关键词优化软件
  • 怎么用php语言做网站国美的网站做的怎么样
  • 服务器ip做网站建设网站企业哪家好
  • 怎么在百度建设网站网站开发新加坡
  • aspcms网站地图生成网站建设提供资料
  • 商丘三合一网站建设孝感网站开发
  • 美容店网站建设西安网站建设系统开发
  • p2p网站建设框架wordpress文章时间
  • 网站seo技巧wordpress调用分类名
  • 太原免费静态网页制作网站长安手机网站建设
  • 设计类平台网站wordpress新站注意事项